Dispositivo y método de salida de audio
Descripción general
 Se puede proporcionar un dispositivo de salida de audio y un método capaz de ajustar fácilmente el volumen de salida. ] Leer de la base de datos de imagen para almacenar una pluralidad de elementos de imagen por adelantado, y la etapa de síntesis de la combinación de la pluralidad de elementos de imagen, y una etapa de visualización de visualizar una imagen compuesta obtenida por la composición, parte de la imagen visualizada salida de paso un paso de entrada de introducir una instrucción, a la salida de un paso cambiante de cambiar el área sobre la base de la instrucción, el volumen del sonido que se asocia a la zona de los elementos de imagen de la parte para el cambio de la zona de los elementos de imagen .
Campo técnico
Campo técnico La presente invención se refiere a un dispositivo de salida de audio y a un método para controlar el volumen de salida de audio utilizando una interfaz gráfica de usuario.
Antecedentes de la técnica
Convencionalmente, cuando el sonido se emite desde una computadora, el volumen se ajusta mediante un interruptor mecánico de volumen, una entrada de comando de ajuste de volumen desde el teclado, una barra deslizante que se muestra en la pantalla, o similar.
Tarea de solución
Sin embargo, cuando se proporciona un interruptor de volumen mecánico, el precio del dispositivo es alto. Al usar el comando de ajuste de volumen, el operador debe recordar el comando. La barra deslizadora tampoco es intuitiva para el operador, y en particular para los niños, existía el problema de que es difícil comprender el método de operación.
Sumario de la invención Por lo tanto, un objeto de la presente invención es proporcionar un aparato y método de salida de audio capaz de resolver tales problemas y ajustar fácilmente el volumen de la salida de audio.
Solución
Para lograr el objeto anterior, la invención según la reivindicación 1 se caracteriza porque comprende una base de datos de imágenes para almacenar una pluralidad de elementos de imagen, medios para sintetizar dichos elementos de imagen leídos de dicha base de datos de imágenes, Un medio de entrada para ingresar una instrucción para cambiar un área de una parte de los elementos de imagen en la imagen mostrada; un medio de cambio para cambiar el área sobre la base de la instrucción; Y la salida de sonido significa para emitir sonido de volumen correspondiente al área de algunos elementos de imagen.
De acuerdo con un segundo aspecto de la presente invención, en la base de datos de imágenes, la primera forma indica que el volumen es cero y la segunda forma indica que el volumen del sonido es el máximo Y el medio cambiante almacena la primera forma, la segunda forma o una forma intermedia obtenida al interpolar las formas primera y segunda en función de la instrucción introducida desde los medios de entrada Se muestra.
De acuerdo con un tercer aspecto de la presente invención, la base de datos de imágenes almacena una pluralidad de formas de los elementos de imágenes parciales, y los medios cambiantes seleccionan una forma diferente de una forma que se muestra actualmente a partir de la pluralidad de formas .
La invención según la reivindicación 4 se caracteriza porque la imagen sintética es una imagen de la cara y el elemento de la imagen parcial es una imagen de la boca.
Según un quinto aspecto de la presente invención, se proporciona un aparato de procesamiento de información que incluye medios de almacenamiento de texto para almacenar datos de texto, medios de conversión para convertir el texto leído de los medios de retención de texto en sonido, y los medios de salida de sonido Y emite el discurso.
La invención según la reivindicación 6, leer de la base de datos de imagen para almacenar una pluralidad de elementos de imagen por adelantado, y la etapa de síntesis de la combinación de la pluralidad de elementos de imagen, y una etapa de visualización de visualizar una imagen compuesta obtenida por la composición, Un paso de entrada para ingresar una instrucción para cambiar un área de una parte de los elementos de imagen en la imagen mostrada, un paso de cambio para cambiar el área según la instrucción, un paso para asociar el área del elemento de imagen parcial Y un paso de salida de salida del sonido del volumen.
De acuerdo con un séptimo aspecto de la presente invención, en la base de datos de imágenes, la primera forma indica que el volumen del sonido es cero y la segunda forma indica que el volumen del sonido es el máximo de los elementos de la imagen parcial Y el paso cambiante se realiza al interpolar el primer formulario, el segundo formulario o el primer y segundo formulario según las instrucciones ingresadas en el paso de entrada Se muestra una de las formas intermedias.
La invención según la reivindicación 8 se caracteriza porque la base de datos de imágenes almacena previamente una pluralidad de formas de los elementos de imagen parciales y la etapa de cambio difiere de la forma mostrada actualmente de la pluralidad de formas Y selecciona y muestra el formulario.
De acuerdo con un noveno aspecto de la presente invención, la imagen sintética es una imagen de una cara, y la parte de los elementos de imagen es una imagen de la boca.
Según un décimo aspecto de la presente invención, se proporciona un aparato de almacenamiento de texto que comprende medios de almacenamiento de texto para almacenar datos de texto por adelantado, que comprende además una etapa de conversión para convertir el texto leído del medio de almacenamiento de texto en sonido, Y emite la voz convertida.
Según el primer o sexto aspecto de la presente invención, se sintetizan y visualizan una pluralidad de elementos de imagen leídos de la base de datos de imágenes, y se introduce una instrucción para cambiar el área de una parte de los elementos de imagen en la imagen mostrada. Luego, en función de las instrucciones, se cambia el área de una parte de los elementos de la imagen y, al mismo tiempo, se emite el sonido del volumen correspondiente al área modificada.
De acuerdo con el segundo aspecto de la invención, la base de datos de imágenes incluye una primera forma que indica que el volumen del sonido es cero y una segunda forma que indica que el volumen del sonido es el máximo en una parte de los elementos de la imagen , Y muestra uno de la primera forma, la segunda forma y la forma intermedia obtenida al interpolar las formas primera y segunda en función de la instrucción de entrada , Y emite un sonido que tiene un volumen correspondiente al área de una parte de la imagen mostrada.
De acuerdo con el tercer u octavo aspecto de la presente invención, la base de datos de imágenes almacena previamente una pluralidad de formas de una parte de los elementos de imagen, y en base a la instrucción de entrada, Selecciona y muestra diferentes formas, y emite sonido de volumen correspondiente al área de una parte de las imágenes mostradas.
De acuerdo con la invención de la reivindicación 4 o la reivindicación 9, una imagen de una cara se muestra como una imagen compuesta, el área de la imagen de la boca en el mismo se cambia, la correspondencia con el área de la imagen de la boca modificada Se emite el audio del volumen que sale.
De acuerdo con el quinto o décimo aspecto de la presente invención, el texto leído desde los medios de retención de texto se convierte en voz, y el sonido se emite al volumen correspondiente al área cambiada.
Ejemplos
En lo sucesivo, las realizaciones de la presente invención se describirán en detalle con referencia a los dibujos.
La figura 1 es un diagrama de bloques que muestra una configuración de un aparato de salida de sonido de acuerdo con una realización de la presente invención. En la figura, el número de referencia 1 denota un medio de entrada para introducir comandos y datos de un usuario, y está compuesto, por ejemplo, por un teclado y un dispositivo señalador tal como un mouse. Un medio de control de visualización 2 para controlar la visualización de la imagen correspondiente a la entrada de los medios de entrada 1 y un medio de visualización 3 para visualizar la imagen emitida desde los medios de control de visualización 2. 4 es una base de datos de imágenes para almacenar elementos de imágenes tales como caras visualizadas en los medios de visualización.
La figura 2 muestra un ejemplo de elementos de imagen almacenados en la base de datos de imágenes 4. La base de datos de imágenes 4 tiene archivos de elementos de imagen de 'ojos', 'nariz', 'boca', 'contorno' y 'cabello' como elementos constitutivos de una imagen de rostro humano. En cada archivo de elemento de imagen, como se muestra en la figura 2, se almacena la forma de la imagen por defecto de cada componente y la forma de la imagen deformada obtenida mediante la transformación de la imagen por defecto. La imagen predeterminada y la imagen deformada son escalables y pueden ampliarse o reducirse basándose en la entrada de los medios de entrada 1 o similar.
El medio de control de visualización 2 extrae las imágenes necesarias de cada archivo de elementos de imagen, cambia el tamaño según sea necesario, sintetiza las imágenes respectivas y las visualiza en los medios de visualización 3. Además, los medios de control de visualización 2 pueden formar una imagen intermedia de una pluralidad de formas interpolando una pluralidad de formas de un elemento de imagen almacenado en un archivo de imagen.
El medio de retención de texto 5 almacena el texto de entrada para ser sometido a síntesis de voz. Cuando el comando de inicio de síntesis de voz se introduce desde el medio de entrada 1, el medio de control central 10 lee el texto del medio de retención de texto de entrada 6 y lo transfiere al medio de síntesis de voz 6. Entonces, la sintetización de voz significa que 6 sintetiza la voz en base al texto transferido.
Los medios de control central 10 controlan los medios de control de volumen de sonido 7 de acuerdo con la instrucción de volumen introducida desde los medios de entrada 1. Los medios de control de volumen 7 aumentan la entrada de sonido desde los medios de síntesis de voz 6 bajo el control de los medios de control central 10 y los emite al parlante 8.
La Figura 3 es un diagrama de flujo que muestra el funcionamiento de los medios de control central 10 de la FIG. Además, la figura 4 muestra un ejemplo de una imagen de cara mostrada en el medio de visualización 3 de acuerdo con la operación mostrada en el diagrama de flujo de la figura 3. El funcionamiento del aparato de salida de audio se describirá con referencia a ambas figuras. En el paso (abreviado como S) 101 (Fig. 3), a través de la unidad de control de visualización 2, 'ojos' del archivo de imagen almacenado en la base de datos de imagen 4, 'nariz', 'boca', 'contorno' y 'pelo ', Lee la imagen predeterminada de cada elemento de datos de imagen, combina las imágenes predeterminadas leídas y muestra la imagen 41 (figura 4) en el medio de visualización 3.
En S102, se determina si la parte de boca es designada o no por el dispositivo señalador como un ejemplo de 'una parte de los elementos de imagen' en la imagen de cara mostrada. La parte de la boca se puede especificar moviendo el puntero del mouse sobre la boca y presionando el botón del mouse como se muestra en la imagen 42 (Figura 4), por ejemplo.
El dispositivo de control central 10 puede determinar que la boca se ha designado a condición de que el puntero esté en la parte de la boca y se presione el botón del ratón. Si la parte de la boca no está designada, el proceso vuelve a S102. Si se ha especificado la parte de boca, el flujo avanza a S103 para leer la imagen cuya boca se ha abierto moderadamente desde la base de datos de imágenes 4 y visualizarla en el medio de visualización en lugar de la imagen predeterminada de boca. Un ejemplo de la imagen mostrada en S103 se muestra en la imagen 43 (figura 4).
En S104, los medios de control de volumen 7 se ajustan para aumentar el sonido moderadamente. El texto se lee desde el medio de retención de texto y se transfiere al medio de síntesis de voz 6. Entonces, el medio 6 de síntesis de voz sintetiza la voz, el medio 7 de control de volumen amplía la voz moderadamente, y la voz se emite desde el altavoz 8. En S105, la sintetización de voz significa que 6 juzga si la salida de sonido ha finalizado o no. Si la salida del sonido no ha finalizado, el proceso pasa a S106, y si la salida del sonido se completa, el proceso pasa a S115.
En S106, se detecta si la parte bucal está especificada o no por el dispositivo señalador. Si no se especifica la parte de la boca, el proceso vuelve a S105. Si la parte de la boca se especifica en S106, se determina si se ha introducido una instrucción para agrandar la imagen de la boca (S107). La imagen de la boca se puede agrandar manteniendo presionado el botón del mouse y alejando el puntero del centro de la boca. Si no se trata de una operación para agrandar la imagen de la boca en S107, el proceso pasa a S110.
Si en S107 se determina que la imagen de la boca se va a ampliar, los medios de control de volumen 7 aumentan el factor de amplificación del sonido de acuerdo con la cantidad de movimiento del ratón (S108). En S109, la boca imagen abierta moderadamente, mediante la interpolación de la boca imagen muy abiertos, que forma la imagen de la boca abierta de acuerdo con la cantidad de movimiento del ratón se muestra en el medio de visualización 3. Sin embargo, también es posible preparar de antemano una imagen de boca abierta en varios tamaños, leer una imagen apropiada de acuerdo con la cantidad de movimiento del mouse y visualizarla en el medio de visualización 3. Un ejemplo de la imagen mostrada en S109 se muestra en la imagen 44 (figura 4).
En S110, se determina si se ha ingresado o no una instrucción para reducir la imagen de la boca. La imagen de la boca se puede reducir moviendo el puntero en la dirección para acercarse al centro de la boca mientras se presiona el botón del mouse. Cuando se introduce una instrucción para reducir la boca, el factor de amplificación del volumen del sonido por los medios de control de sonido se reduce de acuerdo con la cantidad de movimiento del mouse (S 111). La imagen de la boca pequeña se lee desde la base de datos de imágenes 4 a través del medio de control de visualización 2 y se visualiza en el medio de visualización 3 (S112), y el proceso vuelve a S105.
Por ejemplo, la imagen 45 y el puntero se mueve lejos de la imagen boca como se muestra en la (Fig. 4), si no se ha introducido la instrucción para reducir la boca en S110, se determina si una instrucción para detener la salida de la voz es de entrada (S 113). El sonido se puede detener, por ejemplo, haciendo clic en la imagen de la boca en la imagen de la cara que se muestra en la pantalla significa 3. En este caso, en S 113, el medio de control central 10 determina que se ha introducido una instrucción para detener la salida de sonido a condición de que el puntero esté en la imagen de la boca y se presione el botón del mouse.
Si no se indica que detenga la salida en S 113, el proceso vuelve a S 105. Si la entrada es una instrucción para detener la salida de S113 para detener el sonido de la síntesis por la sección de síntesis de voz 6 (S114), unas imágenes predeterminadas cerrados desde el archivo de imagen boca de la base de datos de imagen 4 desde el archivo de imagen 'boca' Lee y lo reemplaza con la parte de la boca de la imagen de la cara que ya se muestra, y lo muestra (S 115). La imagen mostrada en S 115 se muestra en la imagen 46 (figura 4). Después de S 115, el proceso vuelve a S 102.
(Otros) En la primera realización, se instruye una imagen de boca usando un ratón como un dispositivo señalador, pero siempre que el 'medio de designación' de la imagen pueda designar la imagen de la boca mostrada en el medio de visualización Otros dispositivos de entrada como un bolígrafo, un digitalizador, etc. pueden ser suficientes.
Mientras se muestra la flecha, como un ejemplo del puntero 4, el puntero es suficiente si la pantalla que la boca se muestra en el medio de visualización se designa, se puede utilizar micrófonos forma de punteros, como se muestra en la Fig. 5, por ejemplo .
En la primera realización, cuando se inicia la salida de voz, la imagen se cambia a la imagen con la boca abierta, pero el método de cambiar la imagen de la boca no se limita a esto. Por ejemplo, la porción de boca puede moverse como una imagen en movimiento como una animación. En este caso, el movimiento de la parte de la boca puede aumentar de acuerdo con el tamaño del sonido.
En la primera realización, la síntesis del sonido se inicia haciendo clic en la imagen de la boca con el puntero, pero la salida del sonido se puede iniciar moviendo el icono que representa el texto para emitir como sonido a la parte de la boca .
En la primera realización, el sonido se envía al altavoz, pero los 'medios de salida' del sonido no están limitados al altavoz sino que pueden grabarse en la cinta de grabación emitiendo a la platina de grabación de sonido, por ejemplo.
En la primera realización, se especifica una imagen de 'boca' usando el dispositivo señalador, y se amplía o reduce, pero en lugar del dispositivo apuntador, puede ampliarse o reducirse mediante el teclado.
En la primera realización, el sonido se detiene al hacer clic en la imagen de la boca, pero el sonido puede detenerse, por ejemplo, haciendo clic en el botón 'detener' que se muestra en la pantalla.
La presente invención se puede aplicar tanto a un sistema constituido por una pluralidad de aparatos como a un solo aparato. Además, la presente invención se puede implementar leyendo un programa en un sistema o un aparato. Huelga decir que el efecto del Artículo 101 de la Ley de Patentes del derecho de patente de esta aplicación se extiende al medio de registro que describe dicho programa.
Efecto de la invención
Como es evidente a partir de la descripción anterior, de acuerdo con el primer o el sexto aspecto de la presente invención, se sintetizan y visualizan una pluralidad de elementos de imagen leídos de la base de datos de imágenes, y una parte de la imagen mostrada Introduce una instrucción para cambiar el área del elemento, cambia el área de una parte del elemento de imagen según las instrucciones y emite el sonido del volumen correspondiente al área modificada. De esta forma, dado que el volumen de sonido del sonido a emitir se hace corresponder con el área de la imagen, el control del volumen del sonido es fácil de entender para el usuario, y el control se vuelve fácil.
De acuerdo con el segundo o el séptimo aspecto de la presente invención, la primera forma, la segunda forma o la primera y segunda formas del elemento de imagen se interpolan en base a la instrucción de entrada. Y emite un sonido con un volumen correspondiente al área de una parte de la imagen mostrada. Dado que la forma intermedia entre la primera forma y la segunda forma se interpola y se emite en lugar de almacenar por adelantado la forma de todas las imágenes que se mostrarán, es necesario comparar la forma. Es posible reducir la capacidad de almacenamiento de datos.
De acuerdo con el tercer u octavo aspecto de la presente invención, la base de datos de imágenes almacena previamente una pluralidad de formas de una parte de los elementos de imagen, y en base a la instrucción de entrada, Selecciona y muestra diferentes formas, y emite sonido de volumen correspondiente al área de una parte de las imágenes mostradas. Dado que la pluralidad de formas que se mostrarán se almacenan de antemano, es posible cambiar fácilmente el área de la imagen que se mostrará.
De acuerdo con la invención de la reivindicación 4 o la reivindicación 9, una imagen de una cara se muestra como una imagen compuesta, el área de la imagen de la boca en el mismo se cambia, la correspondencia con el área de la imagen de la boca modificada El sonido del volumen del sonido sale. Dado que el volumen del sonido se controla mediante una instrucción en la interfaz gráfica en forma de boca, el control de volumen para el usuario es fácil de entender de forma intuitiva, y el control de volumen es más fácil. Particularmente, cuando el área es la más pequeña, al detener la salida de sonido, el inicio y la parada de la salida de sonido se pueden controlar fácilmente.
De acuerdo con el quinto aspecto de la invención, el texto leído desde los medios de retención de texto se convierte en sonido, y el sonido se emite con el volumen correspondiente al área cambiada. Por lo tanto, es posible controlar fácilmente el volumen del sonido en el momento de la lectura de texto con una interfaz fácil de entender.
La figura 1 es un diagrama de bloques que muestra una configuración de un dispositivo de salida de audio de acuerdo con una realización de la presente invención.
La figura 2 es una vista explicativa que muestra un ejemplo de una imagen de cada archivo de datos almacenado en una base de datos de imágenes.
La figura 3 es un diagrama de flujo que muestra un procedimiento de procesamiento de un dispositivo de salida de voz de acuerdo con una realización de la presente invención.
La figura 4 es un diagrama explicativo que ilustra una imagen mostrada por la operación mostrada en el diagrama de flujo de la figura 3.
La figura 5 es un diagrama explicativo para explicar una imagen mostrada de acuerdo con una realización de la presente invención.
1 entrada significa
2 medios de control de visualización
3 medios de visualización
4 base de datos de imágenes
5 Tenencia de texto significa
6 medios de síntesis del habla
7 medios de control de volumen
8 altavoces
10 medios de control central
Reclamo
Una base de datos de imagen para el almacenamiento de la reivindicación 1 una pluralidad de elementos de imagen, y medios para combinar el elemento de imagen leído de la base de datos de imagen, y medios para visualizar la imagen sintetizada obtenida sintetizando, en la imagen visualizada medios de entrada para introducir una instrucción para cambiar el área de la porción de los elementos de imagen, y medios de cambio para el cambio de la zona en la base de la instrucción, el volumen del sonido que se asocia a la zona de los elementos de imagen de dicha salida porción Y una unidad de salida de sonido que emite el sonido.
2. El aparato de procesamiento de imágenes según la reivindicación 1, donde la base de datos de imágenes almacena una primera forma que indica que el volumen de sonido es cero y una segunda forma que indica que el volumen de sonido es el máximo de los elementos de imagen parciales, Se caracteriza por mostrar una forma intermedia obtenida por interpolación de la primera forma, la segunda forma o la primera y segunda formas, sobre la base de una instrucción de entrada desde los medios de entrada Al dispositivo de salida de sonido según la reivindicación 1.
3. El aparato de procesamiento de imágenes según la reivindicación 1, donde la base de datos de imágenes almacena una pluralidad de formas de los elementos de imagen parciales, y la unidad cambiante selecciona y muestra una forma diferente de una forma mostrada actualmente de la pluralidad de formas El dispositivo de salida de sonido según la reivindicación 1 o 2.
4. Dispositivo de salida de sonido según la reivindicación 1, en el que la imagen sintética es una imagen de una cara, y la parte de los elementos de imagen es una imagen de boca.
que comprende además un almacenamiento de texto significa para el almacenamiento de las reivindicaciones 5 datos de texto, significa una conversión para convertir el texto leído de la unidad de texto de sujeción al sonido, la salida de sonido significa salidas la voz convertida por los medios de conversión 5. Dispositivo de salida de sonido según la reivindicación 1, en el que el dispositivo de salida de sonido comprende:
Una etapa de visualización de visualizar una imagen sintetizada obtenida combinando la pluralidad de elementos de imagen leídos desde una base de datos de imágenes en la que se almacenan previamente una pluralidad de elementos de imagen; Un paso de entrada para ingresar una instrucción para cambiar un área de una parte de los elementos de imagen, un paso de cambio para cambiar el área según la instrucción y un sonido de volumen correspondiente al área de la parte de los elementos de imagen Y un paso de salida.
7. El aparato de procesamiento de imágenes según la reivindicación 1, en el que la base de datos de imágenes almacena una primera forma que indica que el volumen de sonido es cero y una segunda forma que indica que el volumen es el máximo de los elementos de imagen parciales, El paso cambiante es un paso de seleccionar uno de la primera forma, la segunda forma o una forma intermedia obtenida al interpolar las formas primera y segunda, en función de la entrada de instrucción en el paso de entrada Y dicho medio de visualización muestra la voz emitida por dicho medio de entrada de voz.
8. Aparato de procesamiento de imágenes según la reivindicación 1, en el que la base de datos de imágenes preselecciona una pluralidad de formas de los elementos de imagen parciales, y el paso cambiante selecciona y muestra una forma diferente de un formulario mostrado actualmente de la pluralidad de formas 8. Un método de emisión de voz según la reivindicación 6 o 7, caracterizado porque:
9. El método de salida de audio según la reivindicación 6, en el que la imagen sintetizada es una imagen de cara y el elemento de imagen parcial es una imagen de boca.
10. tiendas unos datos de texto de antemano en la unidad de texto de sujeción incluye además una etapa de conversión de convertir el texto leído desde la unidad de texto de sujeción para el sonido, la etapa de salida, la voz convertida por el paso de conversión Y la salida de la voz emitida por dicho paso de salida de voz.
Dibujo :
Application number :1997-034483
Inventors :キヤノン株式会社
Original Assignee :野口利之、大洞恭則