Sistema de diálogo de voz con imagen de la cara
Descripción general
 Se proporciona un sistema de diálogo hablado con una imagen facial que puede tratarse fácilmente con un tema de cambio de discurso, y que es práctico y capaz de un diálogo natural con un usuario. Unidad] El reconocimiento de voz 11 para la conversión de la voz de entrada de texto de la información, la unidad de generación de respuesta 12 para generar una respuesta que corresponde a la información de texto, la información de la expresión facial de la información de emoción generada por la unidad de generación de respuestas 12 genera un código de fonema de la información de texto unidad de control de respuesta 13 que se genere, la unidad de síntesis de voz 14 para la síntesis de voz a partir de información de texto, un altavoz 15 para la salida de la voz sintetizada, unidad de síntesis de la expresión 16 para la generación de información de la imagen de la cara del código de fonema y la información de la expresión facial, la información de imagen , Y un diccionario 19 que almacena el contenido de las respuestas a los enunciados de los usuarios en asociación, para que puedan seleccionarse de manera apropiada para cada tema.
Campo técnico
Campo técnico La presente invención se refiere a un sistema de diálogo hablado con una imagen facial para simular una expresión facial humana.
Antecedentes de la técnica
2. Descripción de la técnica relacionada Convencionalmente, como un sistema de diálogo hablado que tiene este tipo de expresiones faciales, por ejemplo, se conoce uno que se describe en la publicación de patente japonesa abierta a consulta por el público número 216618. Como se muestra en la figura 12, se proporcionan una unidad 31 de comprensión de voz, una unidad 32 de gestión de diálogo, una unidad 33 de salida de generación de respuesta, una pantalla 34, un altavoz 35, y similares, y cuando se habla desde el exterior, 31. En base al contenido de significado, la sección de gestión de diálogo 32 determina el contenido de la respuesta, y sobre la base de la cual la pantalla de visualización es emitida por la pantalla 34, y el altavoz 35 emite el sonido.
Tarea de solución
Sin embargo, dado que la tecnología de reconocimiento de voz tiene falta de reconocimiento y ambigüedad, es fácil responder a la voz que un usuario no especificado genera libremente (en lo sucesivo también denominado simplemente enunciado) al desarrollar un sistema práctico. Actualmente es imposible definir y no puede responder fácilmente a cualquier sistema, y ​​existe el problema de que es necesario desarrollar un sistema para cada tema comercial. Además, hay problemas tales que la forma de la boca que se muestra en el monitor es constante independientemente del volumen de la emisión, y el cambio en la expresión facial de la respuesta de voz no es natural. Sumario de la invención Por lo tanto, un objetivo de la presente invención es convertirlo en un sistema práctico que pueda abordar fácilmente los cambios en los temas comerciales así como permitir el diálogo natural con los usuarios.
Solución
Para resolver tales problemas, en la invención de la reivindicación 1, en función del tema de negocios que se ejecutará la imagen de la cara con las tiendas sistema de diálogo de voz por ejemplo una tabla que define la correspondencia entre el enunciado del usuario y la respuesta Es posible construir un sistema práctico seleccionándolo de acuerdo con el tema. Mejore la velocidad y la precisión para el reconocimiento de voz y mejore la practicidad al agregar una función para preparar un diccionario para el reconocimiento de voz por tema y hacerlo modificable según el tema durante el diálogo (La invención de la reivindicación 2). Además de la invención de la reivindicación 1, además de la información de respuesta que se enviará como voz en la respuesta, el tamaño del movimiento de la boca de la imagen de la cara se hace variable de acuerdo con el volumen del sonido a emitir, Incluyendo la información de la emoción incluyendo al menos el código de emoción y el nivel de emoción y cambiando la imagen de la cara según la información de la emoción o teniendo la función de atenuar el nivel de emoción con el transcurso del tiempo, Permitiendo así el diálogo (reivindicaciones 3, 4, 5 y 6 de la invención).
Ejemplos
La figura 1 es un diagrama de bloques funcional que muestra una realización de la presente invención. Una unidad de generación de respuesta 12 para generar una respuesta correspondiente a la información de texto generada por la unidad de reconocimiento de voz 11; una unidad de generación de respuesta 12 para generar una respuesta , Un controlador de respuesta 13 para generar información de expresión facial a partir de la información de emoción generada por el generador de respuesta 12, un sintetizador de voz para sintetizar voz a partir de la información de texto generada por el generador de respuesta 12 14, la unidad de salida de voz sintetizada para la salida de sonido (altavoz) 15, unidad de síntesis de la expresión 16 para la generación de información de la imagen de la cara del código de fonema y la información de la expresión facial generada por la unidad de generación de respuesta 12, una imagen generada por la unidad de síntesis expresión 16 Una sección (monitor) 17 de visualización de imágenes de caras para visualizar información, diccionarios 18, 19 y similares. Incidentalmente, en la unidad de generación de respuesta 12, se preparan tablas del tema 20 en el diálogo y el historial de temas 21, y en la unidad de control de respuesta 13, se prepara una tabla 22 del estado de emoción.
En una configuración de este tipo, la unidad de reconocimiento de voz 11 convierte la voz pronunciada por el usuario en información de texto basada en el diccionario 18. En este proceso, los contenidos de la voz no se comprenden, la voz se convierte únicamente en la información de texto, y la información de texto se envía a la unidad de generación de respuesta 12. unidad de generación de la respuesta 12 considera la información de texto enunciado para el usuario del sistema desde la unidad de reconocimiento de voz 11, unas palabras del habla que se almacenan en el diccionario 19 y la tabla de respuesta, interactúan en el tema 20, la historia de cada tema de la tabla 21 Genera una respuesta al enunciado sobre la base.
La unidad de generación de respuesta 12 tiene una tabla en la que los enunciados y las respuestas se definen como un par para cada tema de negocio como se muestra en la figura 2. En base a esta definición, la información de texto para generar la información del habla y la emoción correspondiente (lista de código de emoción y nivel de emoción) se genera y se entrega a la unidad de control de respuesta 13. La unidad de control de respuesta 13 convierte la información de texto para la salida de voz de la tabla de códigos fonéticos como se muestra en la figura 3 en la lista de códigos de fonemas, entre las respuestas generadas por la unidad de generación de respuestas 12. Además, a partir de la información de emoción generada por la unidad de generación de respuesta 12, se actualiza la tabla de estado de emoción 22.
información de la expresión facial generada a partir de la tabla de estados emocionales 22 actualiza, por ejemplo el documento: publicado en (P.Ekman y W.V.Friesen 'Sistema ActionCoding facial' Consulting Psychologist Press (1977)), como se muestra en la figura 4 UA. y (Unidad de Acción) tabla de números, fue publicado en la literatura (Morishima 'análisis de la expresión intelectual y tecnología de conversión de síntesis y los medios de comunicación para la interfaz' O Plus e, 8 de mayo de 1994), y el código emocional tal como el mostrado en la Figura 5 , Y sintetiza con una tabla de lista de números AU y grado. En esta figura 5, la lista de números y grados AU indica el grado entre paréntesis y está representada por un valor numérico de 0 a 100.
Entonces, la información generada expresión (y el número de AU que lista grado), y Listado fonema, a partir de la información de texto para la salida de audio dada desde la unidad de generación de respuesta 12, la unidad de síntesis de la expresión 16 y el sintetizador de voz 14 Opere sincrónicamente La unidad de síntesis de voz 14 convierte el código de fonema generado por la unidad de control de respuesta 13 y su grado en voz y lo envía a través del altavoz 15. sintetizador de expresión facial 16 por la información de la expresión facial proporcionado por la unidad de control de respuesta 13 genera una imagen de una cara que se expresa por el poliedro se visualiza en el monitor 17 en sincronización con el sintetizador de voz 14.
Esto se describirá en detalle a continuación. La unidad de reconocimiento de voz 11 reconoce la voz continua emitida por un altavoz no especificado. Tal reconocimiento de habla continua, por ejemplo, la literatura (Hirayama, Hirashima 'altavoz no especificado, el desarrollo continuo y la aplicación del sistema de reconocimiento de voz' Simposio Internacional 'World'91 Computer' 24 de septiembre de 26,1991, Osaka, Japón) en Puede realizarse mediante el método indicado. El reconocimiento de altavoces no especificados, voces continuas y un amplio vocabulario no es realista debido a la velocidad de reconocimiento y la degradación de la precisión de reconocimiento en la tecnología actual, por lo que se reconocerá en base a un diccionario con un vocabulario preestablecido. En esta realización, preparado un diccionario básico 181 con referencia constante para el vocabulario como en la Fig. 6, por ejemplo, el diccionario de individuo 182 con el vocabulario para referirse a cada tema durante una conversación (182A, 182B, 182C, etc.) y, temas Cada vez que lo cambia y lo reconoce, intenta mejorar la velocidad y la precisión.
La unidad de generación de respuesta 12 recibe la pronunciación del usuario reconocida por la unidad de reconocimiento de voz 11 y se convierte en información de texto, genera una respuesta correspondiente al enunciado y almacena la respuesta como el tema 20 durante el diálogo y el historial de temas 21. La figura 7 es una tabla (20, 21) que muestra un tema que se está interactuando actualmente con un cierto usuario y una lista de temas de salida de respuestas anteriores. La figura 2 muestra una parte de una tabla que define el enunciado del usuario y una respuesta correspondiente. Es decir, 'palabra clave de emisión' en la figura 2 es una lista de palabras clave para hacer coincidir con el enunciado del usuario. En el 'tema de entrada', un tema para verificar si la palabra clave de expresión es válida se describe basándose en 'tema en diálogo' en la figura 7.
Además, en el 'historial de entrada' de la figura 2, se describe un tema para comprobar si la palabra clave de expresión es o no válida en base al 'historial de temas' en la figura 7. 'Respuesta' describe la 'respuesta' del sistema para 'palabra clave de emisión'. El 'código de emoción' es una emoción codificada generada que corresponde a 'respuesta', y es un código de emociones básicas humanas ejemplificadas en la FIG. El 'nivel de emoción' corresponde al 'código de emoción', y cada valor se describe como 0 (grado mínimo de emoción) 100 (grado máximo de emoción). El 'tema de salida' se establece en la tabla de 'tema de diálogo' 20 como se muestra en la figura 7 y se agrega a la tabla de 'historial de temas' cuando se realiza la 'respuesta'.
Supongamos que el usuario pronuncia, por ejemplo, '¿comes udon en la cafetería central?' La unidad de reconocimiento de voz 11 envía la información de texto del enunciado del usuario reconocido '¿Come Udon en la cafetería central?' A la unidad de generación de respuesta 12. la unidad 12, la información de texto de palabras clave discurso, '¿Usted come fideos en el comedor central' de generación de respuesta es, si se debe incluir toda la 'palabra clave expresión' que se muestra en la Fig. 2 para comprobar si cada elemento, reconocido tan largo, ya que contiene todos Como candidatos. Después de verificar la 'palabra clave del enunciado' de todos los elementos, la palabra clave de enunciado con el mayor número de palabras clave de los candidatos de palabras clave de enunciado coincidentes se establece como la palabra clave de enunciado coincidente.
Concordancia de palabras clave expresión 'cafetería central', como 'fideos', que 'es lo que come' es tan válida incondicionalmente porque no hay una descripción del caso del ejemplo de la Fig. 2 'historial de entrada', el correspondiente 'respuesta', 'Sí, puedo comer', los códigos de emoción '1, 3', '1, 3', nivel de emoción '20, 10' se envían a la unidad de control de respuesta 13 y 'cafetería central' 'Udon' se establece en la tabla 21 de 'Historia del tema' de la figura 7 y la tabla 20 de 'El tema en diálogo' de la figura 7. Cuando no hay 'restaurante central' o 'udon' en la 'historia del tema' de la figura 7, se agregan 'restaurante central' y 'udon' al 'historial de temas' de la FIG. Al cambiar el tema, cambie el diccionario con el vocabulario reconocido a 'Central eatery', 'Udon'.
Sobre la base de la tabla de códigos de fonemas de la figura 3, la unidad de control de respuesta 13 establece la cadena de código de fonemas '1, 2, 0, 1, 4, 1, 4, 1, 3' para la respuesta 'Sí, . Como se muestra en la figura 3, dado que los signos de puntuación no se pronuncian, se da 0, y la 'nota larga' se indica con 7. Además, el nivel emoción del código emoción '1' en la tabla de estado emocional 22 se muestra en la Fig. 9 se añade es, '10' se agrega '20' es también el nivel de emoción del código emoción '3'. En este ejemplo específico, como se muestra en la figura 10, el valor del nivel de emoción disminuye con el transcurso del tiempo para dar una sensación natural.
Como se muestra en la figura 9, el código de emoción '1' es el nivel de emoción '20', y el código de emoción '3' es el nivel de emoción '10'. Desde número y grado AU lista para el código emocional se muestra en la Figura 5, en el caso del nivel de emoción '20' código emocional '1', el grado de la lista de código emocional '1' a 0,2 (20%) '1 (13), 6 (14), 12 (2), 14 (2)'. Del mismo modo, si el nivel de emoción '10' código emocional '3', 0,1 (10%) del grado de la lista de código emocional '3' a '1 (4), 2 (3), 5 (6), 15 (2), 16 (3), 20 (1), 26 (6) '. Luego, tomando el promedio del número de AU y la lista de títulos para el código de emoción '1' y la lista de números de AU y el grado para el código de emoción '1', '1 (9), 2 (2), 5 (3) 6 (7), 12 (1), 14 (1), 15 (1), 16 (2), 20 (1), 26 (3) '.
A continuación, del estado emocional actual de la figura 9, una lista de números AU y grados de respuestas sintetizadas y valores promedio '15' de niveles de emoción '20' y '10' de códigos emocionales distintos de 0 se envían como salida de voz estándar A la expresión que sintetiza la unidad 16 de la figura 1 como un valor de incremento (15%) con respecto al volumen de la oración. Además, el valor de incremento '15' para el volumen de la salida de audio estándar y la respuesta 'Sí, puedo comer' administrado a través de la unidad de generación de respuesta 12 y la unidad de control de respuesta 13 se envían como información de texto para salida de audio Y lo envía a la unidad de combinación 14. El sintetizador de voz 14 digital / analógico convierte la información de texto dada desde el controlador de respuesta 13 y determina el volumen del habla como un incremento del 15% de la configuración estándar desde el valor de incremento '15' para el volumen de la salida de sonido estándar , Y emite sonido desde el altavoz 15.
La unidad de síntesis de la expresión 16, y el vértice coordenadas de la forma poliédrica representa a una persona durante la expresión, y el vértice coordenadas de la forma estándar poliédrica para cada número de la UA que se muestran en la Fig. 4, la forma estándar de la forma de la boca de cada código fonético en la Figura 3 1 (9), 2 (2), 5 (3), 6 (7), 12 (1, 2, 3) correspondientes a la respuesta de la unidad de control de respuesta 13 y el número de AU '. 1), 14 (1), 15 (1), 16 (2), 20 (1), 26 (3). Por ejemplo, el número AU '1' es 'mover el interior de la ceja' de la figura 4, pero dado que el grado es '9' en este ejemplo, para la acción de 'levantar el interior de la ceja' de la norma Y la cantidad de cambio de forma es del 9%. Del mismo modo, para cada número AU dada desde la unidad de control de respuesta 13 determina una cantidad de variación de la forma como se describe anteriormente, mediante la adición de la cantidad de cambio obtenido para las formas que representan el tiempo de expresión de la persona, la persona que se muestra junto Las coordenadas del vértice del poliedro en forma de.
A continuación, al generar la forma intermedia que complementa la forma de la persona que se muestra actualmente y la forma de la persona que se mostrará a partir de ahora, la expresión cambia al mostrar continuamente la forma generada. Después del cambio de expresión, y el valor medio de la lista de códigos de fonemas y el nivel de emoción de '15' de la unidad de control de respuesta 13, un 65% mediante la adición de la cantidad de cambio en la forma estándar correspondiente al fonema inmueble en una forma intermedia (variación 50%) , Determina la forma de la boca. Aquí, la expresión y la forma de la boca por el código del fonema pueden expresar la inconsistencia en la forma de la boca por la forma de la boca. En este caso, se puede determinar forma de la boca por la media o la suma de la forma de la boca por forma de la boca y el código de fonema mediante la expresión, pero aquí, hace hincapié en la forma de la boca que corresponde a la salida de audio del sistema, y ​​que se dé prioridad a la forma de la boca por código fonema .
Además, como el momento de cambiar la forma de la boca, por ejemplo, como se muestra en la figura 11, opera en sincronización con la salida del sonido de respuesta. Específicamente, existe un método para sincronizar el cambio de forma de la boca y la salida de sonido para cada fonema, pero el costo de hacerlo aumenta. Por lo tanto, la misma constante un fonema cambios en la forma boca con el tiempo y la hora de salida de audio tal como se muestra en la Fig. 11, haciendo funcionar la unidad de síntesis de voz 14 y el sintetizador expresión facial 16 unidades de ficha simultáneamente de fonemas, aunque la sincronización Se vuelve posible. Al cambiar el tiempo de cambio de forma de una boca y el tiempo de salida de sonido a la misma variable, es posible cambiar el cambio de forma de la boca y el tiempo de salida del sonido.
Después de eso, suponiendo que el usuario hable '¿Puedes comer algo más?', La unidad de reconocimiento de voz 11 de la figura 1 transmite la información de texto del enunciado del usuario reconocido '¿Puedes comer algo más?' 12. unidad generadora de respuesta 12 la información de texto '¿Come algo más' se comprueba si contiene toda la 'palabra clave expresión' en la tabla de la Fig. 2, las palabras clave del habla candidato emparejados con tal de que contiene todos. Se verifican todas las 'palabras clave de emisión' y se selecciona 'palabra clave de emisión' con el mayor número de palabras clave como una palabra clave de pronunciación equivalente de los candidatos de palabra clave de pronunciación correspondiente.
Porque hay una descripción 'Udon' de 'tema de entrada' en el ejemplo de la figura 2 en la coincidencia de palabras clave pronunciadas 'otro' y 'puede comer', si existe o no 'Udon' en 'tema en diálogo' Compruébalo. En este ejemplo, dado que hay 'Udon' en el 'tema en diálogo' en la respuesta anterior, el proceso pasa al siguiente proceso. En este momento, si 'Udon' no está configurado en 'Tema en diálogo' esta vez con el primer enunciado del usuario, se notifica al usuario que el contenido del enunciado es desconocido. Luego, debido a que hay una descripción de 'histéresis de entrada', 'cafetería central', se verifica si hay o no un 'restaurante central' en el 'historial del tema'. En este ejemplo, dado que hay 'restaurante central' en el 'historial de temas' de acuerdo con la respuesta anterior, el procesamiento continúa con el siguiente procesamiento. En este momento, cuando 'cantina Central' no está configurada en 'historial de temas' esta vez con el primer enunciado del usuario esta vez, se notifica al usuario que el contenido del enunciado es desconocido. A partir de entonces, se genera 'Establecer comida, se puede comer Teppanyaki' como respuesta correspondiente a la 'palabra clave de emisión' coincidente, y se realiza el mismo procesamiento que antes.
Efecto de la invención
Según la presente invención, dependiendo del tema de negocios que se ejecutará la imagen de la cara con el sistema de diálogo de voz por puede ser almacenada la correspondencia entre la expresión del usuario y su respuesta a tal definición mesa, seleccionarse de acuerdo con el tema Al hacerlo, es posible construir un sistema práctico. Preparamos un diccionario para el reconocimiento de voz por tema y mejoramos la velocidad y precisión para el reconocimiento de voz y mejoramos la practicidad al agregar una función que la hace variable de acuerdo con el tema durante el diálogo. Además, la magnitud de la operación de la boca de la imagen facial, es variable según el volumen del sonido a ser la salida, además de la información de respuesta a enviar como una voz en la respuesta, que consta de al menos código de la emoción y el nivel de emoción Al agregar una función de cambiar la imagen de la cara de acuerdo con la información de la emoción, incluida la información de la emoción y atenuar aún más el nivel de emoción en el tiempo, se hace posible un diálogo más natural.
La figura 1 es un diagrama de bloques que muestra una realización de acuerdo con la presente invención.
La figura 2 es un diagrama explicativo que muestra una parte de una palabra clave de expresión y un ejemplo de tabla de respuesta.
La figura 3 es un diagrama para explicar la correspondencia entre fonemas básicos y códigos de fonemas.
La figura 4 es un diagrama para explicar la relación de correspondencia entre la operación de expresión básica y el número de AU.
La figura 5 es un diagrama para explicar la relación de correspondencia entre el código de emoción y el grado del número de AU.
La figura 6 es un diagrama de configuración que muestra un ejemplo de un diccionario para almacenar el vocabulario para reconocimiento de voz.
7 es un diagrama de configuración que muestra un ejemplo de una tabla de estado de diálogo.
La figura 8 es un diagrama para explicar la correspondencia entre los sentimientos básicos y los códigos emocionales.
La figura 9 es un diagrama de configuración que muestra un ejemplo de una tabla de estados emocionales.
La figura 10 es un gráfico que muestra un ejemplo de cambio temporal en el nivel de emoción.
La figura 11 es un diagrama de tiempo que muestra un ejemplo de temporización de interacción entre un usuario y un sistema.
La figura 12 es un diagrama de bloques que muestra un ejemplo convencional.
7: Unidad de reconocimiento de voz 12: unidad de generación de respuesta 13: unidad de control de respuesta 14: unidad de síntesis de voz 15: salida de voz (altavoz) 16: unidad de síntesis de expresión facial 17: imagen facial Pantalla (monitor), 18, 19 ... diccionario, 20, 21, 22 ... tabla.
Reclamo
Un sistema de diálogo de voz con una imagen facial capaz de reconocer la entrada de voz desde fuera y comprender su contenido de voz (emisión) y emitir una salida de respuesta de voz correspondiente al contenido de voz (emisión) junto con una imagen facial, Donde los contenidos de la respuesta se definen de antemano como una tabla, y la tabla definida se puede seleccionar de acuerdo con diversos temas comerciales.
2. El sistema de diálogo hablado con imagen facial de acuerdo con la reivindicación 1, en el que se prepara un diccionario para reconocimiento de voz para cada tema y se puede cambiar según un tema en diálogo.
3. El sistema de diálogo de voz con imagen facial de acuerdo con la reivindicación 1, en el que la magnitud del movimiento de la boca de la imagen frontal se hace variable de acuerdo con el volumen del sonido a emitir.
4. El sistema de diálogo de voz con imagen facial según la reivindicación 1, en el que la respuesta incluye información de emoción que incluye al menos un código de emoción y un nivel de emoción además de la información de respuesta para emitirse como voz.
5. El sistema de diálogo de voz con imagen facial de acuerdo con la reivindicación 4, en el que la imagen de la cara se cambia de acuerdo con la información de la emoción.
6. El sistema de diálogo de voz con imagen facial de acuerdo con la reivindicación 4, en el que el nivel de emoción se atenúa con el tiempo.
Dibujo :
Application number :1997-016800
Inventors :富士電機株式会社
Original Assignee :佐藤義浩、内藤浩、萩原賢一