Método de registro del diccionario
Descripción general
 Un método de registro de diccionario capaz de registrar eficientemente diccionarios de palabras desconocidas en un aparato de traducción automática. ] Un método de registro de diccionario para registrar una palabra desconocida en la parte del diccionario de traducción de un aparato de traducción automática que traduce un texto original a traducir utilizando información en una parte del diccionario de traducción que contiene información de varios diccionarios, incluido un diccionario de palabras. sobre la base de una lista que contiene un conjunto de información de atributos, incluyendo la traducción y la palabra correspondiente a ser registrado como una palabra, el registro diccionario colectivamente a la unidad diccionario de traducción junto con la frase cada atributo de información a ser registrada como una palabra desconocida de la lista Como se muestra en la FIG.
Campo técnico
La presente invención se refiere a un método de registro de diccionario de un aparato de traducción automática.
Antecedentes de la técnica
Desarrollo de un aparato de traducción automática que utiliza tecnología informática para generar automáticamente la oración original de la entrada del primer idioma del archivo de oraciones original y almacenada en la sección de almacenamiento de oraciones original a medida que se desarrolla la oración traducida del segundo idioma. Básicamente, un aparato de traducción automática divide una oración original introducida en unidades de procesamiento predeterminadas (por ejemplo, frases) mediante análisis de sintaxis de análisis morfológico o similar, se refiere a un diccionario de traducción para cada unidad de procesamiento, encuentra una palabra de traducción correspondiente De acuerdo con una regla de traducción predeterminada para obtener una oración traducida.
Como diccionario de traducción, se acomodan la información del primer diccionario del primer idioma → el segundo diccionario del segundo idioma necesario para el procesamiento de la traducción y la información de varios diccionarios, como el diccionario de gramática. Aunque es ideal que todas las palabras existentes estén registradas en el diccionario de palabras entre ellas, en la práctica, considerando el esfuerzo requerido para crear un diccionario y las circunstancias reales de la sociedad contemporánea en las que nacen palabras nuevas, una tras otra. Es casi imposible. Por lo tanto, es inevitable que una palabra que no está registrada en el diccionario de palabras, es decir, una palabra desconocida, exista en la oración original que se va a traducir.
En el aparato de traducción automática convencional, cuando se encuentra una palabra desconocida por análisis morfológico en la oración original en el proceso de procesamiento de la traducción, el operador fue notificado cada vez. El operador mira el mensaje, ingresa información de atributos como una palabra de traducción y una parte del discurso correspondiente a la palabra desconocida, y la registra como una palabra nueva en el diccionario de traducción. Sin embargo, cuando la oración original es relativamente corta, es bueno tener la operación de registro del diccionario ingresando información de atributos como palabra traducida correspondiente a la palabra desconocida cada vez que se encuentra una palabra desconocida, cuando se convierte en una oración larga de varias decenas de páginas o más Es extremadamente engorroso y reduce significativamente la eficiencia de la traducción.
Tarea de solución
Como se describió anteriormente, en el aparato de traducción automática convencional, cuando se realiza una operación de registro de diccionario, es necesario realizar una operación de registro de diccionario para cada par de conjuntos de información de atributos tales como palabras traducidas correspondientes a palabras desconocidas una por una, de modo que es necesario registrar Cuando hay muchas palabras desconocidas, hubo un problema que la operación de registro del diccionario se vuelve muy complicada. Además, la eficiencia del proceso de traducción, incluido el registro del diccionario, también se redujo significativamente.
La presente invención se ha realizado a la vista de las circunstancias anteriores, y un objeto de la misma es proporcionar un método de registro de diccionario capaz de registrar eficazmente un diccionario de una palabra desconocida en un aparato de traducción automática.
Solución
La presente invención se refiere a un método de registro de diccionario para registrar una palabra desconocida en la parte del diccionario de traducción de un aparato de traducción automática que traduce un texto original a traducir usando información en una parte del diccionario de traducción que contiene información de varios diccionarios incluyendo un diccionario de palabras Una frase que debe registrarse como una palabra desconocida de la lista sobre la base de una lista que incluye un conjunto de información de atributos que incluye una frase que debe registrarse como la palabra desconocida que se debe registrar como la palabra desconocida Un diccionario está registrado.
Según la presente invención, crear primero una lista de información de atributos que incluye un correspondiente frase palabra traducida a ser registrado como palabra desconocida, entonces Diccionario colectivamente a la unidad de diccionario de traducción con información de atributos correspondientes palabras cada uno de la lista Al registrarse, es posible registrar eficientemente un gran número de palabras desconocidas con un número mínimo de operaciones de entrada como un diccionario.
Además, por ejemplo, si una palabra desconocida en la oración original se registra antes de la traducción, el aparato de traducción automática puede traducir sin problemas la oración original y, como resultado, la eficiencia del procesamiento de la traducción, incluido el registro del diccionario, se mejora Mejorar
Ejemplos
Descripción de las realizaciones preferidas Las realizaciones de la presente invención se describirán a continuación con referencia a los dibujos.
La figura 1 es un diagrama de bloques que muestra una configuración de un aparato de traducción automática de acuerdo con una realización de la presente invención. Explicaremos a continuación usando la traducción inglés-japonés como ejemplo.
1, una unidad de entrada 1 que incluye un teclado destinado a la introducción de la entrada y varios comandos textual a traducir, Inglés como primera lengua textual introducida desde la unidad de entrada 1, el dispositivo Y se almacena en la sección de almacenamiento de frases original 3 a través de la sección de control de edición 2 que controla el todo. La oración original almacenada en la sección de almacenamiento de oraciones original 3 se traduce en una oración japonesa que es el segundo idioma en la sección de traducción 4. diccionario de traducción de la unidad 5 varios diccionarios utilizados en el proceso de traducción de la unidad de traducción 4, por ejemplo, (1) que utiliza el diccionario cambio para la conversión de palabras de cambio en las terminaciones como en su (tipo base) original, (2) una primera lengua ( (3) un diccionario de gramática de análisis sintáctico en el que se almacena una parte correcta de la secuencia de discurso, (4) una palabra japonesa del idioma inglés (japonés), una traducción del segundo idioma (japonés) correspondiente a la palabra idiomática (5) un diccionario de gramática generado para decidir la estructura de la oración japonesa convertida, (6) una oración de traducción al cambiar el tipo de palabra tal como la terminación japonesa, etc. Un diccionario de gramática de la generación del morfema que se completará, y similares. La frase traducida obtenida por la unidad de traducción 4 se almacena en la unidad de almacenamiento de frases traducidas 6 a través de la unidad de control de edición 2. La unidad de visualización 7 es para mostrar oraciones originales, oraciones traducidas y similares, y la unidad de impresión 8 emite oraciones originales y textos traducidos como copias impresas.
En la presente invención, además de la configuración básica anterior de un aparato de traducción automática, una palabra desconocida porción de recuperación 9 para recuperar toda la palabra desconocida en la frase original almacenada en la sección de almacenamiento original 3, es decir, las palabras que no están contenidos en la unidad de diccionario de traducción 5 , Una unidad de almacenamiento de palabras desconocidas 10 para almacenar la frase buscada por la unidad de búsqueda de palabras desconocidas 9 y una frase almacenada en la unidad de almacenamiento de palabras desconocidas 10 junto con información de atributos que incluye una palabra correspondiente correspondiente, en la unidad de diccionario de traducción 5, Y una unidad de registro de diccionarios 11 para registrar el diccionario como un diccionario.
La figura 2 muestra un ejemplo de una disposición de teclas de la unidad de entrada 1, que incluye una tecla de caracteres 21, una tecla de edición 22, una tecla de función 23, una tecla de control del cursor 24 y otras teclas. En la tecla de función 23, se incluyen las teclas para ingresar una solicitud de búsqueda de palabra desconocida, una solicitud de edición de palabra desconocida y una solicitud de registro de diccionario.
La figura 3 muestra un ejemplo de visualización de la frase recuperada como palabra desconocida por la unidad de recuperación de palabras desconocidas 9, y la figura 4 muestra una correspondencia entre la palabra desconocida recuperada y la entrada de palabra traducida por el operador para la palabra desconocida Como se muestra en la FIG.
A continuación, se describirán los procedimientos de búsqueda de palabras desconocidas, almacenamiento de palabras desconocidas y registro de diccionario de palabras nuevas en esta realización con referencia a un diagrama de flujo que se muestra en la figura 5.
En el paso S1 S5, la unidad de control de edición 2 supervisa la presencia o ausencia de una entrada de clave desde la unidad de entrada 1, y si se realiza cualquier entrada de tecla, la unidad de control de edición 2 realiza el procesamiento correspondiente a la misma. Cuando el operador opera cualquiera de las teclas de función 23, esto se detecta en el paso S1 S3, y el procesamiento correspondiente a la tecla de función se realiza en el paso S7 S9.
Cuando el operador opera cualquiera de las teclas de edición 22, se detecta en el paso S4, y el procesamiento correspondiente a la tecla de edición se realiza en el paso S10.
Cuando el operador opera la tecla de control del cursor 24 u otra tecla, el procesamiento para el movimiento del cursor correspondiente a la operación de la tecla y a otro procesamiento se realiza en el paso S6 a través del paso S1S5.
Cuando el operador opera la tecla de caracteres 21 para ingresar un carácter, después de que se detecta cada tecla de carácter en el paso S5, se establece en el área de edición a la que se le asigna el código de carácter correspondiente. Como área de edición, la unidad de almacenamiento de oraciones original 3 se asigna hasta que se detecta la solicitud de edición de la palabra desconocida en la etapa S2, y los contenidos de la misma se muestran en la unidad de visualización 7. Cuando se detecta una solicitud de edición de una palabra desconocida en el paso S2, la unidad de almacenamiento de palabras desconocidas 10 se asigna al área de edición, y se visualiza como se muestra en la figura 3 y se hace la figura 4.
Una operación de edición tal como corregir la inserción y eliminación se realiza usando la tecla de corrección, la tecla de inserción, la tecla de borrado y similares incluidas en la tecla de edición 22 después de mover el cursor a un lugar de edición deseado accionando la tecla de control del cursor 24.
Cuando hay una pulsación de tecla de la tecla de edición, la unidad de control de edición 2 la detecta en el paso S4 y para cada palabra o frase ordenada por la tecla de control del cursor en la unidad de almacenamiento asignada como área de edición, corresponde a cada tecla Se realiza el procesamiento de edición. Por ejemplo, insertando un carácter delante de la posición del cursor mediante la operación de la tecla de inserción, invalidando la cadena de caracteres en el rango ordenado por el cursor mediante la operación de la tecla borrar, o configurando el rango ordenado por el cursor El efecto de la operación de la tecla Insertar, eliminar tecla, mover tecla, etc. puede invalidarse moviéndose a otra posición o accionando la tecla cancelar.
Por otra parte, teclas de cursor de movimiento para mover el cursor como las teclas de control del cursor 24 en cada dirección, respectivamente, la clave de cambio de unidad para la conmutación de la unidad se mueve el cursor, la tecla de escala para escalar el tamaño del cursor por cada unidades de carácter o palabra Esta incluido.
Al ingresar y editar el texto original, el operador opera adecuadamente la clave desconocida de búsqueda de palabras para buscar palabras desconocidas en la oración original almacenada en la sección de almacenamiento de oraciones original 3 y las registra por la sección de registro de diccionarios 11 juntas Tu puedes En primer lugar, se describirá la unidad de búsqueda de palabras desconocidas 9. Como método de búsqueda de una palabra desconocida, por ejemplo, una palabra más cercana a una palabra desconocida en la oración original se extrae de la unidad de diccionario de traducción 5, y se modifica la parte de discurso permitida por la parte de la oración de la palabra. Encuentre todas las posibilidades posibles de la palabra tales como forma plural, forma progresiva, forma pasada, participio pasado, cambio irregular, etc. como un candidato coincidente y realice la correspondencia con el texto original. También es posible encontrar el prototipo de la palabra de la palabra desconocida a partir de la oración original y realizar la correspondencia con el diccionario en la unidad 5 del diccionario de traducción. En ese caso, debemos verificar que la inflexión en el momento de obtener el prototipo después del emparejamiento coincida con la inflexión de la parte del discurso del diccionario.
Como resultado de realizar la coincidencia como se describió anteriormente, las palabras y frases en el texto original que no se pueden emparejar se almacenan en la unidad de almacenamiento de palabras desconocidas 10 como palabras desconocidas.
Aquí, hay dos tipos de frases que se han convertido en palabras desconocidas, una es una que se ha convertido en desconocida debido a un error de entrada de la oración original, la otra está ingresada correctamente pero no está registrada en la sección del diccionario de traducción 5 Es la palabra desconocida original. Por ejemplo, 'word read only memory' y 'VDT' son palabras originales desconocidas entre frases recuperadas como palabras desconocidas por la unidad de recuperación de palabras desconocidas 9 ilustrada en la figura 3, pero 'traductor' es un error de entrada de 'traductor' Se convirtió en una palabra desconocida debido a un error ortográfico de la palabra. Con respecto a la palabra desconocida debido a dicho error de entrada, puede corregirse en la unidad de almacenamiento de oraciones original 3 y eliminarse de la unidad de almacenamiento de palabras desconocidas 10 utilizando la tecla de borrado de la tecla de edición 22.
Cuando el operador opera la clave de solicitud de edición de la palabra desconocida después de finalizar la búsqueda de la palabra desconocida, la unidad de control de edición 2 detecta en el paso S2 y la unidad de almacenamiento de palabras desconocidas 10 se asigna al área de edición. Como resultado, las palabras desconocidas recuperadas se almacenan en la unidad de almacenamiento de palabras desconocidas 10, y la lista de palabras desconocidas se muestra en la unidad de visualización 7 en un formato como se muestra en la figura 3.
El operador mueve el cursor e introduce el texto traducido para la palabra desconocida mientras visualiza la pantalla de la figura 3. El error de entrada puede eliminarse usando la tecla de borrar como se describe arriba. Como resultado, las palabras correspondientes se agregan a la frase de la oración original que es la palabra desconocida en la unidad de almacenamiento de palabras desconocidas 10 y se muestra como se muestra en la figura 4. Cuando se han ingresado todas las palabras traducidas, el operador opera la clave de solicitud de registro de diccionario de la palabra desconocida para reconocer la información de atributo añadida desconocida necesaria para la traducción de la palabra traducida, parte del discurso, etc. almacenada en la unidad de almacenamiento de palabras desconocidas 10 La información de la palabra se registra secuencialmente en el diccionario de traducción 5 en el siguiente formato, por ejemplo.
Frase original de la palabra: traducción: Parte del discurso: otra información
En la figura 4, se omiten partes del discurso y otra información. Cuando se omite parte del discurso, puede registrarse por sustantivo.
La presente invención no está limitada a las realizaciones descritas anteriormente, y pueden hacerse diversas modificaciones en el alcance técnico de la misma.
Efecto de la invención
De acuerdo con la presente invención, es posible registrar colectivamente palabras desconocidas para que se registren en la parte del diccionario de traducción y en la información de atributos incluyendo las palabras traducidas, de modo que es posible registrar el diccionario en un corto tiempo en una gran cantidad de palabras desconocidas. Se vuelve posible.
La figura 1 es un diagrama de bloques que muestra una configuración de un aparato de traducción automática de acuerdo con una realización de la presente invención.
La figura 2 es un diagrama que muestra la disposición de teclas de la unidad de entrada en la figura 1.
3 es un diagrama que muestra un ejemplo de visualización en el momento de búsqueda de palabras desconocidas y registro de diccionario en la unidad de visualización en la figura 1
La figura 4 es un diagrama que muestra un ejemplo de visualización en el momento de búsqueda de palabras desconocidas y registro de diccionario en la unidad de visualización en la figura 1.
La figura 5 es un diagrama de flujo que muestra el flujo de procesamiento principal en la misma realización.
1 ... unidad de entrada 2 ... unidad de control de edición 3 unidad de almacenamiento de texto original 4 unidad de traducción 5 unidad de diccionario de traducción 6 unidad de traducción unidad de almacenamiento 7 unidad de visualización 8 unidad de impresión 9 unidad de búsqueda de palabras desconocidas 10 unidad de almacenamiento de palabras desconocidas 11 ... sección de registro del diccionario
Reclamo
Reivindicación 1 Método de registro de diccionario para registrar una palabra desconocida en el diccionario de traducción de un aparato de traducción automática para traducir un texto original a traducir utilizando información en una parte del diccionario de traducción que contiene información de varios diccionarios, incluido un diccionario de palabras Basado en una lista que incluye un conjunto de información de atributos que incluye una frase que debe registrarse como una palabra desconocida y una palabra correspondiente correspondiente a cada frase que debe registrarse como una palabra desconocida de la lista junto con información de atributos en un diccionario Un método de registro de diccionario.
Dibujo :
Application number :1997-026961
Inventors :株式会社東芝
Original Assignee :武田公人、長谷部浩一、三池誠司、天野真家