Método y aparato de análisis del lenguaje
Descripción general
 Análisis de estados por fraccionamiento de representación redundante (por ejemplo, soportes de representación), en particular para proporcionar un método y un aparato de análisis idioma para realizar frase comprobado de forma rápida y adecuada. ] Un método de análisis del lenguaje de representación redundante análisis incluyendo (por ejemplo, soportes de expresión) declaración (a), una representación redundante en una pluralidad de patrones de expresión, excluyendo del proceso de análisis correspondiente a cada patrón de expresión si (ignorar / no ignore) tiendas, basada en el almacenamiento, mediante la supresión de la representación redundante (artificial) a partir de una frase de entrada (a) (b), y analizar la instrucción (c).
Campo técnico
La presente invención es el método de análisis de la lengua y un aparato para el análisis de una frase rápida y adecuadamente, señalado por la detección de la parte en la que en particular la posibilidad de error en la frase en lenguaje natural, el método de análisis idioma para realizar la calibración después y Se relaciona con ese dispositivo.
Antecedentes de la técnica
Generalmente, cuando el análisis de los estados, representación redundante en el resultado del análisis (que la representación redundante o expresión incidental), por ejemplo entre paréntesis representan (expresión en adelante entre paréntesis) y el guión () o si cuando el lenguaje natural ' Por ejemplo, incluso si hay expresiones, etc. conectadas por palabras como ', el análisis se realizó en un estado que incluye todas estas expresiones. Por ejemplo, en un dispositivo que corrige oraciones, cuando se analizan los textos y se verifican las oraciones, las oraciones se verifican en un estado que incluye todas estas expresiones.
Tarea de solución
Sin embargo, con el método de análisis convencional descrito anteriormente, existe el problema de que el procedimiento de análisis se vuelve complicado o ambiguo y rápido y no se puede realizar el análisis apropiado. Por ejemplo, en la comprobación de oración del lenguaje natural, 'He estudiado la población de inteligencia (artificial) (el campo de)', como por ejemplo, en el caso de una sentencia, como la inclusión como la representación fonética utilizando paréntesis , Existe un problema que es imposible detectar el término erróneo término erróneo 'inteligencia artificial', o es difícil de detectar.
La presente invención, las desventajas convencionales retiradas, el análisis de la oración por fraccionamiento de una representación redundante, particularmente un método de análisis de la lengua y aparato para realizar frase verificado rápida y adecuada.
Solución
Para resolver este problema, el método de análisis del lenguaje de la presente invención es un método de análisis del lenguaje de análisis que incluye la declaración de representación redundante, en respuesta a una representación redundante ya sea excluido del análisis de la expresión Y analiza la oración eliminando expresiones redundantes de la oración de entrada en función de la memoria. Aquí, en la etapa de almacenamiento, la representación redundante en una pluralidad de patrones de expresión, para almacenar si excluido del proceso de análisis correspondiente a cada patrones de expresión. Además, la expresión redundante incluye expresiones de paréntesis entre paréntesis. Además, el análisis es una verificación de frase. Además, la oración es una oración en lenguaje natural.
aparato de análisis lingüístico de la presente invención, se proporciona una unidad de análisis de idioma para el análisis que contiene de almacenamiento de frases representación redundante medios para almacenar si excluyó del análisis procesar la representación correspondiente a una representación redundante, el Y el análisis significa analizar la oración eliminando la expresión redundante de la oración de entrada con referencia a los medios de almacenamiento. Aquí, la unidad de almacenamiento clasifica la expresión redundante en una pluralidad de patrones de expresión y almacena si excluye o no del procesamiento de análisis correspondiente a cada patrón de expresión. Además, la expresión redundante incluye expresiones de paréntesis entre paréntesis. Además, el medio de análisis incluye un medio de verificación de la oración para verificar una oración. Además, la oración es una oración en lenguaje natural.
Además, el aparato de análisis de texto de la presente invención, significa un almacenamiento de frases para el almacenamiento de una frase, un diccionario de palabras para almacenar información acerca de la palabra, y reglas gramaticales para almacenar información relativa a la gramática, el texto que tuvo lugar en los medios de almacenamiento de frases una unidad de análisis de texto para el análisis mediante el uso de dichos diccionario almacenado reglas información de gramática una palabra, y el resultado de análisis de texto medios de sujeción para sujetar el resultado obtenido por dichos análisis de texto significa a un método de representación utilizando paréntesis y los paréntesis representan base de conocimientos para la celebración de diversos conocimientos, la están presentes en el resultado del análisis de texto retenido a la unidad de resultado de análisis de texto de la explotación agrícola, y los paréntesis representan las medias de análisis para analizar una representación usando paréntesis, la frase Un medio de procesamiento de verificación de sentencia para juzgar y detectar una parte que tiene la posibilidad de un error en la oración en base al resultado del análisis de la oración mantenido en el medio de retención del resultado del análisis; Y resultado del proceso de verificación Texto medios de sujeción para sujetar el resultado detectado Te, que comprende además un medio para visualizar resultado del proceso de verificación texto que designa el resultado comprobado proceso de condena sosteniendo ubicaciones significa la posibilidad de errores que tuvo lugar en el Características Aquí, el conocimiento de representación entre paréntesis los patrones de expresión de los soportes de base y su clasificación, y, acciones tales como la definición de la decisión de ignorar la parte de la sentencia comprueba cuando hay soportes individuales representan almacenar el conocimiento, los paréntesis representan significa análisis analiza las expresiones paréntesis presentes en la frase sobre la base de los conocimientos, la extracción de una porción redundante o innecesaria, como fonética, los medios de procesamiento de cheques frase, en el que Ignore las partes redundantes o innecesarias y verifique las oraciones.
Medio de almacenamiento de la presente invención es un medio de almacenamiento utilizado por la unidad de análisis de idioma para el análisis que contiene declaración representación redundante, al menos, el análisis de procesar la representación en respuesta a la información y la redundancia representación de la representación redundante E información sobre si excluir o no la información del usuario. En este caso, dicha representación redundante comprende la expresión paréntesis en paréntesis, corchetes patrones de expresión y su clasificación, y establece la determinación de si o no hacer caso omiso de la parte cuando hay soportes individuales representan Recuerde el conocimiento tal como acciones. Además, al referirse a la información, se almacena adicionalmente un programa de análisis para analizar la oración eliminando expresiones redundantes de la oración de entrada.
En lo sucesivo, las realizaciones de la presente invención se describirán en detalle con referencia a los dibujos.
La figura 1 es un diagrama de bloques que muestra un ejemplo de configuración de sistema de un aparato de análisis de lenguaje natural de esta realización. En la presente realización describe la frase comprobado por el lenguaje natural, se aplica a diversos análisis a diversos estados distintos de lenguaje natural no se limita a ello.
En la figura, las palabras utilizadas unidad de almacenamiento de frases 1 de entrada de almacenamiento de frases a frases comprobar, unidad de análisis 2 texto para analizar la frase almacenada en la frase de entrada unidad 1, 3 que sostiene en la sección de procesamiento de análisis de texto 2 tienda de búsqueda para el diccionario de palabra, las reglas de gramática que definen la relación entre las palabras utilizadas en el procesamiento de análisis de texto sección 2 4, 5 resultado de análisis de texto unidad de sujeción para sujetar el resultado de la unidad de análisis de texto 2, 6 paréntesis paréntesis representan la base de conocimientos para la celebración de diversos método de representación de conocimiento utilizado, 7 paréntesis expresión analizador para analizar dicha está presente en la unidad de resultado de análisis de texto que sostiene retenido resultados de análisis de texto, expresado utilizando paréntesis partes, la unidad de procesamiento de cheques 8 frase para detectar y determinar la ubicación de posibles errores basándose en el resultado de análisis de texto, celebrada en la unidad de resultado de análisis frase que sostiene, 9 resultado detectado por dicha unidad de procesamiento de cheques frase Para resultado del proceso de verificación texto unidad de retención para levantar, 10 es una unidad de visualización del resultado de procesamiento de cheques de texto para mostrar un resultado del proceso de verificación de texto para señalar una parte de la posibilidad de errores en poder de la oración marcada resultado del proceso unidad de retención.
La figura 2 es un diagrama de bloques que muestra un ejemplo de configuración de hardware del aparato de análisis de lenguaje natural de esta realización. 21, CPU, 22 del control de operación para controlar el analizador de lenguaje natural es una memoria de control para almacenar el procedimiento de control de la CPU 21, por ejemplo, la 22a programa de control del sistema, el programa de análisis / verificación texto 22b se almacenan. Incidentalmente, el análisis / verificación de la frase puede ser ejecutado por software como en este ejemplo, o puede ser ejecutado por hardware usando un neurocomputador o similar. Además, en el caso del software, puede configurarse para cargarse desde la sección de almacenamiento externo 24 que se muestra a continuación. 23, la sección de almacenamiento de frases de entrada 23a para sujetar la frase de entrada a analizar, una memoria de datos que tiene un 23c área de trabajo, etc., para almacenar temporalmente los datos en el análisis por el resultado del análisis que sostiene 23b unidad, la CPU 21 que mantiene el resultado del análisis. La memoria de control 22 y la memoria de datos 23 están constituidas por una ROM, una RAM o similar.
24, 24a diccionario de palabras que contiene la palabra de diccionario 3 y reglas gramaticales utilizado en el análisis de la presente realización, las tiendas de grandes cantidades de datos, tales como paréntesis representan la base de datos de conocimiento 24b que muestra el ejemplo en la Fig. 3, un disquete o un disco duro, Una unidad de almacenamiento externo que incluye un CD ROM o similar. Incidentalmente, la base de datos de conocimiento de expresión de corchetes 24b puede incluirse en el diccionario 24 a. 25 es una interfaz de entrada para introducir datos y comandos de la 25a teclado y 25b ratón y un 25c micrófono, etc., 26, datos de salida y el resultado del análisis en la unidad de visualización 26a y una 26b impresora, un 26c altavoz, etc., tal como un CRT Como se muestra en la FIG. Incidentalmente, la frase de entrada puede ser ingresada desde la unidad de almacenamiento externo 24 o desde el teclado 25 a. Alternativamente, puede reconocer una entrada de voz desde el micrófono 26c y convertirla en una cadena de caracteres.
La figura 3 es un diagrama que muestra un ejemplo de conocimiento relacionado con el método de expresión que usa paréntesis almacenados en la base de datos de conocimiento de expresión entre paréntesis 24 b. Por ejemplo, por lo general, como la forma en que se utiliza en paréntesis representan, número de artículo, la lectura, abreviaturas, explicación complementaria, ilustración, incluyen opcional,
Expresión de paréntesis = 'Cadena numérica entre paréntesis'
La clasificación de la expresión del corchete en el caso de
Expresión de paréntesis = 'Hiragana entre paréntesis y lectura de la última secuencia de kanji'
La clasificación de la expresión del corchete en el caso de
Además, para cada clasificación de expresión entre paréntesis, 'ignorar' o 'no ignorar' los paréntesis en la verificación de frase como acciones, etc. se almacenan. En el caso de uso de frases a menos que, o lenguaje natural usando la presente invención en las representaciones complementarias distintas de paréntesis clasificaciones de representación apropiados se realizan en el proceso.
La figura 4 es un diagrama de flujo que muestra el procedimiento de procesamiento de la operación en el aparato de análisis de lenguaje natural. A continuación, con referencia a la Fig. 4, que muestra el procedimiento de funcionamiento de esta realización como un ejemplo de la frase de entrada 'He estudiado la población inteligencia (artificial) (el campo de)' que se muestra en la Fig. 5 (a).
En el paso S1, se realiza el procesamiento de análisis de las oraciones mantenidas en la unidad 1 de retención de la oración de entrada. Esto se hace usando el diccionario 24 a (diccionario de palabras 3 y regla de gramática 4) en la unidad de procesamiento de análisis de frases 2. El resultado se almacena en la unidad de retención de resultados de análisis de frases 5, y el flujo continúa al paso S2. A continuación, en el paso S2, buscar expresiones entre paréntesis a partir del resultado de análisis de texto unidad 5 de retención producto Análisis de la expresión Los paréntesis de la etapa S3 si está presente. Si no, el proceso pasa al paso S4.
En S3 paso, los paréntesis en el analizador de expresiones 7, con referencia a la unidad de resultado de análisis de texto que sostiene 5 paréntesis representan el conocimiento paréntesis expresión presente en el resultado del análisis de texto, celebrada en la base 6 (paréntesis representan 24b de base de datos de conocimiento) soportes Analiza la clasificación de expresiones. A continuación, se almacena en el paréntesis representan la base de conocimientos 6, sobre la base de la información de acción que muestra la determinación de si la realización de condena revisado por ignorar, la sentencia comprobado haciendo caso omiso de la parte respectiva representación soportes También juzga si es o no. La acción obtenida aquí se lleva a cabo en la unidad de retención de resultados de análisis de frases 5.
En el paso S4, se realiza un procesamiento de verificación de texto en la unidad de procesamiento de cheques frase 8 basado en el resultado del análisis de texto, celebrada en el resultado del análisis de texto unidad 5 holding resultado de procesamiento de cheques frase sección 9 de sujeción. En el paso S5, en base al resultado de la comprobación frase celebrada en la frase verificado resultado proceso unidad 9 que sostiene, y termina el procesamiento para visualizar el resultado de procesamiento de cheques de texto en la unidad de visualización 10.
Fig. 5, en el curso de procesamiento del aparato, una frase que incluye la expresión entre paréntesis, el 'he estudiado la población inteligencia (artificial) (el campo de)' como un ejemplo, esta realización Como se muestra en la FIG. Aquí, y en la Figura 5 la frase de entrada de (a) 'He estudiado la población inteligencia (artificial) (el campo de)' el ​​análisis frase, como paréntesis representación, de (hecho por el hombre) y (el campo de) o ver que dos posiciones se incluyen, como resultado de los paréntesis representan analizado ellos basados ​​en paréntesis representan la base de conocimientos 6, lo que resulta parte representación paréntesis de paréntesis representan la clasificación, y la sentencia comprobó mediante ignorando La figura 5 (b) muestra un ejemplo de una acción para juzgar si es o no es. Finalmente, la figura 5 (c) muestra un ejemplo de verificación de oraciones obtenido en base al resultado del procesamiento de verificación de texto. A continuación, con respecto a la ubicación de posibles errores, realiza localizaciones similares proceso de recogida de parte similar de la sentencia de recolección, que se obtiene mediante la realización de proceso de estimación de la palabra candidato de corrección para la estimación de la palabra candidato de corrección de lugares similares , Y muestra las palabras / frases de corrección correctas propuestas.
En la realización anterior, los paréntesis representan la base de conocimientos, un ejemplo ha sido descrita para almacenar de antemano si la frase comprobado haciendo caso omiso de los soportes individuales expresado como información de acción, haciendo caso omiso de los soportes individuales representan Para que el usuario pueda actualizar la información de la acción en cuanto a verificar o no las oraciones. En la realización anterior se ha descrito tomando el símbolo () como soportes, la invención no se limita a los mismos, tales como [] o [] o {}, también se puede aplicar a cualquier símbolo que se puede utilizar en paréntesis .
Además, en la realización anterior, después de realizar el análisis de texto y los paréntesis representan comprendidas, se ha descrito un caso en que la frase comprueba haciendo caso omiso de paréntesis, se eliminó porción redundante o innecesaria representan porciones antes de realizar el análisis de texto También es posible analizar oraciones sobre oraciones y hacer verificaciones de oraciones basadas en los resultados. Además, en la realización anterior, como se muestra en (c) de la Fig. 5, un ejemplo se ha descrito que se mostrará automáticamente realizar el procesamiento de recogida punto similar y proceso frase estimación candidato de corrección, las porciones similares de procesamiento de colección o candidato de corrección de palabra También es posible permitir al usuario seleccionar de forma interactiva cada ejecución del proceso de estimación para que cada proceso pueda omitirse.
Además, en la realización anterior, el proceso de verificación de texto ha sido cómo llevar a cabo una verificación de texto utilizando el diccionario y gramática reglas de palabras, no se limita a esto. Por ejemplo, además del diccionario de palabras y reglas gramaticales , Puede ser un método para incorporar un diccionario de configuración con información como errores ortográficos y verificación de texto. Además, en la realización anterior, en la frase de comprobación de visualización del resultado, se ha descrito por el formato de la que se muestra el uso de una parte de los resultados de la verificación de texto subrayado, la presente invención no se limita a ello, por ejemplo, para visualizar el color, Se puede usar cualquier formato siempre que pueda ser reconocido por un usuario, como cambiar la fuente de un personaje o usar la voz.
Además, en la realización anterior, en la pantalla de resultados frase se marca, la ubicación del resultado de la comprobación de texto visualiza mediante el subrayado se ha descrito el formato de la presentación de la palabra candidato de corrección y detecta la palabra en otra área de visualización, limitado a Por ejemplo, al hacer clic en un lugar de un resultado de verificación de texto con un mouse o similar, se puede presentar información tal como un candidato de corrección relacionado con una frase detectada.
En la realización anterior se ha descrito tomando el ejemplo japonés, no se limita a la misma, también son aplicables a cualquier idioma, como Inglés o alemán, que se menciona más en la primera forma de realización No se limita al lenguaje natural. Además, en la realización anterior, mediante el procesamiento de la representación incidental en la comprobación de texto, tal tratamiento no es sólo un efecto mediante el uso de la frase de verificación, por ejemplo, como el proceso de la traducción automática, como para traducir Japonés al Inglés , Es posible eliminar porciones del proceso de análisis que son difíciles de procesar y contribuyen a la velocidad y precisión del procesamiento del análisis.
Además, la presente invención se puede aplicar a un sistema constituido por una pluralidad de dispositivos o a un aparato que comprende un único dispositivo. Ni que decir tiene que la presente invención también puede aplicarse a un caso en el que la presente invención se logra suministrando un programa a un sistema o a un aparato.
Efecto de la invención
La presente invención puede proporcionar un método y aparato de análisis idioma rápidamente y correctamente analizar las frases por fraccionamiento de representación redundante. Por ejemplo, en el procesado de calibración del texto, y se analizó para porciones de los soportes representados por cosas redundantes o innecesarios como haciendo caso omiso de la frase marcada, para detectar con más precisión la localización de los errores potenciales Y es posible obtener el efecto de que el proceso de corrección de la oración se puede realizar de manera eficiente.
La figura 1 es un diagrama de bloques funcional que muestra un ejemplo de configuración de sistema de un aparato de análisis de lenguaje natural de esta realización.
La figura 2 es un diagrama de bloques que muestra un ejemplo de configuración de hardware de un aparato de análisis de lenguaje natural de esta realización.
La figura 3 es un diagrama que muestra un ejemplo de contenido de una base de conocimiento de expresión entre paréntesis para explicar esta realización.
La figura 4 es un diagrama de flujo que muestra un procedimiento de procesamiento del aparato de análisis de lenguaje natural de esta realización.
La figura 5 es un diagrama que muestra un ejemplo de procesamiento específico de acuerdo con la presente realización.
Unidad de retención de 1 frase de entrada
Unidad de procesamiento de análisis de 2 oraciones
Diccionario de 3 palabras
4 reglas gramaticales
Resultado del análisis de 5 oraciones que contiene parte
6 Base de conocimiento de expresión de paréntesis
7 Unidad de análisis de expresión de paréntesis
Unidad de procesamiento de verificación de 8 oraciones
Resultado de procesamiento de verificación de 9 oraciones que sostiene la unidad
Pieza de visualización del resultado del procesamiento de comprobación de 10 oraciones
Reclamo
Un método de análisis del lenguaje de analizar los estados cargados reivindicación 1 representación redundante, que corresponde a una redundantes tiendas de representación ya sea excluido del proceso de análisis de la expresión, basada en el almacenamiento, desde la frase de entrada Un método de análisis de lenguaje caracterizado por analizar oraciones al eliminar expresiones redundantes.
En la reivindicación 2, en el que la etapa de almacenamiento, la representación redundante en una pluralidad de patrones de expresión, el análisis del lenguaje según la reivindicación 1, en el que el almacenamiento de si excluido del proceso de análisis correspondiente a cada patrón de expresión Método.
3. El método de análisis de lenguaje de acuerdo con la reivindicación 1 o 2, en el que la expresión redundante incluye una expresión de paréntesis entre corchetes.
4. El método de análisis de lenguaje según la reivindicación 1, en el que el análisis es una verificación de frase.
5. El método de análisis de lenguaje según una cualquiera de las reivindicaciones 1 a 4, en el que la oración es una oración en lenguaje natural.
Una unidad de análisis de idioma para el análisis de la reivindicación declaración inclusive 6 representación redundante, medios de almacenamiento para almacenar si excluyó del análisis procesar la representación correspondiente a una representación redundante, con referencia a los medios de almacenamiento Y analizando los medios para analizar la oración eliminando la expresión redundante de la oración de entrada.
7. en el que la unidad de almacenamiento, una representación redundante en una pluralidad de patrones de expresión, el análisis del lenguaje según la reivindicación 6, en el que el almacenamiento de si excluido del proceso de análisis correspondiente a cada patrón de expresión Dispositivo.
8. El aparato de análisis de lenguaje según la reivindicación 6, en el que la expresión redundante incluye una expresión entre paréntesis entre corchetes.
9. El aparato de análisis de lenguaje de acuerdo con la reivindicación 6, en el que dicho medio de análisis incluye un medio de comprobación de la oración para verificar una oración.
10. El aparato de análisis de lenguaje según la reivindicación 6, en el que la oración es una oración en lenguaje natural.
Un medio de almacenamiento de frases para almacenar el diccionario de oraciones y palabras reivindicaciones 11 para almacenar información acerca de la palabra, y las reglas gramaticales para almacenar información relativa a la gramática, el texto que tuvo lugar en la memoria de texto significa, almacenada en dicho diccionario de palabras Medios de retención del resultado del análisis de la oración para mantener el resultado obtenido por dichos medios de análisis de la oración, paréntesis que tienen varios conocimientos sobre el método de expresión que usa paréntesis una base de conocimientos representación, estando presentes dichos en el resultado del análisis de texto retenido para el resultado del análisis de texto unidad de sujeción, y los paréntesis representan significa de análisis para analizar una representación uso de paréntesis, se lleva a cabo en la unidad de resultado del análisis de retención de la frase Un medio de procesamiento de verificación de sentencia para juzgar y detectar un lugar donde existe la posibilidad de un error en la oración sobre la base del resultado del análisis de la oración que se está procesando; Y el resultado de procesamiento de cheques de texto medios para levantar, aparato de análisis de texto caracterizado por tener un medio para la visualización de resultado de procesamiento de cheques de texto que designa la frase verificado resultado proceso que mantiene ubicaciones medios de sujeción la posibilidad de errores que tuvo lugar en el .
La reivindicación 12, en el que dicho conocimiento paréntesis representan los patrones de expresión soportes de base y su clasificación, y, acciones tales como la definición de la decisión de ignorar la parte de la sentencia comprobado cuando hay soportes individuales representan almacenar el conocimiento, los paréntesis representan significa análisis analiza las expresiones paréntesis presentes en la frase sobre la base de los conocimientos, la extracción de una porción redundante o innecesaria, como fonética, los medios de procesamiento de cheques frase, en el que 12. El aparato de análisis de oraciones de acuerdo con la reivindicación 11, en el que se verifica una oración ignorando porciones redundantes o innecesarias.
Un medio de almacenamiento usado en el aparato de análisis de idioma para el análisis de las reivindicaciones 13 declaración que implica representación redundante, al menos, sea eliminado a partir del análisis de la representación en respuesta a la información y la redundancia representación de la representación redundante Y la información en el medio de almacenamiento.
La reivindicación 14 en el que la representación redundante comprende la expresión paréntesis en paréntesis, corchetes patrones de expresión y su clasificación, y establece la determinación de si o no hacer caso omiso de la parte cuando hay soportes individuales representan Y almacena el conocimiento tal como la acción y similares.
15. El medio de almacenamiento según la reivindicación 13, que almacena adicionalmente un programa de análisis para analizar oraciones eliminando expresiones redundantes de oraciones de entrada con referencia a dicha información.
Dibujo :
Application number :1997-006788
Inventors :キヤノン株式会社
Original Assignee :八木沢津義、金子和恵、相澤道雄、廣田誠、藤田稔