Document Morphological Analyzer
Descripción general
 documentos separados entrado en morfemas refiere documentar analizador morfológico para evidente para salida de la naturaleza de cada unidad, se añade el lenguaje de descripción de documentos, y el separador frase morfema se reconoce aparato de procesamiento de lenguaje natural resultado del análisis Como primer objeto. ] El documento al que se ha aplicado la descripción en el lenguaje de descripción del documento se introduce en los medios de entrada 3 y se envía al medio de análisis 4. El medio de análisis 4 reconoce un delimitador de una oración en el documento de entrada desde el símbolo de final de frase 2a incluido en el diccionario de información de control 2. La FIG. Además, el análisis documento significa 4 se refiere a la 2b documento de descripción de lenguaje incluido en el diccionario de información de control 2, extrae el documento excluyendo el documento de descripción de lenguaje del documento de entrada, haciendo referencia a la palabra del diccionario 1, que es el extrajo Como se muestra en la Fig. El medio de salida 5 envía el resultado de análisis de los medios de análisis 4 al aparato de procesamiento de lenguaje natural o similar, junto con la descripción en el lenguaje de descripción de documento contenido en el documento introducido en los medios de entrada 3.
Campo técnico
Campo técnico La presente invención se refiere a un aparato de análisis morfológico de documentos para dividir un documento de entrada en unidades de morfema, clarificando las propiedades de cada unidad y emitiéndolas.
Antecedentes de la técnica
Convencionalmente, la palabra clave de recuperación por el ordenador,, manipulación sustituido de cadena o la clasificación como, el procesamiento de calibración, cuando se realiza el procesamiento del lenguaje natural, como proceso de traducción automática, pre morfema al documento para ser procesada (la unidad lingüística más pequeña con el significado) , Y realiza el procesamiento del lenguaje natural en base a dicho documento morfológicamente analizado. Para realizar el procesamiento del lenguaje natural en un documento, el documento debe estar dividido en unidades de morfema de antemano.
Por otro lado, para describir la estructura lógica y la estructura semántica de un documento a procesar, se agrega al documento una marca simple (lenguaje de descripción del documento). Por ejemplo, en el SGML (Standard Generalized Markup Language), una parte estructural o semántico importante, tal como el título de entrada, el nombre del autor en el documento, marcado con el documento de descripción de lenguaje que está predeterminado (etiquetas y códigos de control) Déjalo Al hacer esto, puede usar, por ejemplo, extraer solo esa parte más tarde, ponerla en resumen, crear un índice de nombre personal y usar el documento como base de datos.
Tarea de solución
Sin embargo, en el análisis morfológico antes del procesamiento de lenguaje natural convencional, porque no es posible procesar directamente un documento que contiene la descripción del documento idioma que no sea el documento, el proceso ha sido necesario retirar su lenguaje de descripción de documento.
Mientras tanto, al agregar un lenguaje de descripción de documento a un documento, se pueden considerar varios usos convenientes en el procesamiento de lenguaje natural, de modo que se requiere que se agregue un lenguaje de descripción de documento al resultado del análisis de morfema.
Además, en el procesamiento del lenguaje natural, dado que el procesamiento se realiza en unidades de oraciones que constituyen un documento, se requiere convencionalmente el preprocesamiento para reconocer una oración. En el análisis morfológico convencional, no había función para reconocer una oración.
Además, no es posible distribuir los documentos descritos utilizando un lenguaje de descripción de documento dedicado a un sistema específico a sistemas que utilizan documentos descriptivos de diferentes esquemas. En consideración a tales inconvenientes, se requiere la conversión del código de un lenguaje de descripción de documento para que los documentos que incluyen un lenguaje de descripción de documento puedan distribuirse entre sistemas que usan diferentes lenguajes de descripción de documentos.
La presente invención se ha realizado en vista de estos puntos, se añade documento de descripción de lenguaje y documento Análisis morfológico separador frase es posible dar salida al resultado reconocido análisis morfológico en la unidad de procesamiento de lenguaje natural Un primer objeto de la presente invención es proporcionar un aparato.
Además, para sistemas que utilizan esquemas de diferente documento de descripción de lenguaje, el segundo objeto proporcionar un dispositivo de análisis morfológico documento capaz de dar salida el documento mediante la realización de la transcodificación de un lenguaje de descripción de documento.
Solución
En la presente invención, con el fin de lograr el objeto anterior, como se muestra en la Fig. 1, el diccionario de 1 la palabra usada para el análisis morfológico, y notas al final símbolos 2a y descripción documento de lenguaje de 2b con los atributos de reconocimiento de frase delimitada- Haciendo referencia de control de diccionarios información 2 configurado, la unidad de entrada 3 un documento que contiene una descripción en un lenguaje de descripción de documento se introduce, basándose en la entrada de documentos a la unidad de entrada 3, la palabra diccionario 1 y la información de control de diccionarios 2 de y, reconoce el separador de frase para extraer el documento excluyendo el documento de descripción de lenguaje, el medio de análisis 4 para el análisis morfológico en el documento extraído, el resultado del análisis de los medios de análisis 4, medios de entrada 3 Junto con una descripción en un lenguaje de descripción de documentos incluido en un documento de entrada al aparato de análisis morfológico del documento, el aparato de análisis morfológico del documento.
Además, incluso el analizador morfológico documento, y una 2b documento de descripción de lenguaje contenido en el diccionario de información de control 2, la tabla de correspondencia lenguaje de descripción de documento que muestra la correspondencia entre la descripción del documento idioma diferente de los esquemas y la descripción documento de lenguaje 2b 6 Y medios de conversión 7 para convertir la descripción en el lenguaje de descripción de documento emitido desde los medios de salida 5 en una descripción en un lenguaje de descripción de documento de otro sistema con referencia a la tabla de correspondencia de lenguaje de descripción de documento 6.
Con la configuración anterior, el diccionario de palabras 1 es el mismo diccionario utilizado para el análisis morfológico que antes. El diccionario de información de control 2 es un diccionario peculiar de la presente invención, y contiene un símbolo de fin de oración 2a y un lenguaje de descripción de documento 2b. El final del símbolo frase 2a es, [el caso por ejemplo del Inglés '(Período),?,!', Etc.] en el símbolo normal de documento de texto que indica el final de la frase que se añadió un atributo para reconocer los descansos de oraciones en Ahí Descripción del documento lenguaje 2b es un lenguaje que describe la estructura lógica y la estructura semántica del documento, si es el caso de SGML, '<,>, Un documento al que se ha aplicado la descripción en el lenguaje de descripción del documento se introduce en los medios de entrada 3 y se envía a los medios de análisis 4. El medio de análisis 4 reconoce un delimitador de una oración en el documento de entrada desde el símbolo de final de frase 2a incluido en el diccionario de información de control 2. La FIG. Además, el análisis documento significa 4 se refiere a la 2b documento de descripción de lenguaje incluido en el diccionario de información de control 2, extrae el documento excluyendo el documento de descripción de lenguaje del documento de entrada, haciendo referencia a la palabra del diccionario 1, que es el extrajo Como se muestra en la Fig. Es decir, los documentos extraídos están separados para cada morfema y se aclara la naturaleza de cada morfema.
El medio de salida 5 envía el resultado de análisis de los medios de análisis 4 al aparato de procesamiento de lenguaje natural o similar, junto con la descripción en el lenguaje de descripción de documento contenido en el documento introducido en los medios de entrada 3. Esto hace posible enviar al aparato de procesamiento de lenguaje natural un resultado de análisis de morfema al que se agrega una descripción del lenguaje de descripción de documento y en el que se reconoce un delimitador de una oración.
Además, una 2b documento de descripción de lenguaje contenido en el diccionario de información de control 2, provisto de una tabla de descripción de documento de lenguaje de correspondencia 6 acomodar la correspondencia entre el documento de descripción de lenguaje diferente de los esquemas y la descripción documento de lenguaje de 2b, medios de salida 5 y el aparato de procesamiento del lenguaje natural. El medio de conversión 7 convierte la descripción en el lenguaje de descripción de documento emitido desde los medios de salida 5 en una descripción en un lenguaje de descripción de documento de otro método con referencia a la tabla de correspondencia de lenguaje de descripción de documento 6.
Esto permite dar salida al documento mediante la conversión de código del lenguaje de descripción de documento a un sistema que utiliza un lenguaje de descripción de documento con un esquema diferente.
Descripción de las formas de realización preferidas A continuación se describirá una realización de la presente invención con referencia a los dibujos. En primer lugar, se describirá la configuración principal del aparato de análisis morfológico de documentos de esta realización con referencia a la figura 1. Esta realización incluye principalmente diccionario 1 una palabra usada para el análisis morfológico, y de control de diccionarios información 2 el atributo está constituido por las EndNote símbolos 2a adjuntas y descripción documento de lenguaje 2b para el reconocimiento de frase delimitado, el reconocimiento de un medio de entrada 3 para el documento que contiene la descripción en la 2b documento de descripción de lenguaje es de entrada, en base a la entrada de documentos a la unidad de entrada 3, con referencia a la palabra del diccionario 1 y el diccionario de información de control 2, el separador de frase con el documento extractos excluyendo el documento de descripción de lenguaje, el medio de análisis 4 para el análisis morfológico en el documento extraído, el resultado del análisis de los medios de análisis 4, contenida en un documento que se introduce en la unidad de entrada 3 Y una salida significa 5 para dar salida a la descripción junto con la descripción en el lenguaje de descripción del documento.
Además, el 2b documento de descripción de lenguaje contenido en el diccionario de información de control 2, una tabla de descripción de documento de lenguaje de correspondencia 6 muestra la correspondencia entre la descripción del documento idioma diferente de los esquemas y la descripción documento de lenguaje de 2b, la unidad de salida 5 Y el medio de conversión 7 para convertir la descripción en el lenguaje de descripción del documento para ser enviado a una descripción en un lenguaje de descripción de documento de otro sistema con referencia a la tabla 6 de correspondencia del lenguaje de descripción del documento.
La figura 2 muestra una configuración específica del aparato de análisis morfológico de documentos de esta realización. De la misma manera, el diccionario de información de control 15 corresponde al diccionario de información de control 2, el almacenamiento intermedio de documentos de entrada 11 corresponde a los medios de entrada 3, la sección de reconocimiento de una oración 12 a de la sección de análisis de morfema 12 , código de la etiqueta de control de unidad de conversión de 12b interno, y la unidad de unidad de análisis 12c palabra segmentación 4, la sección de salida del resultado de análisis 13 es un medio de salida 5, la tabla de correspondencia de código de control 17 en el documento de lenguaje de descripción de la tabla de correspondencia 6, la unidad de análisis morfológico 12 Y la unidad de procesamiento de conversión de código de control 12 d corresponde a la unidad de conversión 7.
La memoria intermedia de documentos de entrada 11 almacena temporalmente el documento a procesar y lo emite en respuesta a la solicitud de la unidad de análisis de morfemas 12. unidad de análisis morfológico 12 tiene una configuración de procesador, el diccionario de información de control 15, un diccionario de palabras 16, y la tabla de correspondencia de código de control 17 es una tabla almacenada, respectivamente, en el dispositivo de almacenamiento externo conectado al procesador. Por el procesador de la unidad de análisis morfológico 12 ejecuta un programa predeterminado, una unidad 12a de reconocimiento de frases, un código de control tag sección de conversión interna 12b, la palabra dividiendo unidad 12c, y la función del código de control de unidad de conversión de 12d se realiza.
La unidad de procesamiento de lenguaje natural 14 es una unidad que realiza cualquiera de los procesos de impresión, traducción, búsqueda por palabra clave y similares del documento. La figura 3 es un diagrama que muestra un ejemplo de los contenidos del diccionario de información de control 15. Es decir, en esta realización, SGML se adopta como un lenguaje de descripción de documento, y varios códigos de etiqueta (columna 1 columna 10) y códigos de control (columna 11 columna 15) se registran en el diccionario de información de control 15. Además, se registran varios códigos de final de frase (columna 16). El final del código frase, [el caso por ejemplo del Inglés '(Período),?,!', Etc.] en el símbolo normal de documento de texto que indica el final de la frase se obtiene añadiendo un atributo para reconocer los descansos de oraciones en. código Notas 'blanco' se muestra en la columna 16, un documento símbolos que punto seguido de un espacio que aparece inmediatamente después de la palabra, se añade la naturaleza de la 'Bunmatsubi' como el atributo.
La figura 4 es un diagrama que muestra un ejemplo del contenido de la tabla de correspondencia del código de control 17. Es decir, la etiqueta, lo que significa 'nueva línea' (código de control) es un lenguaje de descripción de documentos DOS En '0d0a', la descripción del documento lenguaje SGML '
' indica que se conoce como la descripción del documento de lenguaje principal '30a1' Lo ha hecho.
Aquí, se supone que un documento como se muestra en la figura 5 se envía desde la memoria intermedia de documentos de entrada 11 a la unidad de análisis morfológico 12. En primer lugar, la unidad de reconocimiento de una sola oración 12a verifica si existe alguno de los códigos de final de frase almacenados en el diccionario de información de control 15 en el documento mostrado en la figura 5. Como hay un código de oración 'en blanco', reconozca una oración agregando el atributo 'fin de la oración' allí.
Además, la unidad de conversión interna del código de control de etiqueta 12b verifica si hay algún código de etiqueta o código de control almacenado en el diccionario de información de control 15 en el documento mostrado en la figura 5. Cuando existe, lleva a cabo varios tipos de conversión por atributo de código de etiqueta y código de control. La figura 6 muestra un estado en el que la unidad de conversión interna del código de control de etiqueta 12b realiza la conversión en el documento mostrado en la figura 5.
Es decir, hay una etiqueta de documento de etiqueta a (En la Fig. 5 se muestra en esta etiqueta se omite), en el que la declaración de la etiqueta

a etiqueta ' Introduzca el servidor WWW 'es una oración principal. La frase 'Este servidor es una generación anterior'. Desde la siguiente etiqueta

a la etiqueta hay un párrafo. En el párrafo, por ejemplo, la oración 'coche de nueva generación' de la etiqueta a la etiqueta es una oración que debe enfatizarse de alguna manera. La etiqueta

de la etiqueta (En la Fig. 5 se omite la etiqueta ilustrada) y estados separados arriba, en su sentencia independiente, Etiquetas de Hay más oraciones independientes hasta esa oración independiente adicional con la palabra 'barato' y la etiqueta con el tamaño de la etiqueta de la etiqueta a la etiqueta . La etiqueta se considera como una parte de una palabra en una oración, y como un atributo de palabra, se considera como una palabra especial que no existe en el diccionario de palabras. En la figura 5 y la figura 6, el código de caracteres en mayúsculas y el código de caracteres secundarios se manejan de la misma manera.
Volviendo a la figura 2, la unidad de división de palabras 12c se refiere al diccionario de palabras 16 y realiza el mismo análisis morfológico que el convencional. La unidad de procesamiento de conversión de código de control 12d realiza la conversión de código en el resultado del análisis de morfema con referencia a la tabla de correspondencia de códigos de control 17 según sea necesario.
resultado Análisis unidad de salida 13, un resultado el análisis morfológico obtenido por la unidad de palabra-segmentación 12c, añade el reconocimiento de frases obtenida en la unidad de reconocimiento de frases 12a, y una descripción por SGML obtenido en el código de control etiqueta de conversión interna de la unidad 12b Y lo envía a la unidad de procesamiento de lenguaje natural 14. En ese momento, si el formato del idioma de descripción del documento es diferente, la conversión del código se realiza de antemano por la unidad de procesamiento de conversión de código de control 12 d.
El procedimiento de procesamiento de la unidad de análisis de morfemas 12 anterior se describirá con referencia a la figura 7. La figura 7 es un diagrama de flujo que muestra un procedimiento de procesamiento de la unidad 12 de análisis de morfemas. A continuación, se dará una descripción a lo largo de los pasos en la figura.
[S1] Se juzga si los datos del documento que se procesarán aún permanecen en la memoria intermedia de documentos de entrada 11. Si los datos del documento a procesar aún permanecen, el proceso pasa al paso S4, y si no hay datos del documento a procesar, el proceso continúa al paso S2.
[S 2] Lee datos de documentos nuevos en la memoria intermedia de documentos de entrada 11.
[S3] Se determina si los datos del documento nuevo se han leído en la memoria intermedia del documento de entrada 11 o no. Si no hay datos de documentos recién leídos en el buffer 11, el presente proceso finaliza, y si está presente, el proceso pasa al paso S4.
[S4] la unidad de análisis morfológico 12 examina cada carácter o código de documentos alimentados secuencialmente desde la memoria intermedia de documento de entrada 11 en el orden en que son, el código de la etiqueta contenida en el diccionario de información de control 15, el código de control coincide con uno del código de nota al final O no Si coinciden con los códigos incluidos en el diccionario de información de control 15, el proceso pasa al paso S 6, y si no coinciden, el proceso pasa al paso S 5.
[S5] Realice el mismo análisis morfológico que en el pasado con referencia al diccionario de palabras 16.
[S 6] Se determina si el carácter o código enviado desde la memoria intermedia de documentos de entrada 11 coincide con el código de final de frase incluido en el diccionario de información de control 15. Si es coincidente, el proceso pasa al paso S11, de lo contrario pasa al paso S7.
[S7] Se determina si el carácter o código enviado desde la memoria intermedia de documentos de entrada 11 es un código de apertura de etiquetas '<'. Si es un código de apertura de etiqueta, el proceso pasa al paso S9, de lo contrario pasa al paso S8.
(S8) La unidad de conversión interna 12b del código de control de etiquetas realiza varias conversiones.
[S 9] Combina oraciones de la etiqueta <> a la etiqueta enviada desde la memoria intermedia de documentos de entrada 11 hasta entonces.
[S10] La información convertida en el paso S8 se combina sobre las oraciones recogidas en el paso S9.
[S11] La unidad de reconocimiento de oración única 12a agrega un atributo 'fin de oración'.
[S 12] Se determina si la conversión del código de control es necesaria o no. Si es necesario, el proceso avanza al paso S13, y si no, el proceso pasa al paso S14.
(S13) La unidad de procesamiento de conversión de código de control 12d realiza la conversión de código con referencia a la tabla de correspondencia con el código de control 17. La FIG.
[S14] La unidad de análisis de salida número 13, el resultado del análisis morfológico obtenido en la etapa S5 y una información de descripción de documento de lenguaje obtenido en la etapa S10, la unidad de procesamiento de lenguaje natural junto con la información de código de conversión obtenida en la etapa S13 14.
Efecto de la invención
En lo anterior presente invención, como se describe, incluye un diccionario de información de control que aloja el extremo de un lenguaje de símbolos de oraciones y descripción del documento, el símbolo final frase incluida en el diccionario de información de control para reconocer la frase delimitador en el documento de entrada. Además, haciendo referencia a la lenguaje de descripción de documento que figura en el diccionario de información de control, extrae el documento excluyendo el documento de descripción de lenguaje del documento de entrada, haciendo referencia al diccionario palabra, el análisis morfológico convencional en el documento extraído . Luego, el resultado del análisis morfológico se envía a un aparato de procesamiento de lenguaje natural o similar junto con una descripción en un lenguaje de descripción de documento e información de delimitación de una oración.
Esto hace posible enviar al aparato de procesamiento de lenguaje natural un resultado de análisis de morfema al que se agrega una descripción del lenguaje de descripción de documento y en el que se reconoce un delimitador de una oración. Es decir, el procesamiento convencional tal como la eliminación de códigos de control y etiquetas antes de aplicar un documento a un aparato de procesamiento de lenguaje natural se vuelve innecesario. Además, se añade un código de control de documentos o la etiqueta, ya que puede ser enviada al aparato de traducción automática, por ejemplo, palabra intercalado específico simplemente ser tratado como dejar el original sin traducir la etiqueta. Además, incluso sin el analizador SGML, es posible manejar documentos SGML directamente en cierta medida.
También es posible proporcionar una tabla de correspondencia de lenguaje de descripción de documentos en la que se almacenan las relaciones de correspondencia entre los lenguajes de descripción de documentos alojados en el diccionario de información de control y los lenguajes de descripción de documentos de otros esquemas diferentes del lenguaje de descripción de documento. La descripción se convierte en una descripción en un lenguaje de descripción de documentos de otro método con referencia a la tabla de correspondencia del lenguaje de descripción de documentos.
Esto permite dar salida al documento mediante la conversión de código del lenguaje de descripción de documento a un sistema que utiliza un lenguaje de descripción de documento con un esquema diferente. Es decir, el aparato de la presente invención puede usarse como una herramienta conversora para convertir el código de control de un documento, y los datos para una aplicación de usuario pueden convertirse fácilmente en datos para otra aplicación de usuario.
BREVE DESCRIPCIÓN DE LOS DIBUJOS FIG.
La figura 2 es un diagrama de bloques que muestra la configuración de la realización de la figura 2.
La figura 3 es un diagrama que muestra un diccionario de información de control.
La figura 4 es un diagrama que muestra una tabla de correspondencia de códigos de control;
La figura 5 es un diagrama que muestra un documento de entrada.
La figura 6 es un diagrama que muestra un resultado de análisis morfológico.
7 es un diagrama que muestra un procedimiento de procesamiento de la unidad de análisis morfológico.
Diccionario de 1 palabra
2 Diccionario de información de control
2a Signo de fin de frase
2b Idioma de descripción del documento
3 medios de entrada
4 Medios de análisis
5 Medios de salida
6 Tabla de correspondencia del lenguaje de descripción del documento
7 medios de conversión
Reclamo
reivindicación independiente 1 documento de entrada en morfemas, el analizador documento morfológica para evidente para salida de la naturaleza de cada una de las unidades, y el diccionario de palabra que se usa en el análisis morfológico, los atributos para el reconocimiento de frase delimitado adicional un diccionario de información de control se compone de un símbolo de fin de frase y documento de descripción de lenguaje que es, un medio de entrada para un documento que contiene una descripción mediante el lenguaje de descripción de documentos se introduce, en base a la entrada de documentos a dichos medios de entrada, según el diccionario de la palabra Analizar medios para reconocer un delimitador de una oración haciendo referencia al diccionario de información de control y extraer un documento que excluye el lenguaje de descripción de documento y realizar un análisis morfológico en el documento extraído; Y los medios de salida para dar salida a un resultado junto con una descripción en un lenguaje de descripción de documento incluido en el documento introducido en dicho medio de entrada.
2. El aparato de procesamiento de información según la reivindicación 1, que comprende además: una tabla de correspondencia de lenguaje de descripción de documento que muestra una relación de correspondencia entre un lenguaje de descripción de documento contenido en el diccionario de información de control y un lenguaje de descripción de documento de otro sistema diferente del lenguaje de descripción de documento; Y medios de conversión para convertir una descripción en un lenguaje de descripción de documento en una descripción en un lenguaje de descripción de documento del otro sistema con referencia a dicha tabla de correspondencia de lenguaje de descripción de documento. Analizador
3. El aparato de análisis morfológico de documentos de acuerdo con la reivindicación 1, en el que el lenguaje de descripción de documentos acomodado en el diccionario de información de control es SGML (Lenguaje de Marcado Generalizado Estándar).
atribuye símbolo de fin de sentencia para el reconocimiento de un delimitador de la reivindicación 4, en donde se añade la sentencia, si el documento que se introduce en dicho medio de entrada es un Inglés '', uno de los '?', O '!' 2. El aparato de análisis morfológico de documentos según la reivindicación 1, en el que
Dibujo :
Application number :1997-016594
Inventors :富士通株式会社
Original Assignee :永見渡