Método y aparato de extracción automática de palabras clave
Descripción general
 Prepare un diccionario o similar de antemano, reduzca drásticamente el esfuerzo de mantenimiento y extraiga automáticamente las palabras clave candidatas. ] Aparato de extracción automática de palabras clave candidata, un documento de archivo de documento 10 como de datos para extraer una palabra clave se registra, la información de frecuencia sección de cálculo N-gramas 11 para el cálculo de la frecuencia de ocurrencia de una cadena de caracteres, un documento del archivo de documento 10 ; Una tabla 13 de grados de importancia de cadena de caracteres en la que se registran las cadenas de caracteres extraídas del archivo de documento 10 y los niveles de importancia de las cadenas de caracteres; una tabla de grados de importancia de cadena de caracteres una unidad de selección de cadena de caracteres 14 para la extracción de un candidato de palabra clave elimina los caracteres sin sentido de la tabla de nivel de importancia 13, la palabra clave candidatos extraídos por la cadena de caracteres sección 14 de la clasificación está constituido por una tabla de candidatos de palabras clave 15 para ser grabada.
Campo técnico
Campo técnico La presente invención se refiere a un método y aparato para extraer automáticamente las palabras clave necesarias para crear una base de datos de texto capaz de buscar palabras clave.
Antecedentes de la técnica
Convencionalmente, como método para extraer automáticamente palabras clave y elementos similares de oraciones, había un método de código libre y un método de control de palabras clave.
En el sistema de tiempo libre, las palabras clave se extraen primero centrándose en los segmentos de oraciones y los delimitadores, y las palabras se dividen en partes del discurso mediante el uso de un diccionario para dividir. palabras A continuación, la intercalación de la diccionario registrada sufijo, prefijo lenguaje que es la palabra-separado, eliminado y el sufijo, palabra compuesto adicional dividido, la división usando un diccionario vocabulario registrados unidad mínima . A continuación, la intercalación de la palabra diccionario innecesaria, y los nombres de palabras clave en las palabras también remanentes se eliminan las palabras innecesarias de la palabra que ha ido dejando un espacio entre las palabras.
esquema de control de palabra clave para palabras que son la palabra clave en el método de haz de freeters de procesamiento anteriormente descrito es un método de selección de una palabra clave coteja el diccionario de palabras clave es un diccionario de palabras registrado para la palabra clave.
Tarea de solución
diccionario de vocabulario de palabras clave de control de manera que el método freeters viga, diccionario de palabras innecesarias, también utiliza un diccionario de palabras clave adicional es una forma de control Palabras clave, palabras clave y palabras innecesarias son dependientes del contexto de la frase, haciendo caso omiso de este uniforme En palabras innecesarias, diccionarios de palabras clave, dependiendo de las oraciones, hubo casos en los que se eliminaron las palabras necesarias como palabras clave, o se utilizaron palabras innecesarias como palabras clave. Además, estos diccionario de vocabulario, diccionario de palabras innecesarias, pero debe mantenerse para crear un diccionario de palabras clave de antemano, esto requiere un enorme esfuerzo, mediante la obtención de un diccionario cada vez que si el cambio es nueva generación palabra y su uso Tuve que actualizarlo
Un objeto de la presente invención es crear y diccionario de antemano, lo que reduce significativamente el mantenimiento posterior para tomar esfuerzo es proporcionar un método de extracción de palabras clave y un aparato para la extracción automática de un candidato de palabra clave.
Solución
El método de extracción de palabras clave, según la reivindicación 1, el proceso de la obtención de la N-gramo para una frase dada, un proceso de cálculo de la importancia de la cadena buscada, una cadena de caracteres sin sentido a partir de la cadena de caracteres obtenida Y extraer la palabra clave candidatos de la oración dada realizando el proceso de exclusión de la oración.
método de extracción de palabras clave de acuerdo con la reivindicación 2, el proceso de cálculo de la importancia de la cadena de caracteres, y la frecuencia de aparición de la cadena de caracteres obtenida por el proceso de obtención de la N-gramo, en realidad por el número total de tipos de cadenas de caracteres que aparecían , Y calcula la importancia de la cadena de caracteres normalizando la frecuencia de aparición de la cadena de caracteres.
método de extracción de palabras clave, según la reivindicación 3, el procesamiento para eliminar la cadena de sentido, secuencialmente examina la cadena obtuvo la importancia, la importancia de caracteres es menor que la columna, y una parte de caracteres de la cadena de caracteres Al excluir cadenas de caracteres en columnas de candidatos de palabras clave, se excluyen cadenas de caracteres sin sentido.
método de extracción de palabras clave, según la reivindicación 4, en el que la frecuencia normalizada de ocurrencia de la cadena, (n es un número natural predeterminado) de longitud n del documento dado y extrae una cadena de caracteres de hasta, y eliminar duplicados , y el registro de la tabla con su frecuencia de aparición, de la mesa, los pasos de contar la longitud de otro tipo de cadena, cada cadena de hasta longitud n, menor que la longitud de cada una de dichas cuerdas Y calculando la importancia de cada cadena de caracteres multiplicando el número total de clases de cadenas de caracteres de longitud por la frecuencia de aparición de la cadena de caracteres.
método de extracción de palabras clave, según la reivindicación 5, el proceso para eliminar la cadena de caracteres sin sentido, n de 1 longitud (n es un número natural predeterminado) ha registrado la importancia y la longitud de la cadena hasta el acoplamiento de un n-número de mesas, el método comprende la selección de una cadena de la tabla en orden de importancia, lee secuencialmente una cadena de caracteres de la tabla ordenada, la tabla de candidatos de palabras clave de la cadena de caracteres como parte de otra cadena de caracteres Un paso de no registrar la cadena de caracteres en la tabla de palabras clave candidatas cuando la cadena de caracteres se registra como parte de otra cadena de caracteres en la tabla de palabras clave candidatas .
El aparato automático de extracción de palabra clave de acuerdo con una cualquiera de las reivindicaciones 6 a 10 implementa la palabra clave método de extracción automática de las reivindicaciones 1 a 5, respectivamente.
Primero, el grado de importancia para las cadenas de caracteres arbitrarios en la oración dada se calcula y registra en la tabla de grados de importancia de la cadena de caracteres. A continuación, al eliminar cadenas de caracteres sin sentido de las cadenas de caracteres de la tabla de grados de importancia de la cadena de caracteres, se generan listas candidatas de palabras clave secuenciadas por importancia.
Esto hace innecesario preparar un diccionario por adelantado.
A continuación, las realizaciones de la presente invención se describirán con referencia a los dibujos.
La figura 1 es un diagrama de bloques de un aparato automático de extracción de palabras clave de acuerdo con una realización de la presente invención.
candidato Keyword aparato de extracción automática de la presente forma de realización incluye un archivo de documento se registra 10 documento como datos para la extracción de una palabra clave, lee el documento registrado en el archivo de documento 10, cualquier incluida en el documento la extracción de la cadena de caracteres, calcula una información de frecuencia N-gramo unidad 11 de recuento para contar la frecuencia de ocurrencia de la cadena de caracteres, a partir de la frecuencia del número total de tipos de realidad que aparece cadena y la frecuencia de ocurrencia de cuerdas de una cadena de importancia sección de cálculo cadena de importancia 12, una cadena de caracteres importancia tabla de nivel de importancia de las 13 cadenas contadas por cuerdas y sección de cálculo cadena importancia 12 extraída del archivo de documentos 10 se registra, la cadena una unidad de selección de cadena de caracteres 14 para la extracción de un candidato de palabra clave elimina los caracteres sin sentido de la tabla de nivel de importancia 13, los candidatos de palabras clave clave extraídos por la cadena de caracteres unidad 14 se registra seleccionando Se compone de más de 15 tabla de candidatos.
La figura 2 es un diagrama de flujo que muestra el procesamiento de la unidad de recuento de información de frecuencia N-gramo 11 y la unidad 12 de cálculo de grado de importancia de cadena de caracteres. En primer lugar, leer el documento registrado en el archivo de documento 10 para cada frase (paso 21), la creación de una subcadena de la declaración, más n (n es un número natural predeterminado) desde el principio del carácter que cada subcadena Crea la siguiente cadena de caracteres parciales y la envía a la tabla de cadenas de caracteres 16 (pasos 22, 23). A continuación, determinar la frecuencia de aparición del texto del tipo y la clase de cadenas de caracteres parciales subcadenas en cada longitud de cadena se almacena en una tabla (tabla gramo N) 17 correspondiente a cada longitud de cadena (paso 24). Aquí, la frecuencia de aparición registrada en la tabla 17 se obtiene al restar 1 a la frecuencia de aparición real. Finalmente, la importancia IX de cada cadena X parcial calculado por la siguiente ecuación, y almacena la tabla de nivel de importancia n-gram 18 de subcadenas X (paso 26).
IX = Y × S (1)
Aquí, Y es el número total de tipos de frecuencia de aparición parcial de fila X, S cadena X parcial de longitud N la siguiente cadena de carácter parcial almacenado en la tabla N-gramo 17.
La figura 3 es un diagrama de flujo que muestra el procesamiento de la unidad de clasificación de cadenas de caracteres 14. En primer lugar, la fusión de todos los N-gramo tabla de nivel de importancia 18, una subcadena con el fin de clasificar los registros importancia la cadena importancia mesa de nivel 13 (paso 31). A continuación, las cadenas de caracteres parciales registradas en la tabla de grados de importancia de la cadena de caracteres 13 se extraen como candidatos de palabras clave en orden descendente de importancia (paso 32). Y la cadena parcial extraída menos parte vuelta de una cadena que ya ha sido registrado en la tabla de candidatos de palabras clave 15, la cadena de caracteres extraída se registra en la tabla de candidatos de palabras clave 15 (etapa 35). La operación anterior se repite para todas las cadenas de caracteres en la tabla de grados de importancia de la cadena de caracteres 13.
Por lo tanto, las cadenas de caracteres registradas en la tabla de candidatos clave 15 son palabras clave candidatas en la parte seleccionada en orden de importancia descendente.
La siguiente oración es el primer ejemplo del documento registrado en el archivo del documento 10.
'El desarrollo de los reactores de fusión nuclear está progresando constantemente
Porque cuesta enormes fondos de desarrollo
La discusión sobre el desarrollo es importante
Para evaluar la aplicación práctica del reactor de fusión
Creamos un código de análisis para calcular el costo de un reactor práctico
Usamos una base de datos para el análisis de costos
Como resultado del cálculo de prueba de este código, la relación de aspecto es aproximadamente 3 Económicamente
Me resultó difícil establecerme '.
El siguiente es el contenido de la tabla de cadenas de caracteres 16.
'El desarrollo de los reactores de fusión nuclear está progresando constantemente
El desarrollo de un reactor de fusión ha progresado constantemente
El desarrollo del reactor progresa constantemente
El desarrollo del horno ha progresado constantemente
El desarrollo del progreso constante
El desarrollo progresa de manera constante
El origen está progresando de manera constante
Está progresando de forma constante
Progresando constantemente
Realmente está progresando
Progresando a
Está progresando
Exhibiendo
Haciéndolo
y son
Tener
Para
Porque cuesta enormes fondos de desarrollo
Dado que cuesta una gran cantidad de fondos de desarrollo
(Corto)
Me resultó difícil de hacer
Lo encontré difícil.
Sabía que era
Descubrí
Atrapé mi temperamento
Descubrí
Lo tengo
Comprado
Fue
'
El siguiente es una parte de los contenidos de la tabla N-gram 17 (en el caso de n = 3).
'Análisis de 0
Desarrollo 1
Cálculo de 0
En el caso 0
Costo 0
Aspera 0
Código 1
Tomar 0
Capital de desarrollo 0
Fusion 1
Apertura de frente 0
Este estudio 0
Reactor de fusión 1
Solución 0
Total para 0 '
La Tabla 1 muestra la cantidad de tipos de cadenas de caracteres por longitud de cadena de caracteres.
ID = 000003 HE = 115 WI = 042 LX = 0390 LY = 0300
El siguiente es una parte (n = 3) de los contenidos de la tabla de grados de importancia n-gram 18.
'Análisis de 0
Desarrollo de 329
Cálculo de 0
En el caso 0
Costo 0
Aspera 0
Código 329
Tomar 0
Capital de desarrollo 0
Fusion 329
Apertura de frente 0
Este estudio 0
Horno Fusion 329
Solución 0
Total para 0 '
La siguiente es una parte de los contenidos de la importancia de n-gram cadenas importancia ordenar fusionó el cuadro 18 (0 excluido) cadena importancia mesa de nivel 13.
'603
468
453 reactor de fusión
402 Desarrollo
390
329 reactor de fusión
329 Fusion
Código 329
Desarrollo de 329
312
312 es
312
Por 234
234
234
234
201 del horno
201 fusión
201 costo
201 uso práctico
Horno 201
201 Fusion
Análisis 201
201 COR
Apertura 201
En 201
201
(Abreviado a continuación) '
A continuación, se incluye el contenido de la tabla de palabras clave candidata 15.
'Hasta 603
De 468
Reactor de fusión 453
Desarrollo 402
Código 329
Desarrollo de 329
312
Es 312
Para 312
Por 234
234
Horno 201
Costo 201
Práctico 201
Análisis 201
Hasta 201
156
Hasta 156
Es 156
Requerido 78
Libro 78
Formación 78
Cálculo 78
Motivo 78
En 78
78
78
78 '
La siguiente oración es el segundo ejemplo del documento registrado en el archivo del documento 10.
'Circunstancias de fraude del' banco de Japón 'elogiadas por emitir el déficit
Un banco parece ser un mundo extraño. Taro bancos para amortizar el fracaso de incluso Sekiken 80 mil millones de yenes en el ahora cerrado el 31 de marzo de ingreso ordinario fue anunciado para ser un déficit de 280 mil millones de yenes. Si es normal, el acuerdo de déficit es una mala reputación, pero el ministerio de AA, BB 'muy apreciado' y el precio de las acciones subió 270 yenes en un día. Los que son elogiados son probablemente feroces porque son elogiados por los déficits, pero no hay irritación en que las personas del mundo piensen '¿por qué?'
Bueno, hubo circunstancias únicas para el banco.
Corporación privada o el rendimiento es peor, se convierten en un balance de déficit si Kakaekome los malos préstamos, pero un lugar común, el banco no es capaz de déficit a menos que nos reconocimos Ministerio AA. La liquidación de un determinado banco que tenía muchos préstamos en mora en el acuerdo del año pasado se convirtió en un problema. También hubo una opinión de que algunos funcionarios de BB deberían estar en números rojos, pero el ministerio de AA es 'No'. La provincia de AA está extremadamente atenta a que se desate la inestabilidad crediticia y a los bancos también les disgusta el daño a la imagen. No hay nada de eso. Aunque no lo dice hasta vestirse, es como enseñar a obtener ganancias mediante una maniobra legítima y adaptarla.
Sin embargo, esta caída prolongada del precio de las acciones ya no puede usar esta mano. NPL cada vez se vuelven más y más superficie. Taro Bank es alabado por haber escrito 800 mil millones en un tramo, pero no todos desaparecerán.
Si Ministerio AA también una vez la rentabilidad número uno de los bancos Taro despegar también convencer al público, hay una lectura que Mai acreditará la ansiedad. Es fácil para los bancos con liquidación de cuenta de pérdida seguir después. Por otro lado, Taro Bank es diferente del simple arreglo de déficit. Es dispensar 800 mil millones de yenes al mismo tiempo, dividir el fondo de reserva y llenar el déficit es la fortaleza física ya que es la fuerza física. También hay un orgullo de que puedes hacerlo si puedes seguirlo.
Por lo tanto, el acuerdo entre el ministerio de AA y el Taro Bank es consistente. '
La Tabla 2 muestra una parte de la frecuencia de aparición de cadenas de caracteres en el ejemplo de documento
ID = 000004 HE = 120 WI = 073 LX = 1135 LY = 0300
La Tabla 3 muestra una parte de la cantidad de clases de cadenas de caracteres para cada longitud de cadena de caracteres en el ejemplo del documento.
ID = 000005 HE = 120 WI = 073 LX = 0235 LY = 0300
La Tabla 4 muestra las cadenas de caracteres superiores obtenidas clasificando las cadenas de caracteres en el ejemplo del documento en orden descendente de importancia.
ID = 000006 HE = 225 WI = 089 LX = 0605 LY = 0300
ID = 000007 HE = 095 WI = 089 LX = 0605 LY = 0300
La Tabla 5 muestra una parte de las cadenas de caracteres de la palabra clave candidatos junto con la importancia del ejemplo del documento anterior.
Efecto de la invención
Según la presente invención descrita anteriormente, el análisis automáticamente un documento determinado y la porción seleccionada, por la extracción de las palabras clave candidatos, puede ser significativamente reducido el esfuerzo para crear un diccionario de antemano con la mano.
Además, la presente invención es, reglas, etc., tales como un diccionario y la sintaxis, como palabra desconocida, porque no utiliza ninguna información que no sea la frase dada, estática en requiere el programa y el tamaño de los datos es muy pequeña, dinámica a la información ya que las operaciones complicadas y caras, como una búsqueda y regla diccionario de aplicación en el proceso no es necesario, el marco principal, por supuesto, incluso en un ambiente con capacidad de procesamiento limitada, tales como un ordenador personal, puede exhibir una función suficiente y velocidad de procesamiento.
Además, la presente invención, cuando se aplica a una actualidad cada vez que fluye artículos de noticias, tales como se muestra en el ejemplo de realización, ya que no requiere ningún tales avance del registro diccionario y reglas enseñado, incluye una palabra desconocida para el primer encuentro tiempo e incluso si es tan importante en el contenido, independientemente del campo de contenidos de poder coger la palabra desconocida como candidato de palabras clave, hay una ventaja significativa sobre las aplicaciones.
Además, la presente invención, como el artículo de un periódico nacional de periódicos de un año, tales como el contenido de cada campo aparece de manera uniforme, si se aplica al grupo lo suficientemente condena a gran escala, obtenidos candidatas a especialidad tener una personalidad no sesgada en el campo, se puede utilizar como un cómodo 'grupo lenguaje general proceso o aparato de extracción', lo que resulta grupo palabra general es, por ejemplo utilizado con eficacia para excluir la palabras clave del lenguaje literatura especialización en general Es obvio que puedes.
Breve descripción de los dibujos La figura 1 es un diagrama de bloques de un aparato automático de extracción de palabras clave de acuerdo con una realización de la presente invención.
La figura 2 es un diagrama de flujo que muestra el procesamiento de la unidad 11 de cálculo de información de frecuencia N-gramo y la unidad 12 de cálculo de grado de importancia de cadena de caracteres.
La figura 3 es un diagrama de flujo que muestra el procesamiento de la unidad de clasificación de cadenas de caracteres 14.
10 Archivo de documento
Unidad de cálculo de información de frecuencia de 11 N gramos
12 sección de cálculo de importancia de cadena
13 Tabla de importancia de cadena de caracteres
14 sección de clasificación de cuerdas
15 tabla de palabras clave candidatas
16 Tabla de cadenas
Tabla de 17 gramos
Tabla de importancia de 18 n gramos
21 25, 31 35 pasos
Reclamo
Un proceso de obtención de la N-gramo con respecto a la reivindicación 1 frase dado un proceso de cálculo de la importancia de la cadena de caracteres obtenida mediante la realización de un proceso para eliminar caracteres sin sentido de la cadena de caracteres obtenida , Y extrae una palabra clave candidata de la oración dada.
Proceso para el cálculo de la importancia de la reivindicación 2, en donde las cuerdas, y la frecuencia de aparición de la cadena de caracteres obtenida por el proceso de obtención de la N-gramo, por número realidad total de tipos de cadenas de caracteres que aparecían, la frecuencia de aparición de la cadena de caracteres Y la palabra clave se normaliza para calcular la importancia de la cadena de caracteres.
Proceso para eliminar la reivindicación 3 en el que los caracteres sin sentido son cadena de caracteres secuencialmente examina se determinó la importancia, la cadena de caracteres importante que la cadena de caracteres es más pequeño, y la cadena de caracteres parcial de la cadena de caracteres 3. El método automático de extracción de palabras clave según la reivindicación 1 o 2, que excluye de una palabra clave candidata una cadena de caracteres sin sentido.
4. frecuencia normalizada de ocurrencia de la cadena de caracteres, (n es un número natural predeterminado) de longitud n del documento dado y extrae una cadena de caracteres de hasta, y eliminar por duplicado, a la mesa junto con la frecuencia de ocurrencia y registrarse, de la mesa, los pasos de contar la longitud de otro tipo de cadena, cada cadena de hasta longitud n, el tipo de cadena de longitud de menos de la longitud de cada una de dichas cuerdas Y calculando la importancia de cada cadena de caracteres multiplicando el número total de cadenas de caracteres por la frecuencia de aparición de la cadena de caracteres.
Proceso para eliminar la reivindicación 5 en el que la cadena de caracteres sin sentido, n es de 1 longitud (n es un número natural predeterminado) combinar el n-número de tablas que hayan registrado su importancia y la longitud de la cadena hasta pasos y, los pasos de clasificación de una cadena de la tabla en orden de importancia, lee secuencialmente una cadena de caracteres de la tabla ordenada, si la cadena de caracteres se ha registrado en la tabla de palabras clave candidata como parte de otra cadena de caracteres Un paso de no registrar la cadena de caracteres en la tabla de palabras clave candidatas cuando la cadena de caracteres se registra como parte de otra cadena de caracteres en la tabla de palabras clave candidatas. 3. Un método de extracción automática de palabras clave de acuerdo con 3.
Palabra clave con respecto a las reivindicaciones 6 sentencia dada, medios para obtener la N-gramo, medios para calcular la importancia de la cadena de caracteres obtenida, y medios para la eliminación de caracteres sin sentido de la cadena de caracteres obtenida Dispositivo de extracción automático.
Esto significa para el cálculo de la reivindicación 7 en el que el grado de importancia, y la frecuencia de aparición de la cadena de caracteres obtenida por los medios para la obtención de la N-gramo, por número realidad total de tipos de cadenas de caracteres que aparecían, normaliza la frecuencia de ocurrencia de la cadena de caracteres Y dicho dispositivo de extracción de palabras clave extrae palabras clave de dichas palabras clave.
Esto significa para la eliminación de la reivindicación 8 en el que los caracteres sin sentido son secuencialmente obtiene la cadena importancia obtenido carácter, cadena de caracteres importante que la cadena de caracteres es más pequeño, y la cadena de caracteres parcial de la cadena de caracteres Y excluye la palabra clave candidatos de la palabra clave candidatos.
La normalización de la frecuencia de aparición de la reivindicación 9 en el que la cadena (n es un número natural predeterminado) de longitud n del documento dado y extrae una cadena de caracteres de hasta, y eliminar por duplicado, a la mesa junto con la frecuencia de ocurrencia y registrarse, de la mesa, los pasos de contar la longitud de otro tipo de cadena, cada cadena de hasta longitud n, el tipo de cadena de longitud de menos de la longitud de cada una de dichas cuerdas Y calculando la importancia de cada cadena de caracteres multiplicando el número total de cadenas de caracteres por la frecuencia de aparición de la cadena de caracteres.
10. El proceso para eliminar una cadena de caracteres sin sentido combina series de caracteres de longitudes de 1 a n (n es un número natural predeterminado) y n tablas en las que se registran sus niveles de importancia pasos y, los pasos de clasificación de una cadena de la tabla en orden de importancia, lee secuencialmente una cadena de caracteres de la tabla ordenada, si la cadena de caracteres se ha registrado en la tabla de palabras clave candidata como parte de otra cadena de caracteres Un paso de no registrar la cadena de caracteres en la tabla de palabras clave candidatas cuando la cadena de caracteres se registra como parte de otra cadena de caracteres en la tabla de palabras clave candidatas. 8.
Dibujo :
Application number :1996-320873
Inventors :日本電信電話株式会社
Original Assignee :中渡瀬秀一