Dispositivo de gestión de la base de datos
Descripción general
 Para facilitar la evaluación de la validez de las expresiones de búsqueda y evitar el desperdicio del tiempo de cálculo al no buscar expresiones de búsqueda no válidas. ] Y la gestión de documento que define la posible documento estructura por el objeto regla de sintaxis estructurado, una condición relacionada con elementos del documento, usando las condiciones relativas a la relación de conexión entre los elementos en el aparato de gestión de base de datos de documento que especifica el objetivo de búsqueda, basado en la estructura del documento puede tomar, y el elemento de partida, los elementos adyacentes a la inferior para el elemento de partida, medios para generar una tabla de correspondencia para los elementos que pueden estar presentes en el conjunto inferior y uno para el elemento de partida, la expresión de búsqueda Y medios para verificar si la fórmula de recuperación es válida o no escaneando la tabla de correspondencia en función del resultado de la recuperación.
Campo técnico
La presente invención se refiere a un aparato de gestión de bases de datos de documentos que gestiona un documento electrónico.
Antecedentes de la técnica
documento electrónico creado por un procesador de textos o similares, ya que se representa como datos digitales, añadir, eliminar, se puede realizar fácilmente la edición de estos cambios, es posible mejorar la eficiencia de creación de documentos. Además, una pluralidad de documentos electrónicos mediante la construcción de un aparato de base de datos documental acumulada en un dispositivo de almacenamiento de gran capacidad, es posible buscar documentos de interés por búsqueda por palabra clave o similar electrónicamente.
En el aparato de gestión de base de datos de documento de acuerdo con el logrado el documento electrónico convencional, cuando se realiza la recuperación de un documento, almacena los propios datos de documento hecho de un procesador de textos, se han llevado a cabo búsqueda usando los datos.
Mientras tanto, para facilitar la creación y edición de documentos electrónicos, los documentos electrónicos están estructurados. Estructura de un documento, por ejemplo, los capítulos que constituyen un documento, rumbo, y elementos tales como párrafos, la información acerca de las relaciones entre los elementos, por ejemplo, capítulo está representado por la información acerca de este tipo con encabezamientos y párrafos como subestructuras .
Tarea de solución
El objeto de la presente invención es proporcionar, la AOD, el estándar internacional para la estructura del documento (Oficina de arquitectura de documento) y (ISO 8613) SGML (Standard Generalized Markup Language); describir (ISO 8879 JIS X4151) como un ejemplo.
Primero, se explicarán los términos usados ​​en la presente especificación.
El término 'estructura del documento' es una estructura de información que representa un documento. Por ejemplo, la estructura de información definida por la ODA es una estructura de documento. Una estructura de documento es aquella en la que se realiza la subconjunto de SGML (restricción de función) y se define la estructura de información que se utilizará para los códigos de caracteres y los gráficos que se utilizarán. Para SGML, ver, por ejemplo, Martin Bryan, 'Introducción a SGML', Corporación ASCII, emitida el 31 de marzo de 1991.
El término 'tipo de documento' se refiere a una plantilla de documento. Tipo de documento, o un documento hecho del mismo puede tener cualquier estructura lógica, es decir, determinar el tipo de un nodo que aparece en la estructura lógica, atributos cada nodo obtenidos tienen una estructura inferior en el que se obtiene cada nodo tener. La estructura lógica común de ODA (estructura lógica dinámica) y DTD (definición de tipo de documento) en la arquitectura de documentos donde SGML está subconjunto es el tipo de documento.
A continuación, se describirán los problemas en el caso de buscar un documento estructurado como se describió anteriormente.
El documento estructurado, el contenido del documento se denomina una estructura, capítulo, la sección lógica, está representado por una estructura de árbol incluyendo una pluralidad de componentes de documentos, tales como la FIG. Un ejemplo de la estructura lógica se muestra en la FIG.
La estructura lógica no se puede crear libremente en absoluto, pero se crea de acuerdo con la regla de sintaxis llamada el tipo de documento anterior. Un ejemplo del tipo de documento se muestra en la FIG. Un nodo rectangular define el tipo de elemento (tipo de elemento). La etiqueta del nodo indica el nombre del tipo de elemento. Las entidades de los nodos con el mismo nombre son del mismo tipo de elemento. Por lo tanto, el tipo de elemento denominado 'cláusula' en la figura 11 se define recursivamente. Un nodo indicado por una elipse define una conexión de elementos. Llamamos a este nodo un constructor. El nodo SEQ indica que la instancia del nodo conectado a ella se genera en ese orden. Un nodo REP indica que una instancia de un nodo conectado a ella se genera una o más veces. Un nodo OPT indica que una instancia de un nodo conectado puede o no aparecer. El nodo CHO indica que se crea una instancia de cualquier nodo conectado a él. La estructura lógica de la figura 10 satisface la restricción del tipo de documento de la figura 11.
En un aparato de gestión de bases de datos documentales que gestiona un documento estructurado, se proporciona un lenguaje de consulta para describir una búsqueda. Algunos lenguajes de consulta están escritos en texto, pero algunos están escritos en una interfaz gráfica de usuario. La figura 12 muestra un ejemplo de una expresión de búsqueda escrita en la interfaz gráfica de usuario. La cadena de caracteres del nodo indica el tipo de elemento. Una cadena de caracteres que se muestra junto a un nodo indica que el texto del nodo contiene la cadena de caracteres. El arco indicado por la línea continua muestra que los nodos en ambos extremos están en una relación padre-hijo. El arco indicado por la línea discontinua muestra que los nodos en ambos extremos están en una relación ancestral (relación entre ancestro y descendiente). Cuando hay arcos múltiples desde un nodo, los resultados de búsqueda son aquellos que satisfacen todas las condiciones. Es decir, se especifica como una conjunción. La expresión de búsqueda en la figura 12 especifica la búsqueda de 'capítulo que tiene un párrafo que incluye la cadena de caracteres' documento 'en el encabezado y que incluye la cadena de caracteres' base de datos '.
Las expresiones de búsqueda se especifican utilizando condiciones relacionadas con los elementos del documento y las condiciones relativas a la relación entre los elementos. En el ejemplo de la figura 12, el primero es una condición relacionada con un tipo de elemento, y el último es una condición que usa una relación de antecesor.
La figura 13 es un diagrama esquemático de un aparato de gestión de base de datos convencional que lleva a cabo la búsqueda descrita anteriormente. La expresión de búsqueda creada por el editor 1 de consulta se convierte en una expresión de búsqueda de un formulario ejecutable por la unidad 3 de evaluación de expresión de búsqueda por la unidad 2 de generación de expresión de búsqueda. Esta fórmula de recuperación busca un documento que tiene un elemento pasado a la unidad de gestión del tipo de documento 5 y que satisface la condición designada. Incidentalmente, el número de referencia 6 denota un diccionario de datos, y el número de referencia 7 denota una base de datos. En la unidad 3 de expresión búsqueda Búsqueda de evaluación de la consulta también se realizó Verificación de la gramaticalmente correcto, si es sintácticamente incorrecta, el procesamiento con este hecho se notifica al operador se detiene.
En el aparato de gestión de bases de datos de documentos para gestionar el documento electrónico convencional mostrado en la figura 13, solo se realizó el examen de si la expresión de recuperación es gramaticalmente correcta. Por lo tanto, incluso si se proporciona una expresión de búsqueda que no puede tener una solución, se trata como una expresión de búsqueda correcta. Por ejemplo, como se muestra en la Fig. 14 la expresión de búsqueda 'comprende la cadena con el párrafo' base de datos 'que contiene la cadena' artículo 'titular que condujo a disminuir el párrafo' es gramaticalmente correcta, No hay documentos con elementos que satisfagan esto. Es decir, en el caso de la estructura del ejemplo del documento mostrado en la figura 11, no hay posibilidad de que exista un encabezado debajo del párrafo.
Como resultado de buscar expresiones de recuperación no válidas, no hay nada que satisfaga la condición, por lo que no se puede obtener nada. Desde el punto de vista del usuario, pero la expresión de búsqueda es correcto gramaticalmente ser semánticamente, ya sea satisfacer a aquellos que no existía en la base de datos, el primer lugar o expresión de búsqueda no es válido no puede determinar fácilmente la, Era una carga para los usuarios al construir una fórmula de búsqueda. Además, dado que se realiza un proceso de búsqueda aunque no pueda existir un documento que tenga un elemento que satisfaga la condición, el tiempo de cálculo del sistema se desperdicia sin sentido. Evaluación de la expresión de recuperación se muestra en la Fig. 14 típicamente analiza todos los casos instancias y títulos de los párrafos, a continuación, se comprueba si hay Mitsurusu la relación padre-hijo, el primer lugar satisface la condición de la Fig. 14 No hay necesidad de evaluar porque no hay nada disponible.
Sumario de la invención Por lo tanto, es un objeto de la presente invención hacer posible determinar fácilmente la validez de una fórmula de búsqueda. Otro objeto de la presente invención es evitar el desperdicio de tiempo de cálculo al no realizar búsquedas de expresiones de recuperación no válidas.
Solución
Para resolver los problemas anteriores, la presente invención es administrado el documento estructurado que define la estructura posible documento por las reglas de sintaxis, utilizando la condición respecto a los elementos del documento, y una condición relativa a la relación de conexión entre los elementos, Se proporciona un aparato de gestión de bases de datos de documentos para designar un objetivo de búsqueda, que comprende medios para recopilar una regla de sintaxis con una expresión de búsqueda dada.
La presente invención se basa en la estructura del documento, es posible generar el elemento de partida, los elementos adyacentes a la inferior para el elemento de partida, la tabla de correspondencia para los elementos que pueden estar presentes en la parte inferior y un conjunto a dicho elemento de partida Y significa escanear la tabla de correspondencia basada en la fórmula de recuperación para verificar si la fórmula de recuperación es válida o no.
Según la presente invención, tras buscar en el documento estructurado, y el tipo de documento, designado por la expresión de búsqueda, se corresponde condiciones usando la relación padre-hijo y la relación ancestro-descendiente, se determina si es válido o no la expresión de búsqueda.
tabla de correspondencia en la presente invención, se examina el tipo de documento antes de realizar la búsqueda, al elemento de partida, los elementos adyacentes a la inferior para el elemento de partida, un elemento que puede estar presente en el conjunto inferior y uno a dicho elemento de partida Se genera Cuando la expresión de búsqueda se introduce en la base de esta tabla de búsqueda correspondencia expresión está escaneada, ya sea expresión de búsqueda que satisfaga se determina la condición de una tabla de correspondencia, y cuando la condición no se cumple, la expresión de búsqueda no es válida Es juzgado
La figura 1 es un diagrama de bloques de un aparato de gestión de base de datos de documentos de acuerdo con la presente invención. El editor de consulta 1 se usa para introducir las condiciones de búsqueda y se introduce usando una pantalla de editor de consulta como se muestra en la figura 2. La expresión de búsqueda creada por el editor 1 de consulta se convierte en una expresión de búsqueda de un formulario ejecutable por la unidad 3 de evaluación de expresión de búsqueda por la unidad 2 de generación de expresión de búsqueda. Esta fórmula de recuperación se pasa a la unidad de verificación de fórmula de recuperación 4 y se juzga si es válida o no. Los detalles del procesamiento en la unidad 4 de verificación de la expresión de búsqueda se describirán más adelante. Si es una expresión de búsqueda válida, se pasa a la unidad de evaluación de la expresión de búsqueda 3 para buscar un documento que tenga un elemento que cumpla la condición designada. Se proporcionan una unidad de gestión de tipo de documento 5, un diccionario de datos 6 y una base de datos 7.
La unidad de verificación de la expresión de búsqueda 4 incluye una unidad de control de verificación 8, una unidad de retención de la tabla de correspondencia 9, una unidad de generación de la tabla de correspondencia 10 y una unidad de determinación de la accesibilidad 11.
unidad de control de verificación 8, un elemento para la supervisión de toda la tabla de llamadas de correspondencia sección 9, unidad de generación de tabla de correspondencia 10, una unidad de determinación de alcanzabilidad 11 según sea apropiado sosteniendo.
tabla de correspondencia sección de sujeción 9, el elemento (elemento de partida), la entrada de tres conjunto de elementos que puede aparecer como un hijo del elemento de partida fijado de acceso desde (conjunto de elementos vecino), y a partir de elementos (conjunto de elementos alcanzable) Como se muestra en la FIG. Aquí, la accesibilidad a un cierto elemento B desde un cierto elemento A significa que el elemento B puede aparecer como un orden inferior (descendiente) de una instancia del elemento A. La tabla de correspondencia generada a partir del tipo de documento de la figura 11 se muestra en la figura 3. Por ejemplo, para el elemento de 'artículo', 'párrafo' es adyacente a la sub-elemento, desde el elemento de 'artículo', elemento 'párrafo', 'la partida', se puede llegar en cualquiera de los 'párrafo' Como se muestra en la FIG.
La unidad 10 de generación de tabla de correspondencia genera la tabla de correspondencia haciendo referencia a la estructura del tipo de documento para el tipo de documento especificado.
Llegada posibilidad juzgar unidad 11, cuando se dan los dos elementos de la fuente y de destino, mediante el escaneo de la tabla de correspondencia almacenada en la sección tabla de correspondencia que sostiene 9 (ver Fig. 3), como una entrada de fuente de elemento a partir Verifique si el destino está incluido en el conjunto de elementos vecinos o en el conjunto de elementos alcanzables. Cuando un destino se incluye en un conjunto de elementos vecinos, el destino puede aparecer como un elemento secundario de la fuente. Cuando un destino se incluye en un conjunto de elementos alcanzables, el destino puede aparecer como un descendiente de la fuente.
La figura 9 muestra un flujo de procesamiento para verificar una expresión de búsqueda dada ejecutada en la unidad de verificación de expresión de búsqueda 4. Este ejemplo se describirá a lo largo de este flujo.
La figura 4 muestra el flujo global de la verificación de la expresión de búsqueda. La entrada de este procesamiento es la expresión de búsqueda generada por la unidad generadora de la expresión de búsqueda 2. La unidad de control de verificación 8 llama a la unidad de gestión de tipo de documento 5 y adquiere información de un esquema (tipo de documento) para buscar la fórmula de recuperación de entrada (etapa 61). Posteriormente, se llama a la unidad 10 de generación de tabla de correspondencia, y se crea una tabla de correspondencia del esquema (etapa 62).
La figura 5 es un diagrama de flujo de un proceso de creación de una tabla de correspondencia (véase el paso 62 en la figura 4). Este proceso se realiza mediante la unidad 10 de generación de tabla de correspondencia. La entrada es la información del esquema. La información del esquema está representada por un gráfico dirigido como se muestra en la figura 6. Primero, se selecciona la ruta del esquema ingresado (paso 72). A continuación, se obtiene un conjunto de tipos de elementos accesibles desde la ruta (paso 73). Se agrega una variable al conjunto de tipos de elementos accesibles desde la raíz agregando una ruta (paso 74). Dicho sea de paso, a continuación, muestra los resultados obtenidos por el procesamiento inmediatamente precedente y el valor de retorno en el paso 7 4, el nodo no procesada inspeccionado si el S variable (paso 7 5). Si no hay ningún nodo no procesado, se finaliza (paso 710). Si hay un nodo no procesado, se selecciona un nodo (paso 76). Se obtiene un conjunto de tipos de elementos adyacentes al nodo seleccionado (paso 7 7). Además, se obtiene un conjunto de tipos de elementos alcanzables del nodo seleccionado (etapa 7 8). Nodo seleccionado (tipo de elemento), juego de tipo de elemento adyacente obtenido en la etapa 7 7, y pasa los tipos de elementos alcanzables establecidos obtenidos en la etapa 7 8 como triples sección de sujeción de tabla de correspondencia 9, la tabla de correspondencia Registre la entrada (paso 79). A partir de entonces, el proceso vuelve al paso 75.
La figura 7 es un flujo de procesamiento para obtener el conjunto de tipos de elementos alcanzables (véase el paso 73 en la figura 5). Este proceso también se realiza mediante la unidad 10 de generación de tabla de correspondencia. La entrada de este proceso es un tipo de elemento, y la salida es un conjunto de tipos de elementos accesibles desde el tipo de elemento de entrada. En este flujo, se utiliza una variable S que contiene un conjunto de tipos de elementos y una variable Q que contiene una cola de tipo de elemento. El valor inicial de la variable S es un conjunto vacío (paso 82). El valor inicial de la variable Q es una cola que incluye todos los nodos adyacentes al nodo de entrada (paso 8 3). En primer lugar, se juzga si la longitud de la variable Q es 0 o no (paso 84). Si es 0 la longitud de la variable Q, ya que el conjunto de elemento alcanzable se almacena en el S variable desde el tipo de elemento de entrada, volvió a controlar esto como un valor de retorno (Etapa 8 10). Si la longitud de la variable Q es 1 o más, se extrae el elemento principal de la variable Q (paso 811). Si el elemento extraído se incluye en la variable S, el proceso vuelve al paso 84. Si el elemento recuperado no se incluye en S, se verifica si se trata de un tipo de elemento (paso 8 7). Si es un tipo de elemento, agregue su tipo de elemento a S (paso 8 8). Todos los nodos adyacentes al elemento extraído se agregan al final de la variable Q (paso 89), y el proceso vuelve al paso 84.
La figura 8 es un diagrama de flujo de un proceso para obtener un conjunto de tipos de elementos vecinos (véase el paso 7 7 en la figura 5). Este proceso también se realiza mediante la unidad 10 de generación de tabla de correspondencia. La entrada de este proceso es un tipo de elemento, y la salida es un conjunto de tipos de elementos adyacentes al tipo de elemento de entrada. Al igual que en el proceso de búsqueda del tipo de elemento accesible, este flujo también utiliza una variable S que contiene un conjunto de tipos de elementos y una variable Q que contiene una cola de tipo de elemento. El valor inicial de la variable S es un conjunto vacío (paso 92). El valor inicial de la variable Q es una cola que incluye todos los nodos adyacentes al nodo de entrada (paso 9 3). En primer lugar, se juzga si la longitud de la variable Q es 0 o no (paso 94). Si es 0 la longitud de la variable Q, ya que el conjunto de elemento alcanzable se almacena en el S variable desde el tipo de elemento de entrada, volvió a controlar esto como un valor de retorno (Paso 9 8). Si la longitud de la variable Q es 1 o más, se extrae el elemento principal de la variable Q (paso 95). Comprueba si el elemento recuperado es un tipo de elemento (paso 96). Si es un tipo de elemento, el tipo de elemento se agrega a la variable S (paso 9 7) y el proceso vuelve al paso 9 4. Si un tipo de elemento, añadir todos los nodos adyacentes al elemento de extracción en el extremo de la Q variable (Paso 9 9), el flujo vuelve al paso 9 4.
La figura 9 es un flujo de procesamiento de verificación de un nodo de expresión de búsqueda (véase el paso 6 4 en la figura 4). Este proceso lo realiza la unidad de determinación de alcanzabilidad 11. La entrada de este proceso es el nodo de la fórmula de búsqueda y el resultado es el valor de verdad que indica si el nodo es válido o no. En primer lugar, se escanea la tabla de correspondencia mantenida en la unidad 9 de retención de la tabla de correspondencia, y se obtiene una entrada que tiene el nodo de entrada como un tipo de elemento de salida (etapa 102). A continuación, verifica si hay un nodo adyacente no procesado (etapa 103). Si se ha completado todo el procesamiento, el valor devuelto se hace verdadero y se devuelve el control (paso 10 12). Si hay un nodo adyacente no procesado, se selecciona un nodo (paso 104). Se juzga si el nodo seleccionado se designa o no como hijo del nodo de entrada (paso 105). Si se designa como un niño, verifica si el nodo seleccionado está incluido en el conjunto de tipos de elementos adyacentes de la entrada (paso 107). Si no está incluido, el control se devuelve con el valor de retorno establecido en falso (paso 107). Si está incluido, el nodo seleccionado se verifica (paso 108). En el paso 105, si no se designa como un nodo seleccionado niño, es decir, si se especifica como un descendiente, el nodo seleccionado, inspeccionar si incluido en el tipo de elemento alcanzable conjunto de entradas (etapa 1.011) . Si no está incluido, el control se devuelve con el valor de retorno establecido en falso (paso 1013). Si está incluido, va al paso 10 8. Si el resultado de la verificación en el paso 10 8 es falso, el control se devuelve con el valor de retorno establecido en falso (paso 10 10). Si es verdadero, el proceso vuelve al paso 103.
En esta realización, constituye una tabla de correspondencia cada vez para verificar la expresión de búsqueda, constituyen la tabla de correspondencia en un momento de registrar un tipo de documento a la base de datos, cuando la verificación se puede escaneando la tabla .
Efecto de la invención
Como se ha descrito anteriormente, de acuerdo con la presente invención, un tipo de documento, que se especifica en la expresión de búsqueda, se corresponde condiciones utilizando la relación padre-hijo y la relación ancestro-descendiente, es válido si la determinación.
Esto hace que sea fácil determinar si el resultado de la búsqueda no se obtuvo debido a un error semántico de la expresión de búsqueda o si no había ninguna instancia correspondiente a la condición. Además, el sistema no tiene que evaluar las expresiones de búsqueda que los resultados de búsqueda no pueden ser, y es posible evitar el desperdicio del tiempo de cálculo.
Breve descripción de los dibujos La figura 1 muestra una configuración de una realización de un aparato de gestión de base de datos documental de la presente invención.
La Figura 2 es un ejemplo de la interfaz gráfica de usuario del editor de consultas.
Es un ejemplo de la tabla de correspondencia en la figura 3. Esta es la tabla de correspondencia del tipo de documento que se muestra en la FIG.
Fig. 4 Flujo de verificación de la expresión de búsqueda.
La figura 5 es un diagrama de flujo del procesamiento de creación de la tabla de correspondencia.
La figura 6 es una representación del tipo de documento de la figura 11 mediante un gráfico dirigido.
La Figura 7 es un flujo de procesamiento para encontrar un conjunto de tipos de elementos que se pueden alcanzar desde un cierto tipo de elemento.
La figura 8 es un flujo de procesamiento para obtener un conjunto de tipos de elementos adyacentes a un tipo de elemento determinado.
La figura 9 muestra el flujo del proceso de verificación del nodo de la fórmula de recuperación.
La Figura 10 es un ejemplo de una instancia de documento.
La Figura 11 es un ejemplo de un tipo de documento. Este es el tipo de documento de la instancia de documento de la FIG.
Figura 12 Este es un ejemplo de designación de objetivo de búsqueda.
La figura 13 muestra una configuración de un aparato de gestión de base de datos de documentos convencional.
La Figura 14 es un ejemplo de una expresión de búsqueda no válida. El tipo de documento utilizado en esta fórmula de recuperación es el de la FIG.
Figura 5 ...... 1 ... Editor de consultas, 2 ... unidad de expresión de búsqueda, 3 generación ... buscar unidad de evaluación de la expresión, 4 ... Search-verificación de parte, 5 ... unidad de gestión de tipo de documento, 6 ... diccionario de datos, 7 ... base de datos, 8 ... unidad de control de verificación, 9 ... unidad de soporte de la tabla de correspondencia, 10 ... unidad de generación de la tabla de correspondencia, 11 ... unidad de juicio de alcance
Reclamo
El documento estructurado que define la estructura posible documento por reglas de sintaxis de la reivindicación 1 y gestionados mediante el uso de la condición con respecto a los elementos del documento, y una condición relativa a la relación de conexión entre los elementos, el aparato de gestión de base de datos de documento para especificar un destino de búsqueda Medios para cotejar la regla de sintaxis con la expresión de búsqueda dada.
Basado en la reivindicación 2 documentos puede tener estructura, el elemento de partida, los elementos adyacentes a la inferior para el elemento de partida, medios para generar una tabla de correspondencia para los elementos que pueden estar presentes en la parte inferior y un conjunto a dicho elemento de partida , aparato de gestión de base de datos de documento tipo de búsqueda según la reivindicación 1, caracterizado porque comprende un medio para verificar si dicho o busca tabla de correspondencia expresión en los escaneos es válido basado en.
Dibujo :
Application number :1997-006803
Inventors :富士ゼロックス株式会社
Original Assignee :中津山恒