Método de extracción de cadenas
Descripción general
 Se proporciona un método de extracción de cadena de caracteres capaz de extraer de forma estable una cadena de caracteres independientemente de los elementos inestables que son diferentes para cada carácter, como la estructura de un trazo de carácter. ] Se presta atención a la porción de fondo en el documento ingresado como datos de imagen y hace que el círculo 201 que tiene el valor del tamaño especificado sea escaneado con respecto a los datos de imagen. En esta exploración, el punto de coordenadas centrales del círculo se genera como el punto de trayectoria 203 solo cuando el círculo no incluye píxeles que constituyen la cadena de caracteres. En el punto de trayectoria 203 generado de esta manera, un punto de trayectoria que no está en contacto con la cadena de caracteres, es decir, un punto rodeado solamente por el punto de emplazamiento, se elimina como un punto no implicado en la extracción de cadena de caracteres. Como resultado, creamos puntos alrededor de la cadena de caracteres, especificamos la posición de entrada y el ángulo de inclinación de la cadena de caracteres arbitraria con precisión, y extraemos de forma estable la cadena de caracteres.
Campo técnico
La presente invención se refiere al procesamiento de entrada de documentos, y más particularmente a un método de extracción de cadenas de caracteres para extraer una cadena de caracteres de datos de imágenes de documentos en los que se mezclan cadenas de caracteres dispuestas en un ángulo de inclinación arbitrario.
Antecedentes de la técnica
Con el aumento en la cantidad de movimiento de personas y bienes año tras año, existe una demanda para el uso efectivo de la información del mapa. En particular, el procesamiento para reconocer no solo la forma de carreteras y edificios sino también letras como nombres de lugares y nombres de edificios y convertirlos en códigos de caracteres a partir de datos de imagen por un escáner o similar se realiza en diversas industrias de transporte y ocio , Existe una gran expectativa de mejorar la eficiencia de la entrada de datos.
Por otro lado, la tecnología de reconocimiento gráfico, especialmente la tecnología de reconocimiento de caracteres, se ha extendido como una técnica práctica con muchos años de investigación y desarrollo. En caso de realizar un reconocimiento de caracteres altamente preciso en datos de imágenes gráficas y similares, es esencial resolver el problema de la posición de entrada y el ángulo de inclinación de la cadena de caracteres, así como el problema de ruido y borrosidad, y extraer con precisión la cadena de caracteres Se convierte en una condición.
Convencionalmente, la extracción cadena Poco se realiza cuando una cadena diferente de la posición de llenado y el ángulo de inclinación es más mezclado, incluso se está realizando, la inclinación del ángulo de inclinación del carácter de la carrera del primer carácter de la cadena Se ha usado un método para estimar la dirección y extraer una cadena de caracteres usando esto como el ángulo de inclinación de la cadena de caracteres y similares.
Tarea de solución
En el método de extracción de cadena de caracteres convencional descrito anteriormente, se presupone que la dirección de inclinación del trazo del carácter coincide con la dirección de inclinación de la cadena de caracteres, y problemas tales como la determinación inestable de roturas de una pluralidad de cadenas de caracteres Hubo un punto.
Sumario de la invención Un objeto de la presente invención es resolver los problemas de la técnica anterior mencionados anteriormente y proporcionar una estructura de trazo de carácter con respecto a datos de imagen de documento en los que se combinan cadenas de caracteres dispuestas en un ángulo de inclinación arbitrario En qué cadenas de caracteres se puede extraer de manera estable independientemente de los elementos inestables que difieren de un carácter a otro.
Solución
Para lograr el objeto anterior de la presente invención, la presente invención, la exploración de las etapas de introducir un documento como datos de imagen que es un conjunto de pixeles por conversión fotoeléctrica, una figura cerrada con respecto a los datos de imagen incluyendo los datos de imagen de entrada de caracteres del Generar un punto de coordenadas en el centro de la figura cerrada solo cuando la figura cerrada escaneada no incluye píxeles que constituyen el carácter, y generar un punto de coordenadas de la figura cerrada solo cuando la figura cerrada escaneada no incluye píxeles que constituyen el carácter; Un paso de eliminar un punto de coordenadas para generar un punto que rodea la cadena de caracteres, y un paso de extraer una cadena de caracteres basada en un punto que rodea la cadena de caracteres generada, por un medio .
En el proceso de extracción de cadena de caracteres anteriormente, en el proceso de escaneo de una figura cerrada, la figura cerrada de la magnitud del valor y la dirección de exploración horizontal se puede fijar arbitrariamente valores de los parámetros de la distancia de movimiento de los valores de distancia de movimiento y la dirección de exploración vertical Es preferible
Además, es preferible que la figura cerrada en el método de extracción de cadena de caracteres descrito anteriormente sea un círculo.
En el proceso de extracción de cadena de caracteres de la presente invención, centrándose en una parte de fondo en el documento, mediante el escaneo de la figura cerrada que tiene un valor de magnitud que especifica, sólo si no contienen los píxeles que constituyen la cadena de caracteres en forma de figura cerrada figuras cerradas Y borra los puntos de coordenadas que no están implicados en la extracción de cadenas de caracteres para generar un punto alrededor de la cadena de caracteres y generar un punto en el que la cadena de caracteres ingresó en un ángulo de inclinación arbitrario, Especificando con precisión el ángulo de inclinación, las cadenas de caracteres en los datos de imagen del documento de entrada se pueden extraer de forma estable. Esto permite facilitar el procesamiento, como la corrección del ángulo de inclinación para cadenas de caracteres posteriores, y realizar un método de entrada de documentos capaz de extraer regiones de cadenas de caracteres de alta precisión.
Descripción de las realizaciones preferidas Las realizaciones de la presente invención se describirán a continuación con referencia a los dibujos.
La figura 1 es un diagrama de bloques de un bloque de procesamiento de un método de extracción de cadena de caracteres de acuerdo con una realización de la presente invención. En la figura 1, el número de referencia 101 denota un bloque de procesamiento para establecer condiciones relacionadas con el escaneo de datos de imagen de entrada. En este bloque de procesamiento 101, para extraer una cadena de caracteres, se genera un círculo que tiene un radio designado por separado como un ejemplo de una figura cerrada, y usando ese círculo, una posición en la que se inicia el escaneo en los datos de imagen de entrada Y la sección móvil de las coordenadas centrales del círculo. Aquí, es posible especificar por separado la distancia de movimiento de las coordenadas del centro del círculo. 102 es un bloque de procesamiento para escanear datos de imágenes de entrada con un círculo y juzgar si los píxeles negros están presentes en un círculo o no. Después, cuando hay una pluralidad de cadenas de caracteres, el procesamiento por el bloque de procesamiento hasta 104 se repite para todas las cadenas de caracteres. 103 es un bloque de procesamiento para realizar un proceso de generación de un punto de coordinación central (en lo sucesivo denominado punto de trayectoria) de un círculo solo cuando se juzga en el bloque de procesamiento 102 que no existe un píxel en el círculo. El número de referencia 104 denota un bloque de procesamiento para realizar un proceso de eliminación de un punto de trayectoria no involucrado en la extracción de cadena de caracteres, fuera de los puntos de trayectoria generados en el bloque de procesamiento 103.
A continuación, se describirá el principio de generación de punto de locus de las coordenadas centrales del círculo mostrado en la figura 1 con referencia a las figuras 2 y 3. La figura 2 muestra un ejemplo de una cadena de caracteres en los datos de imagen de entrada.
En la figura 2, el número de referencia 201 representa un círculo que tiene un radio r. 202 muestra cómo el círculo 201 está en contacto con una cadena de caracteres en los datos de imagen. 203 representa un punto geométrico generado por un círculo 201 y un círculo 202 que toca la cadena de caracteres. dH es la distancia de movimiento en la dirección de exploración horizontal (eje x) de la coordenada central del círculo, y dV es la distancia de movimiento en la dirección de exploración vertical (eje v). El radio r y las distancias de movimiento dH, dV son parámetros que se pueden establecer arbitrariamente. En la figura 3, el número de referencia 301 denota un círculo similar al círculo 201, y 302 denota un círculo en el caso en el que existen píxeles dentro. 303 representa un punto de emplazamiento similar al punto de trayectoria 203.
Si el círculo 201 se escanea desde la parte superior a la derecha de los datos de imagen y no hay píxeles formando una cadena de caracteres dentro del círculo, se generan los puntos geométricos de ese círculo (203, 303). Si hay píxeles dentro del círculo, solo se escanean los datos de la imagen y no se generan puntos de trayectoria (302). Este proceso de generación / no generación de puntos de trayectoria se realiza en todos los datos de imagen.
La figura 4 muestra los resultados de la generación del punto de trayectoria y el procesamiento sin generación con respecto a una cadena de caracteres en los datos de imagen. 401 representa el punto de trayectoria generado por el proceso de generación de puntos de trayectoria descrito anteriormente. Se puede ver que los puntos de trayectoria se generan en todas las partes de fondo separadas de la cadena de caracteres por el radio r del círculo.
A continuación, se describirá el principio de eliminar puntos de locus no válidos con respecto a la extracción de cadenas de caracteres con ejemplos de las figuras 5 y 6.
En la figura 5, el número de referencia 501 503 representa el punto de trayectoria generado. En la figura 5 (a), prestando atención al punto 502 de trayectoria, el punto 503 de trayectoria existe en las cuatro direcciones de conexión superior, inferior, derecha e izquierda del punto 502 de locus, por lo que solo en este caso, El punto de trayectoria, es decir, el punto de trayectoria 502 se elimina. Repitiendo esta operación para todos los puntos de trayectoria, los puntos de trayectoria no relacionados con la extracción de cadena de caracteres se pueden eliminar. Una parte del resultado se muestra en la FIG.
En la figura 6, el número de referencia 504 indica un punto de trayectoria antes de realizar un proceso de eliminación de punto de trayectoria no válido, y el número de referencia 505 indica un punto de trayectoria eliminado por el proceso de eliminación. El número de referencia 506 denota un punto de trayectoria relacionado con la extracción de cadena de caracteres que no ha sido borrado por el proceso de eliminación. La figura 6 (a) muestra un grupo de puntos de trayectoria generado en la parte de fondo por encima de la cadena de caracteres. Mediante la realización de la trayectoria de procesamiento de eliminación punto, como se muestra en la Fig. 6 (b), el punto de trayectoria punto trayectoria 505 en todas las direcciones vertical y horizontal esté presente se retira, no hay ningún punto incluso una traza en cualquier dirección Solo para el punto de locus 506, permanece sin ser eliminado.
La figura 7 muestra los resultados del procesamiento anterior, es decir, la finalización del procesamiento de generación y eliminación de generación de puntos de trayectoria. 601 representa un punto de trayectoria restante como un punto de trayectoria relacionado con la extracción de cadena de caracteres alrededor de la cadena de caracteres. Por lo tanto, al extraer el interior de estos últimos puntos de trayectoria válidos restantes, se puede extraer una cadena de caracteres. Incluso cuando hay una pluralidad de cadenas de caracteres, dado que cada cadena de caracteres está rodeada por puntos de trayectoria efectivos, es posible extraer una pluralidad de cadenas de caracteres sacando el interior de cada cadena de caracteres.
En la realización anterior, se usa un círculo como un ejemplo de una figura cerrada, pero se pueden usar otras figuras tales como un cuadrado. Sin embargo, debido a que los círculos se pueden representar mediante una ecuación, existe la ventaja de que el procesamiento se simplifica.
parámetros de configuración de respeto en el proceso del círculo de la exploración de los datos de imagen en la realización anterior, para el radio r del círculo es mayor que el espacio entre caracteres en una cadena de tamaño del círculo, y el valor del intervalo más pequeño que entre las diferentes cadenas de caracteres Establecerlo Por lo tanto, es posible evitar que las cadenas de caracteres se dividan en unidades de caracteres, y evitar que los puntos que rodean cadenas de caracteres diferentes se atrapen erróneamente como una cadena de caracteres al conectarse entre sí. Además, es preferible establecer la distancia de desplazamiento dH en la dirección de exploración lateral y la distancia de movimiento dV en la dirección de exploración longitudinal para que sea lo suficientemente más pequeña que el radio r del círculo. Como resultado, es posible hacer que los puntos del locus sean densos, aclarar la posición de entrada y el ángulo de inclinación de la cadena de caracteres, y evitar la conexión a los puntos que rodean a la otra cadena de caracteres adyacente. Al parametrizar como se describió anteriormente, es posible mejorar la precisión de extracción de cadenas de caracteres correspondientes a cadenas de caracteres de varios tamaños.
Efecto de la invención
Como se describe en detalle anteriormente, según el método de extracción de cadena de caracteres de la presente invención, se presta atención a la parte de fondo del documento, se escanea la figura cerrada que tiene el valor del tamaño designado, y la cadena de caracteres se almacena en la figura cerrada El punto de coordenadas central de la figura cerrada se genera solo cuando no incluye los píxeles constituyentes y el punto que no participa en la extracción de cadena de caracteres se elimina, de modo que se genera el punto que rodea la cadena de caracteres y se extrae la cadena de caracteres Por lo tanto, independientemente de los elementos inestables que difieren de un carácter a otro, como la estructura de los trazos de caracteres, para datos de imágenes de documentos en los que se combinan cadenas de caracteres dispuestas en un ángulo de inclinación arbitrario, cadenas de caracteres estables Se puede obtener un efecto notable que se puede realizar un método de entrada de documentos que permita la extracción.
Además, cuando el valor del tamaño de la figura cerrada, el valor de la distancia de movimiento en la dirección de exploración horizontal y el valor de la distancia de movimiento en la dirección de exploración vertical son parámetros arbitrariamente configurables, en particular, en una cadena de caracteres de varios tamaños De forma correspondiente, se puede evitar la concatenación de diferentes cadenas de caracteres y unidades de división de caracteres, y se puede mejorar la precisión de extracción de la cadena de caracteres.
Además, cuando la figura cerrada a escanear con respecto a los datos de imagen se forma en un círculo, existe la ventaja de que el procesamiento se vuelve particularmente simple.
Breve descripción de los dibujos La figura 1 es un diagrama explicativo de una configuración de bloque de procesamiento de acuerdo con una realización de la presente invención.
La figura 2 es un diagrama explicativo de la generación de puntos de trayectoria entre los principios del método de extracción de cadenas de caracteres de la realización descrita anteriormente.
La figura 3 es un diagrama explicativo de la no generación de puntos de trayectoria entre los principios del método de extracción de cadenas de caracteres de la realización.
La figura 4 es un diagrama que muestra una situación en la que el fondo está lleno de puntos geométricos en la realización.
La figura 5 es una vista que muestra un principio de eliminación de puntos de emplazamiento no válidos y un ejemplo del mismo en la realización anterior.
La figura 6 es una vista que muestra el principio de eliminar puntos de emplazamiento no válidos y ejemplos de los mismos en la realización anterior.
La figura 7 es un diagrama que muestra un estado en el que se extrae una región de cadena de caracteres generando y eliminando puntos de trayectoria en la realización anterior.
101 ... bloque de procesamiento para establecer condiciones relacionadas con el escaneo de datos de imagen de entrada
102 ... Bloque de procesamiento para realizar el procesamiento de determinación sobre si existen o no píxeles dentro de un círculo
103 ... Bloque de procesamiento para realizar el procesamiento de generación de puntos de trayectoria por círculo
104 ... bloque de procesamiento para realizar el procesamiento para eliminar puntos de locus no válidos para la extracción de cadena de caracteres
201 ... círculo con radio r para escanear los datos de la imagen
202 ... círculo en contacto con la cadena de caracteres en los datos de imagen escaneando
203 ... punto de trayectoria que indica las coordenadas centrales de un círculo generado al explorar un círculo
301 ... círculo con radio r para escanear los datos de la imagen
302 ... punto de trayectoria donde los píxeles están presentes dentro
303 ... punto de trayectoria que indica las coordenadas del centro del círculo generado por el barrido de círculo
401 ... grupo de puntos de trayectoria generados
501 ... punto de trayectoria generado en la parte de fondo
502 ... de puntos de trayectoria generados en la parte de fondo, puntos de trayectoria de interés para realizar el proceso de eliminación
503 ... los puntos existentes en las cuatro direcciones de conexión de los puntos de interés de trayectoria, que se centran en el procesamiento de eliminación, entre los puntos de trayectoria generados en la parte de fondo
504: punto de trayectoria generado en la parte de fondo
505 ... De los puntos de trayectoria generados en la parte de fondo, el punto que es el objetivo del procesamiento de eliminación de punto de trayectoria no válido y se elimina
506: Puntos que participan en la extracción de cadenas de caracteres restantes en el procesamiento de eliminación de puntos de trayectoria no válida entre los puntos de trayectoria generados en la parte de fondo
601 ... Puntos implicados en la extracción de cadenas de caracteres que permanecen sin estar sujetos a un proceso de eliminación de puntos de trayectoria no válido entre los puntos de trayectoria generados en la parte de fondo
Reclamo
1. Un método de entrada de un documento como datos de imagen que es un grupo de píxeles mediante conversión fotoeléctrica, escaneando una figura cerrada con respecto a los datos de imagen que incluyen dichos datos de imagen de carácter introducidos, convirtiendo dicho carácter Un punto que rodea la cadena de caracteres al eliminar un punto de coordenadas no involucrado en la extracción de cadenas de caracteres entre los puntos de coordenadas generados se establece como un punto que rodea la cadena de caracteres Y un paso de extraer una cadena de caracteres basada en un punto que rodea la cadena de caracteres generada.
2. Procedimiento según la reivindicación 1, caracterizado porque en el proceso de exploración de la figura cerrada, el valor del tamaño de la figura cerrada, el valor de la distancia de movimiento en la dirección de exploración horizontal y el valor de la distancia de movimiento en la dirección de exploración vertical 2. El método de extracción de cadena de caracteres de acuerdo con la reivindicación 1,
3. El método de extracción de cadena de caracteres de acuerdo con la reivindicación 1 o 2, en el que la figura cerrada es un círculo.
Dibujo :
Application number :1997-006908
Inventors :日本電信電話株式会社
Original Assignee :松村季樹、中村修、小林公知