fbpx
Wikipedia

Reconocimiento óptico de caracteres

El reconocimiento óptico de caracteres (ROC), generalmente conocido como reconocimiento de caracteres y expresado con frecuencia con la sigla OCR (del inglés Optical Character Recognition), es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. Así podremos interactuar con estos mediante un programa de edición de texto o similar.

En los últimos años la digitalización de la información (textos, imágenes, sonido, etcétera) ha devenido un punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introducción de caracteres evitando la entrada por teclado implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.

Problemas con el ROC

El proceso básico que se lleva a cabo en el ROC es convertir el texto que aparece en una imagen en un archivo de texto que podrá ser editado y utilizado como tal por cualquier otro programa o aplicación que lo necesite.

Partiendo de una imagen perfecta, es decir, una imagen con sólo dos niveles de gris, el reconocimiento de estos caracteres se realizará básicamente comparándolos con unos patrones o plantillas que contienen todos los posibles caracteres. Ahora bien, las imágenes reales no son perfectas, por lo tanto el ROC se encuentra con varios problemas:

  • El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original.
  • La resolución de estos dispositivos puede introducir ruido en la imagen, afectando los píxeles que han de ser procesados.
  • La distancia que separa a unos caracteres de otros, al no ser siempre la misma, puede producir errores de reconocimiento.
  • La conexión de dos o más caracteres por píxeles comunes también puede producir errores.

Esquema básico de un algoritmo de ROC

Todos los algoritmos de ROC tienen la finalidad de poder diferenciar un texto de una imagen cualquiera. Para hacerlo se basan en cuatro etapas:

  1. Binarización o caracterización.
  2. Fragmentación o segmentación de la imagen.
  3. Adelgazamiento de los componentes.
  4. Comparación con patrones.

Binarización

La mayor parte de algoritmos de ROC parten como base de una imagen binaria (dos colores). Por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen, donde se muestra el número de píxeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los píxeles que no lo superen se convertirán en negro y el resto en blanco.

Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y símbolos que contiene la imagen. A partir de aquí podemos aislar las partes de la imagen que contienen texto (más transiciones entre blanco y negro).

Fragmentación o segmentación de la imagen

Este es el proceso más costoso y necesario para el posterior reconocimiento de caracteres. La segmentación de una imagen implica la detección mediante procedimientos de “etiquetado determinista” o estocástico de los contornos o regiones de la imagen, basándose en la información de intensidad o información espacial.

Permite la descomposición de un texto en diferentes entidades lógicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento.

No existe un método genérico para llevar a cabo esta segmentación de la imagen que sea lo suficientemente eficaz para el análisis de un texto. Aunque las técnicas más utilizadas son variaciones de los métodos basados en proyecciones lineales.

Una de las técnicas más clásicas y simples para imágenes de niveles de grises consiste en la determinación de los modos o agrupamientos (clústeres) a partir del histograma, de tal forma que permitan una clasificación o umbralización de los píxeles en regiones homogéneas.

Adelgazamiento de los componentes

Una vez aislados los componentes conexos de la imagen, se les tendrá que aplicar un proceso de adelgazamiento para cada uno de ellos. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipología.

La eliminación de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen continúe teniendo las mismas proporciones que la original y así conseguir que no quede deforme.

Se tiene que hacer un barrido en paralelo, es decir, señalar los píxeles borrables para eliminarlos todos a la vez. Este proceso se lleva a cabo para hacer posible la clasificación y reconocimiento, simplificando la forma de los componentes.

Comparación con patrones

En esta etapa, se comparan los caracteres obtenidos anteriormente con unos teóricos (patrones) almacenados en una base de datos. El buen funcionamiento del ROC se basa en gran medida en una buena definición de esta etapa.

Existen diferentes métodos para llevar a cabo la comparación. Uno de ellos es el método de proyección, en el cual se obtienen proyecciones verticales y horizontales del carácter por reconocer, y se comparan con el alfabeto de caracteres posibles hasta encontrar la máxima coincidencia.

Existen otros métodos, como por ejemplo:

  • métodos geométricos o estadísticos
  • métodos estructurales
  • métodos neuromiméticos
  • métodos markovianos (modelo oculto de Márkov)
  • métodos de Zadeh

Aplicaciones

Desde la aparición de los algoritmos de ROC, han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologías. A continuación se muestran algunas de las más destacables aplicaciones que utilizan el ROC.

Reconocimiento de texto manuscrito

Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito. No todos escribimos de manera uniforme, y no todos escribimos de la misma forma. El reconocimiento de este tipos de textos continúa siendo un desafío. Para abordar este tipo de problemas se han desarrollado técnicas y aplicaciones específicas a las que se les llama Reconocimiento inteligente de caracteres o ICR (del inglés Intelligent Character Recognition).

Aunque el texto se compone básicamente de caracteres individuales, la mayoría de algoritmos ROC no consiguen buenos resultados, ya que la segmentación de texto continuo es un procedimiento complejo.

En el caso de reconocimiento de escritura manuscrita a la hora de corrección de exámenes, existe la posibilidad, añadiendo un listado de léxico (nombres y apellidos) de acercarse al 100% de acierto. A través de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de países, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras (léxico), el cual puede ir aumentándose según las necesidades.

En el mundo real, a veces se puede llegar a comprender una frase cuando la hemos terminado de leer. Automatizar este proceso implica una operación de niveles morfológico, léxico y sintáctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodología, se utilizan algoritmos robustos que usan una segmentación previa, debido a que se obtiene automáticamente con la descodificación.

Para facilitar el reconocimiento a veces la tecnología ICR requiere que en el documento se tengan recuadros dentro de los cuales se introducen los caracteres manuscritos, siendo obligatorio un carácter por recuadro. Habitualmente se utiliza para formularios que debemos rellenar a mano y tenemos que poner en letras mayúsculas.[1]

Reconocimiento de matrículas

Una de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrícula de un vehículo con condiciones de iluminación, perspectiva y entorno variables.

En la etapa de segmentación, se buscan texturas similares a la de una matrícula y se aísla el área rectangular que forma la matrícula.

Finalmente, se aplica un proceso de clasificación múltiple sobre el conjunto de píxeles pertenecientes a la matrícula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrícula. Si aparece algún error, es corregido.

Indexación con bases de datos

Con el gran aumento de información publicada que ha tenido lugar en los últimos años, cada vez son más los métodos que se emplean para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imágenes. Una de las formas más corrientes de buscar imágenes es a partir de metadatos introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imágenes mediante el texto que aparecen en ellas, como el buscador DIRS (Document Image Retrieval System) que, mediante un algoritmo de ROC, extrae el texto que aparece en la imagen y lo utiliza como metadato que podrá servir para las búsquedas. Esta tecnología proporciona una posibilidad en la búsqueda de imágenes y demuestra que el ROC aún puede dar mucho de sí.

Reconocimiento de datos estructurados con ROC Zonal

Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nóminas, albaranes, pólizas, justificantes bancarios, etcétera), catalogando automáticamente los documentos con los metadatos obtenidos y archivándolos en formato digital de forma indexada para facilitar su posterior búsqueda. Tiene el inconveniente de que es necesario diseñar previamente las plantillas, pero con una buena configuración se ahorra mucho tiempo en el proceso de digitalización.

Véase también

Referencias

  1. OCR, ICR y OMR. ¿Qué son y para qué sirven?
  •   Datos: Q167555
  •   Multimedia: Optical character recognition

reconocimiento, óptico, caracteres, reconocimiento, óptico, caracteres, generalmente, conocido, como, reconocimiento, caracteres, expresado, frecuencia, sigla, inglés, optical, character, recognition, proceso, dirigido, digitalización, textos, cuales, identifi. El reconocimiento optico de caracteres ROC generalmente conocido como reconocimiento de caracteres y expresado con frecuencia con la sigla OCR del ingles Optical Character Recognition es un proceso dirigido a la digitalizacion de textos los cuales identifican automaticamente a partir de una imagen simbolos o caracteres que pertenecen a un determinado alfabeto para luego almacenarlos en forma de datos Asi podremos interactuar con estos mediante un programa de edicion de texto o similar En los ultimos anos la digitalizacion de la informacion textos imagenes sonido etcetera ha devenido un punto de interes para la sociedad En el caso concreto de los textos existen y se generan continuamente grandes cantidades de informacion escrita tipografica o manuscrita en todo tipo de soportes En este contexto poder automatizar la introduccion de caracteres evitando la entrada por teclado implica un importante ahorro de recursos humanos y un aumento de la productividad al mismo tiempo que se mantiene o hasta se mejora la calidad de muchos servicios Indice 1 Problemas con el ROC 2 Esquema basico de un algoritmo de ROC 2 1 Binarizacion 2 2 Fragmentacion o segmentacion de la imagen 2 3 Adelgazamiento de los componentes 2 4 Comparacion con patrones 3 Aplicaciones 3 1 Reconocimiento de texto manuscrito 3 2 Reconocimiento de matriculas 3 3 Indexacion con bases de datos 3 4 Reconocimiento de datos estructurados con ROC Zonal 4 Vease tambien 5 ReferenciasProblemas con el ROC EditarEl proceso basico que se lleva a cabo en el ROC es convertir el texto que aparece en una imagen en un archivo de texto que podra ser editado y utilizado como tal por cualquier otro programa o aplicacion que lo necesite Partiendo de una imagen perfecta es decir una imagen con solo dos niveles de gris el reconocimiento de estos caracteres se realizara basicamente comparandolos con unos patrones o plantillas que contienen todos los posibles caracteres Ahora bien las imagenes reales no son perfectas por lo tanto el ROC se encuentra con varios problemas El dispositivo que obtiene la imagen puede introducir niveles de grises al fondo que no pertenecen a la imagen original La resolucion de estos dispositivos puede introducir ruido en la imagen afectando los pixeles que han de ser procesados La distancia que separa a unos caracteres de otros al no ser siempre la misma puede producir errores de reconocimiento La conexion de dos o mas caracteres por pixeles comunes tambien puede producir errores Esquema basico de un algoritmo de ROC EditarTodos los algoritmos de ROC tienen la finalidad de poder diferenciar un texto de una imagen cualquiera Para hacerlo se basan en cuatro etapas Binarizacion o caracterizacion Fragmentacion o segmentacion de la imagen Adelgazamiento de los componentes Comparacion con patrones Binarizacion Editar La mayor parte de algoritmos de ROC parten como base de una imagen binaria dos colores Por lo tanto es conveniente convertir una imagen de escala de grises o una de color en una imagen en blanco y negro de tal forma que se preserven las propiedades esenciales de la imagen Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el numero de pixeles para cada nivel de grises que aparece a la imagen Para binarizarla tenemos que escoger un umbral adecuado a partir del cual todos los pixeles que no lo superen se convertiran en negro y el resto en blanco Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y simbolos que contiene la imagen A partir de aqui podemos aislar las partes de la imagen que contienen texto mas transiciones entre blanco y negro Fragmentacion o segmentacion de la imagen Editar Este es el proceso mas costoso y necesario para el posterior reconocimiento de caracteres La segmentacion de una imagen implica la deteccion mediante procedimientos de etiquetado determinista o estocastico de los contornos o regiones de la imagen basandose en la informacion de intensidad o informacion espacial Permite la descomposicion de un texto en diferentes entidades logicas que han de ser suficientemente invariables para ser independientes del escritor y suficientemente significativas para su reconocimiento No existe un metodo generico para llevar a cabo esta segmentacion de la imagen que sea lo suficientemente eficaz para el analisis de un texto Aunque las tecnicas mas utilizadas son variaciones de los metodos basados en proyecciones lineales Una de las tecnicas mas clasicas y simples para imagenes de niveles de grises consiste en la determinacion de los modos o agrupamientos clusteres a partir del histograma de tal forma que permitan una clasificacion o umbralizacion de los pixeles en regiones homogeneas Adelgazamiento de los componentes Editar Una vez aislados los componentes conexos de la imagen se les tendra que aplicar un proceso de adelgazamiento para cada uno de ellos Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipologia La eliminacion de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen continue teniendo las mismas proporciones que la original y asi conseguir que no quede deforme Se tiene que hacer un barrido en paralelo es decir senalar los pixeles borrables para eliminarlos todos a la vez Este proceso se lleva a cabo para hacer posible la clasificacion y reconocimiento simplificando la forma de los componentes Comparacion con patrones Editar En esta etapa se comparan los caracteres obtenidos anteriormente con unos teoricos patrones almacenados en una base de datos El buen funcionamiento del ROC se basa en gran medida en una buena definicion de esta etapa Existen diferentes metodos para llevar a cabo la comparacion Uno de ellos es el metodo de proyeccion en el cual se obtienen proyecciones verticales y horizontales del caracter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la maxima coincidencia Existen otros metodos como por ejemplo metodos geometricos o estadisticos metodos estructurales metodos neuromimeticos metodos markovianos modelo oculto de Markov metodos de ZadehAplicaciones EditarDesde la aparicion de los algoritmos de ROC han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologias A continuacion se muestran algunas de las mas destacables aplicaciones que utilizan el ROC Reconocimiento de texto manuscrito Editar Las dificultades que podemos encontrar a la hora de reconocer un texto tipografiado no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito No todos escribimos de manera uniforme y no todos escribimos de la misma forma El reconocimiento de este tipos de textos continua siendo un desafio Para abordar este tipo de problemas se han desarrollado tecnicas y aplicaciones especificas a las que se les llama Reconocimiento inteligente de caracteres o ICR del ingles Intelligent Character Recognition Aunque el texto se compone basicamente de caracteres individuales la mayoria de algoritmos ROC no consiguen buenos resultados ya que la segmentacion de texto continuo es un procedimiento complejo En el caso de reconocimiento de escritura manuscrita a la hora de correccion de examenes existe la posibilidad anadiendo un listado de lexico nombres y apellidos de acercarse al 100 de acierto A traves de las casillas de respuesta ICR se pueden reconocer palabras como nombres de paises nombres de regiones marcas comerciales en resumen todo aquello que pueda ser integrado en una lista de palabras lexico el cual puede ir aumentandose segun las necesidades En el mundo real a veces se puede llegar a comprender una frase cuando la hemos terminado de leer Automatizar este proceso implica una operacion de niveles morfologico lexico y sintactico que se consigue mediante el reconocimiento del habla continua Para llevar a cabo esa metodologia se utilizan algoritmos robustos que usan una segmentacion previa debido a que se obtiene automaticamente con la descodificacion Para facilitar el reconocimiento a veces la tecnologia ICR requiere que en el documento se tengan recuadros dentro de los cuales se introducen los caracteres manuscritos siendo obligatorio un caracter por recuadro Habitualmente se utiliza para formularios que debemos rellenar a mano y tenemos que poner en letras mayusculas 1 Reconocimiento de matriculas Editar Una de las aplicaciones son los radares Estos deben ser capaces de localizar una matricula de un vehiculo con condiciones de iluminacion perspectiva y entorno variables En la etapa de segmentacion se buscan texturas similares a la de una matricula y se aisla el area rectangular que forma la matricula Finalmente se aplica un proceso de clasificacion multiple sobre el conjunto de pixeles pertenecientes a la matricula proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido el formato de una matricula Si aparece algun error es corregido Indexacion con bases de datos Editar Con el gran aumento de informacion publicada que ha tenido lugar en los ultimos anos cada vez son mas los metodos que se emplean para organizar todo este material almacenado en bases de datos Uno de estos contenidos son las imagenes Una de las formas mas corrientes de buscar imagenes es a partir de metadatos introducidos manualmente por los usuarios Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imagenes mediante el texto que aparecen en ellas como el buscador DIRS Document Image Retrieval System que mediante un algoritmo de ROC extrae el texto que aparece en la imagen y lo utiliza como metadato que podra servir para las busquedas Esta tecnologia proporciona una posibilidad en la busqueda de imagenes y demuestra que el ROC aun puede dar mucho de si Reconocimiento de datos estructurados con ROC Zonal Editar Se usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados facturas nominas albaranes polizas justificantes bancarios etcetera catalogando automaticamente los documentos con los metadatos obtenidos y archivandolos en formato digital de forma indexada para facilitar su posterior busqueda Tiene el inconveniente de que es necesario disenar previamente las plantillas pero con una buena configuracion se ahorra mucho tiempo en el proceso de digitalizacion Vease tambien EditarReconocimiento optico de marcas Sistema de reconocimiento facial Biometria Efecto IA Tesseract OCRReferencias Editar OCR ICR y OMR Que son y para que sirven Datos Q167555 Multimedia Optical character recognitionObtenido de https es wikipedia org w index php title Reconocimiento optico de caracteres amp oldid 135866945, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos