fbpx
Wikipedia

Tesseract OCR

Tesseract es un motor de reconocimiento óptico de caracteres para varios sistemas operativos.[1]​ Es software libre, liberado bajo la licencia Apache, Versión 2.0[2]​ y su desarrollo es financiado por Google desde el 2006.[3]

Tesseract
Información general
Tipo de programa biblioteca de software
Información técnica
Programado en C++
Versiones
Última versión estable 5.3.418 de enero de 2024
Última versión en pruebas Ninguna ()
Archivos legibles
Archivos editables
Enlaces
Sitio web oficial
Repositorio de código

Tesseract fue considerado en 2006 como uno de los motores de OCR de código abierto más precisos disponibles.[4]

Historia editar

Tesseract se desarrolló originalmente como programa de licencia privativa en los laboratorios de Hewlett-Packard en Brístol (Inglaterra) y Greeley (Colorado) entre 1985 y 1994. En 1996 se realizaron las modificaciones necesarias para portarlo a Windows y, más tarde, en 1998, se migró el sistema de C a C++. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett-Packard y la Universidad de Nevada, Las Vegas.

Características editar

En 1995, Tesseract era uno de los tres mejores motores OCR en cuanto a precisión, además está disponible para Linux, Windows y Mac OS X, sin embargo, sólo ha sido probado por los desarrolladores en Windows y Ubuntu. Hasta la versión 2, Tesseract sólo podía aceptar como entrada imágenes de una sola columna en formato TIFF. En estas primeras versiones no se incluía análisis de patrones, y por tanto, las imágenes con múltiples columnas o anotaciones producían resultados ilegibles. Desde la versión 3, Tesseract soporta el formato en el texto y el análisis del patrón de la página. A través de la biblioteca Leptonica, se consigue la compatibilidad con nuevos formatos de imagen, además, se puede detectar si el texto proporcional o monoespaciado. Tesseract puede procesar inglés, francés, italiano, alemán, español, portugués brasileño y neerlandés, y puede ser entrenado para funcionar con otros idiomas.

Versión 4 editar

La versión 4 añade el motor de OCR basado en LSTM y modelos para muchos lenguajes y scripts adicionales, llevando el total a 116 idiomas.[5]​ Además, se admiten scripts para 37 idiomas, por lo que es posible reconocer un idioma utilizando el script en el que está escrito.

Intefaces de usuario editar

Tesseract se ejecuta desde una interfaz de línea de comandos.[6]​ Aunque Tesseract no se distribuye con una interfaz gráfica, hay varios proyectos independientes que le proporcionan una.[7]​ Ejemplos conocidos son VietOCR[8]​ y OCRFeeder.[9]

Referencias editar

  1. «Tesseract: an Open-Source Optical Character Recognition Engine | Linux Journal». www.linuxjournal.com. Consultado el 8 de diciembre de 2019. 
  2. Tesseract OCR, tesseract-ocr, 7 de diciembre de 2019, consultado el 8 de diciembre de 2019 .
  3. «Announcing Tesseract OCR». The official Google Code blog. 30 de agosto de 2006. Consultado el 8 de diciembre de 2019. 
  4. «OCR - Community Help Wiki». help.ubuntu.com. Consultado el 8 de diciembre de 2019. 
  5. TESSERACT(1) Manual Page, 25 de noviembre de 2019, consultado el 25 de noviembre de 2019 .
  6. «Tesseract OCR». GitHub (en inglés). Consultado el 25 de noviembre de 2019. 
  7. User Projects – 3rdParty, tesseract-ocr, 25 de noviembre de 2019, consultado el 25 de noviembre de 2019 .
  8. «VietOCR». SourceForge (en inglés). Consultado el 25 de noviembre de 2019. 
  9. «OCRFeeder». wiki.gnome.org. Consultado el 25 de noviembre de 2019. 

Enlaces externos editar

  • Tesseract OCR Página del proyecto
  •   Datos: Q945242
  •   Multimedia: Tesseract (software) / Q945242

tesseract, sugerido, esta, página, renombrada, como, tesseract, software, motivo, argumentos, están, expuestos, página, discusión, tesseract, motor, reconocimiento, óptico, caracteres, para, varios, sistemas, operativos, software, libre, liberado, bajo, licenc. Se ha sugerido que esta pagina sea renombrada como Tesseract software Motivo los argumentos estan expuestos en la pagina de discusion Tesseract es un motor de reconocimiento optico de caracteres para varios sistemas operativos 1 Es software libre liberado bajo la licencia Apache Version 2 0 2 y su desarrollo es financiado por Google desde el 2006 3 TesseractInformacion generalTipo de programabiblioteca de softwareInformacion tecnicaProgramado enC VersionesUltima version estable5 3 418 de enero de 2024Ultima version en pruebasNinguna Archivos legiblesTIFFPortable Network GraphicsJFIFJP2WebPArchivos editableshOCRdocumento de textoPDFALTOtab separated valuesEnlacesSitio web oficial Repositorio de codigo editar datos en Wikidata Tesseract fue considerado en 2006 como uno de los motores de OCR de codigo abierto mas precisos disponibles 4 Indice 1 Historia 2 Caracteristicas 3 Version 4 4 Intefaces de usuario 5 Referencias 6 Enlaces externosHistoria editarTesseract se desarrollo originalmente como programa de licencia privativa en los laboratorios de Hewlett Packard en Bristol Inglaterra y Greeley Colorado entre 1985 y 1994 En 1996 se realizaron las modificaciones necesarias para portarlo a Windows y mas tarde en 1998 se migro el sistema de C a C Tras diez anos sin ningun desarrollo fue liberado como codigo abierto en el ano 2005 por Hewlett Packard y la Universidad de Nevada Las Vegas Caracteristicas editarEn 1995 Tesseract era uno de los tres mejores motores OCR en cuanto a precision ademas esta disponible para Linux Windows y Mac OS X sin embargo solo ha sido probado por los desarrolladores en Windows y Ubuntu Hasta la version 2 Tesseract solo podia aceptar como entrada imagenes de una sola columna en formato TIFF En estas primeras versiones no se incluia analisis de patrones y por tanto las imagenes con multiples columnas o anotaciones producian resultados ilegibles Desde la version 3 Tesseract soporta el formato en el texto y el analisis del patron de la pagina A traves de la biblioteca Leptonica se consigue la compatibilidad con nuevos formatos de imagen ademas se puede detectar si el texto proporcional o monoespaciado Tesseract puede procesar ingles frances italiano aleman espanol portugues brasileno y neerlandes y puede ser entrenado para funcionar con otros idiomas Version 4 editarLa version 4 anade el motor de OCR basado en LSTM y modelos para muchos lenguajes y scripts adicionales llevando el total a 116 idiomas 5 Ademas se admiten scripts para 37 idiomas por lo que es posible reconocer un idioma utilizando el script en el que esta escrito Intefaces de usuario editarTesseract se ejecuta desde una interfaz de linea de comandos 6 Aunque Tesseract no se distribuye con una interfaz grafica hay varios proyectos independientes que le proporcionan una 7 Ejemplos conocidos son VietOCR 8 y OCRFeeder 9 Referencias editar Tesseract an Open Source Optical Character Recognition Engine Linux Journal www linuxjournal com Consultado el 8 de diciembre de 2019 Tesseract OCR tesseract ocr 7 de diciembre de 2019 consultado el 8 de diciembre de 2019 Announcing Tesseract OCR The official Google Code blog 30 de agosto de 2006 Consultado el 8 de diciembre de 2019 OCR Community Help Wiki help ubuntu com Consultado el 8 de diciembre de 2019 TESSERACT 1 Manual Page 25 de noviembre de 2019 consultado el 25 de noviembre de 2019 Tesseract OCR GitHub en ingles Consultado el 25 de noviembre de 2019 User Projects 3rdParty tesseract ocr 25 de noviembre de 2019 consultado el 25 de noviembre de 2019 VietOCR SourceForge en ingles Consultado el 25 de noviembre de 2019 OCRFeeder wiki gnome org Consultado el 25 de noviembre de 2019 Enlaces externos editarTesseract OCR Pagina del proyecto nbsp Datos Q945242 nbsp Multimedia Tesseract software Q945242 Obtenido de https es wikipedia org w index php title Tesseract OCR amp oldid 152233103, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos