fbpx
Wikipedia

Text Encoding Initiative

La Text Encoding Initiative (TEI) es un consorcio que desarrolla y mantiene un estándar para la representación de los textos en forma digital. Se trata de un proyecto de investigación en humanidades digitales que goza de una amplia difusión y utilización en bibliotecas y colecciones de texto digitales y en la creación de corpora lingüísticos[cita requerida]. Se basa en el lenguaje XML, una versión simplificada del SGML.

Logo oficial

Las TEI Guidelines

Las TEI Guidelines en su conjunto lo que hacen es definir una gramática XML. Difiere de otros formatos textuales, como HTML y OpenDocument, en que se trata un marcado o etiquetado semántico y no presentacional, es decir, se preocupa por lo que es el texto y establece el significado de cada elemento y atributo. Las pautas describen más de 500 elementos textuales agrupados en veinte módulos, a veces altamente especializados, como el módulo para diccionarios, teatro, corpus lingüísticos, transcripción de fuentes primarias, mientras que otros son generales y básicos para cualquier documento TEI.[1]

Ejemplos

<?xml version="1.0" encoding="UTF-8"?> <TEI xmlns="http://www.tei-c.org/ns/1.0"> <teiHeader>   <!–- obligatorio --> </teiHeader> <text> <front>  <!–- opcional --> </front> <body>  <!–- obligatorio --> </body> <back>  <!–- opcional --> </back> </text> </TEI> 

Ejemplo práctico

<?xml version="1.0" encoding="UTF-8"?> <teiHeader> <fileDesc>  <titleStmt>  <title>NACIMIENTO DE CRISTO</title>  <author>Federico García Lorca</author> </titleStmt> <publicationStmt>  <p>Ejemplo para Wikipedia</p> </publicationStmt> <sourceDesc>  <p>Transcrito desde una vieja edición</p> </sourceDesc> </fileDesc> </teiHeader> <text> <body> <head>NACIMIENTO DE CRISTO</head> <lg>  <l>Un pastor pide teta por la nieve que ondula</l>  <l>blancos perros tendidos entre linternas sordas</l>  <l>El Cristito de barro se ha partido los dedos</l>  <l>En los filos eternos de la madera rota.</l> </lg> <lg>  <l>¡Ya vienen las hormigas y los pies ateridos!</l>  <l>Dos hilillos de sangre quiebran el cielo.</l>  <l>Los vientres del demonio resuenan por los valles</l>  <l>golpes y resonancias de carne de moluscos.</l>  </lg> <lg>  <l>Lobos y sapos cantan en las hogueras verdes</l>  <l>coronadas por vivos hormigueros del alba</l>  <l>La mula tienen un sueño de grandes abanicos</l>  <l>y un toro sueña un toro de agujeros y agua.</l>  </lg> <lg>  <l>El niño llora con un tres en la frente.</l>  <l>San José ve en el heno tres espinas de bronce</l>  <l>los pañales exalan un rumor de desierto</l>  <l>con cítaras sin cuerdas y degolladas voces</l> </lg> <lg>  <l>La nieve de Manhattan empuja los anuncios</l>  <l>y lleva gracia pura por las falsas ojivas.</l>  <l>Sacerdotes idiotas y querubes de pluma</l>  <l>van detrás de Lutero por las altas esquinas.</l> </lg> </body> </text> </TEI> 

Historia

Antecedentes

Antes de la creación del TEI, los humanistas no tenían estándares comunes para codificar textos electrónicos. A lo largo de los años los académicos desarrollaron métodos variados con el objetivo de representar caracteres especiales y codificar divisiones lógicas de un texto, así como representar información analítica e interpretativa y reducir el aparato de texto crítico a una secuencia lineal única.[2]

Debido a la falta de un formato estándar y unificado, entre 1960 y 1980 se empezaron a desarrollar esquemas de codificación desde cero y a partir de adaptaciones de los ya existentes. Los esquemas ya existentes reflejaban principalmente los intereses de sus desarrolladores y estaban adaptados a los programas que utilizaban. En su mayoría eran incompatibles con las investigaciones de otros humanistas, debido a que tenían que modificarlos sustancialmente para poder usarlos, siempre y cuando se pudiesen reutilizar.[2]

Cuando la comunidad de humanidades informáticas (en inglés, Computing humanities) reconoció esta problemática, se reunieron e intentaron en varias ocasiones (San Diego, 1977; Pisa, 1980) desarrollar estándares de codificación para los textos legibles por ordenadores. Sin embargo, no se llegó a ningún consenso y se interrumpieron.[2]

Origen

La Text Encoding Initiative nació en un congreso organizado por la Association for Computers and the Humanities (ACH) en el Vassar College en 1987, y fue financiado por la U.S. National Endowment for the Humanities (en español, Fundación Nacional de los Estados Unidos para las Humanidades). Al congreso asistieron alrededor de 30 representantes de diferentes archivos, centros de humanidades informáticas, proyectos de investigación y organizaciones profesionales para reconsiderar la viabilidad de la estandarización y realizar recomendaciones en relación a su ámbito de aplicación, estructura, contenido y redacción, conocidos actualmente como los «principios de Poughkeepsie» (en inglés, Poughkeepsie Principles).[n 1][2][3]

El congreso fue un éxito, ya que, por una parte, se supo más sobre los problemas de la codificación y se aclararon los principios que debían seguirse para resolver esta problemática. Por otra parte, el grupo de Vassar logró reunir y componerse de una mayor representación de organizaciones clave y centros de investigación activos que en anteriores reuniones. Además, el reciente desarrollo del Standard Generalized Markup Language aportó una herramienta para desarrollar un esquema de codificación sencillo, flexible y extensible que cumpliese con las diferentes necesidades de la investigación textual. El consenso que se alcanzó en el congreso fue que esta necesidad estaba creciendo y había que resolverla urgentemente.[4]

Desarrollo de las pautas de codificación

Tras el congreso, la Association for Computational Linguistics (ACL) y la Association for Literary and Linguistic Computing (ALLC) acordaron unirse a la ACH como patrocinadores para elaborar las pautas del estándar.[5]​ Estas tres organizaciones se comprometieron a guiar el esfuerzo y la búsqueda de financiación para apoyar la TEI como un proyecto a nivel internacional y multilingüe. Sin embargo, pronto se reconoció que este proyecto no solo era del interés de las humanidades, sino que también se podía aplicar a diversas aplicaciones de la industria del lenguaje.[4]

En 1994, la TEI publicó su primera versión completa de las Guidelines for the Encoding and Interchange of Machine-Readable Texts (en español, Pautas para la codificación e intercambio de textos legibles por ordenadores), coeditada por Michael Sperberg-McQueen y Lou Bernard.[6][7][4][n 2]

Durante sus primeras versiones, hasta la P3, la TEI se desarrolló sobre la base del SGML. En la versión P4, publicada en 2002, apareció la primera especificación en XML.[9]​ En 2007 se publicó la versión P5[10]​ La última versión de la P5 es la 3.3.0 y fue publicada el 31 de enero de 2018 bajo el nombre en clave Johnny Rotten.[11]

Notas

  1. Poughkeepsie (condado de Dutchess, Nueva York) es la ciudad en la que se encuentra el Vassar College, donde se celebró el primer congreso.
  2. Estas pautas consiguieron establecer el estándar SGML como el entorno de trabajo adecuado para su desarrollo; especificar las restricciones y recomendaciones al usar SGML; analizar e identificar categorías y características de la codificación de datos textuales; especificar un conjunto de definiciones generales efectivas, flexibles y extensibles para la estructura del texto; crear una especificación metodológica para la documentación en los archivos de los textos electrónicos, compatible con las convenciones de bibliotecas, con la función de servir como historial de los textos para poder validar su procedencia y las modificaciones que se hayan realizado; especificar convenciones para tipos de textos especiales o características textuales.[8]

Referencias

  1. «Appendix C Elements». tei-c.org. 2018. Consultado el 8 de febrero de 2018. 
  2. Ide y Sperberg-McQueen, 1995, p. 5.
  3. «The Preparation of Text Encoding Guidelines». tei-c.org. 13 de noviembre de 1987. Consultado el 2 de enero de 2018. 
  4. Ide y Sperberg-McQueen, 1995, p. 6.
  5. «iv. About These Guidelines - The TEI Guidelines». www.tei-c.org (en inglés). Consultado el 31 de diciembre de 2017. 
  6. . tei-c.org (en inglés). 14 de diciembre de 1988. Archivado desde el original el 4 de enero de 2018. Consultado el 2 de enero de 2018. 
  7. Sperberg-McQueen y Burnard, 1994.
  8. Ide y Sperberg-McQueen, 1995.
  9. «TEI: P4 Guidelines». tei-c.org. Consultado el 8 de febrero de 2018. 
  10. «TEI: P5 Guidelines». tei-c.org. Consultado el 8 de febrero de 2018. 
  11. «TEI P5 version 3.3.0 release notes». tei-c.org. Consultado el 8 de febrero de 2018. 

Bibliografía

  • Ide, Nancy M.; Sperberg-McQueen, C. M. (1995). «The Text Encoding Initiative: Its History, Goals, and Future Development». En Nancy M. Ide, Jean Véronis (eds.), ed. Text encoding initiative : background and contexts. Dordrecht: Kluwer Academic Publishers. pp. 5-15. ISBN 978-94-011-0325-1. 
  • Sperberg-McQueen, C. M.; Burnard, Lou, eds. (1994). Guidelines for Electronic Text Encoding and Interchange. Chicago: Text Encoding Initiative. Consultado el 8 de febrero de 2018. 
  • Burnard, L. 2014. What is the Text Encoding Initiative? How to add intelligent markup to digital resources. Marseille: OpenEdition Press. Extraído de http://books.openedition.org/oep/426 ISBN 9782821834606.
  • Fradejas Rueda, J. M. 2009-2010. "La codificación XML/TEI de textos medievales". Memorabilia 12: 219–247. Accesible en red (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última)..

Enlaces externos

  • .
  •   Datos: Q780920

text, encoding, initiative, consorcio, desarrolla, mantiene, estándar, para, representación, textos, forma, digital, trata, proyecto, investigación, humanidades, digitales, goza, amplia, difusión, utilización, bibliotecas, colecciones, texto, digitales, creaci. La Text Encoding Initiative TEI es un consorcio que desarrolla y mantiene un estandar para la representacion de los textos en forma digital Se trata de un proyecto de investigacion en humanidades digitales que goza de una amplia difusion y utilizacion en bibliotecas y colecciones de texto digitales y en la creacion de corpora linguisticos cita requerida Se basa en el lenguaje XML una version simplificada del SGML Logo oficial Indice 1 Las TEI Guidelines 1 1 Ejemplos 1 2 Ejemplo practico 2 Historia 2 1 Antecedentes 2 2 Origen 2 3 Desarrollo de las pautas de codificacion 3 Notas 4 Referencias 5 Bibliografia 6 Enlaces externosLas TEI Guidelines EditarLas TEI Guidelines en su conjunto lo que hacen es definir una gramatica XML Difiere de otros formatos textuales como HTML y OpenDocument en que se trata un marcado o etiquetado semantico y no presentacional es decir se preocupa por lo que es el texto y establece el significado de cada elemento y atributo Las pautas describen mas de 500 elementos textuales agrupados en veinte modulos a veces altamente especializados como el modulo para diccionarios teatro corpus linguisticos transcripcion de fuentes primarias mientras que otros son generales y basicos para cualquier documento TEI 1 Ejemplos Editar lt xml version 1 0 encoding UTF 8 gt lt TEI xmlns http www tei c org ns 1 0 gt lt teiHeader gt lt obligatorio gt lt teiHeader gt lt text gt lt front gt lt opcional gt lt front gt lt body gt lt obligatorio gt lt body gt lt back gt lt opcional gt lt back gt lt text gt lt TEI gt Ejemplo practico Editar lt xml version 1 0 encoding UTF 8 gt lt teiHeader gt lt fileDesc gt lt titleStmt gt lt title gt NACIMIENTO DE CRISTO lt title gt lt author gt Federico Garcia Lorca lt author gt lt titleStmt gt lt publicationStmt gt lt p gt Ejemplo para Wikipedia lt p gt lt publicationStmt gt lt sourceDesc gt lt p gt Transcrito desde una vieja edicion lt p gt lt sourceDesc gt lt fileDesc gt lt teiHeader gt lt text gt lt body gt lt head gt NACIMIENTO DE CRISTO lt head gt lt lg gt lt l gt Un pastor pide teta por la nieve que ondula lt l gt lt l gt blancos perros tendidos entre linternas sordas lt l gt lt l gt El Cristito de barro se ha partido los dedos lt l gt lt l gt En los filos eternos de la madera rota lt l gt lt lg gt lt lg gt lt l gt Ya vienen las hormigas y los pies ateridos lt l gt lt l gt Dos hilillos de sangre quiebran el cielo lt l gt lt l gt Los vientres del demonio resuenan por los valles lt l gt lt l gt golpes y resonancias de carne de moluscos lt l gt lt lg gt lt lg gt lt l gt Lobos y sapos cantan en las hogueras verdes lt l gt lt l gt coronadas por vivos hormigueros del alba lt l gt lt l gt La mula tienen un sueno de grandes abanicos lt l gt lt l gt y un toro suena un toro de agujeros y agua lt l gt lt lg gt lt lg gt lt l gt El nino llora con un tres en la frente lt l gt lt l gt San Jose ve en el heno tres espinas de bronce lt l gt lt l gt los panales exalan un rumor de desierto lt l gt lt l gt con citaras sin cuerdas y degolladas voces lt l gt lt lg gt lt lg gt lt l gt La nieve de Manhattan empuja los anuncios lt l gt lt l gt y lleva gracia pura por las falsas ojivas lt l gt lt l gt Sacerdotes idiotas y querubes de pluma lt l gt lt l gt van detras de Lutero por las altas esquinas lt l gt lt lg gt lt body gt lt text gt lt TEI gt Historia EditarAntecedentes Editar Antes de la creacion del TEI los humanistas no tenian estandares comunes para codificar textos electronicos A lo largo de los anos los academicos desarrollaron metodos variados con el objetivo de representar caracteres especiales y codificar divisiones logicas de un texto asi como representar informacion analitica e interpretativa y reducir el aparato de texto critico a una secuencia lineal unica 2 Debido a la falta de un formato estandar y unificado entre 1960 y 1980 se empezaron a desarrollar esquemas de codificacion desde cero y a partir de adaptaciones de los ya existentes Los esquemas ya existentes reflejaban principalmente los intereses de sus desarrolladores y estaban adaptados a los programas que utilizaban En su mayoria eran incompatibles con las investigaciones de otros humanistas debido a que tenian que modificarlos sustancialmente para poder usarlos siempre y cuando se pudiesen reutilizar 2 Cuando la comunidad de humanidades informaticas en ingles Computing humanities reconocio esta problematica se reunieron e intentaron en varias ocasiones San Diego 1977 Pisa 1980 desarrollar estandares de codificacion para los textos legibles por ordenadores Sin embargo no se llego a ningun consenso y se interrumpieron 2 Origen Editar La Text Encoding Initiative nacio en un congreso organizado por la Association for Computers and the Humanities ACH en el Vassar College en 1987 y fue financiado por la U S National Endowment for the Humanities en espanol Fundacion Nacional de los Estados Unidos para las Humanidades Al congreso asistieron alrededor de 30 representantes de diferentes archivos centros de humanidades informaticas proyectos de investigacion y organizaciones profesionales para reconsiderar la viabilidad de la estandarizacion y realizar recomendaciones en relacion a su ambito de aplicacion estructura contenido y redaccion conocidos actualmente como los principios de Poughkeepsie en ingles Poughkeepsie Principles n 1 2 3 El congreso fue un exito ya que por una parte se supo mas sobre los problemas de la codificacion y se aclararon los principios que debian seguirse para resolver esta problematica Por otra parte el grupo de Vassar logro reunir y componerse de una mayor representacion de organizaciones clave y centros de investigacion activos que en anteriores reuniones Ademas el reciente desarrollo del Standard Generalized Markup Language aporto una herramienta para desarrollar un esquema de codificacion sencillo flexible y extensible que cumpliese con las diferentes necesidades de la investigacion textual El consenso que se alcanzo en el congreso fue que esta necesidad estaba creciendo y habia que resolverla urgentemente 4 Desarrollo de las pautas de codificacion Editar Tras el congreso la Association for Computational Linguistics ACL y la Association for Literary and Linguistic Computing ALLC acordaron unirse a la ACH como patrocinadores para elaborar las pautas del estandar 5 Estas tres organizaciones se comprometieron a guiar el esfuerzo y la busqueda de financiacion para apoyar la TEI como un proyecto a nivel internacional y multilingue Sin embargo pronto se reconocio que este proyecto no solo era del interes de las humanidades sino que tambien se podia aplicar a diversas aplicaciones de la industria del lenguaje 4 En 1994 la TEI publico su primera version completa de las Guidelines for the Encoding and Interchange of Machine Readable Texts en espanol Pautas para la codificacion e intercambio de textos legibles por ordenadores coeditada por Michael Sperberg McQueen y Lou Bernard 6 7 4 n 2 Durante sus primeras versiones hasta la P3 la TEI se desarrollo sobre la base del SGML En la version P4 publicada en 2002 aparecio la primera especificacion en XML 9 En 2007 se publico la version P5 10 La ultima version de la P5 es la 3 3 0 y fue publicada el 31 de enero de 2018 bajo el nombre en clave Johnny Rotten 11 Notas Editar Poughkeepsie condado de Dutchess Nueva York es la ciudad en la que se encuentra el Vassar College donde se celebro el primer congreso Estas pautas consiguieron establecer el estandar SGML como el entorno de trabajo adecuado para su desarrollo especificar las restricciones y recomendaciones al usar SGML analizar e identificar categorias y caracteristicas de la codificacion de datos textuales especificar un conjunto de definiciones generales efectivas flexibles y extensibles para la estructura del texto crear una especificacion metodologica para la documentacion en los archivos de los textos electronicos compatible con las convenciones de bibliotecas con la funcion de servir como historial de los textos para poder validar su procedencia y las modificaciones que se hayan realizado especificar convenciones para tipos de textos especiales o caracteristicas textuales 8 Referencias Editar Appendix C Elements tei c org 2018 Consultado el 8 de febrero de 2018 a b c d Ide y Sperberg McQueen 1995 p 5 The Preparation of Text Encoding Guidelines tei c org 13 de noviembre de 1987 Consultado el 2 de enero de 2018 a b c Ide y Sperberg McQueen 1995 p 6 iv About These Guidelines The TEI Guidelines www tei c org en ingles Consultado el 31 de diciembre de 2017 Design Principles for Text Encoding Guidelines tei c org en ingles 14 de diciembre de 1988 Archivado desde el original el 4 de enero de 2018 Consultado el 2 de enero de 2018 Sperberg McQueen y Burnard 1994 Ide y Sperberg McQueen 1995 TEI P4 Guidelines tei c org Consultado el 8 de febrero de 2018 TEI P5 Guidelines tei c org Consultado el 8 de febrero de 2018 TEI P5 version 3 3 0 release notes tei c org Consultado el 8 de febrero de 2018 Bibliografia EditarIde Nancy M Sperberg McQueen C M 1995 The Text Encoding Initiative Its History Goals and Future Development En Nancy M Ide Jean Veronis eds ed Text encoding initiative background and contexts Dordrecht Kluwer Academic Publishers pp 5 15 ISBN 978 94 011 0325 1 Sperberg McQueen C M Burnard Lou eds 1994 Guidelines for Electronic Text Encoding and Interchange Chicago Text Encoding Initiative Consultado el 8 de febrero de 2018 Burnard L 2014 What is the Text Encoding Initiative How to add intelligent markup to digital resources Marseille OpenEdition Press Extraido de http books openedition org oep 426 ISBN 9782821834606 Fradejas Rueda J M 2009 2010 La codificacion XML TEI de textos medievales Memorabilia 12 219 247 Accesible en red enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Enlaces externos EditarSitio oficial de la Text Encoding Initiative Datos Q780920Obtenido de https es wikipedia org w index php title Text Encoding Initiative amp oldid 122858792, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos