fbpx
Wikipedia

Lenguaje de marcado

Un lenguaje de marcado o lenguaje de marcas es una forma de codificar un documento que, junto con el texto, incorpora etiquetas o marcas que contienen información adicional acerca de la estructura del texto o su presentación.

Un lenguaje especializado basado en SGML es el que se emplea para redactar la versión digital del Oxford English Dictionary. Permite búsquedas sofisticadas, además de facilitar la conversión a HTML.

El lenguaje de marcas más extendido es el HTML (HyperText Markup Language, lenguaje de marcado de hipertexto), fundamento del World Wide Web (entramado de comunicación de alcance mundial).

Los lenguajes de marcado suelen confundirse con lenguajes de programación. Sin embargo, no son lo mismo, ya que el lenguaje de marcado no tiene funciones aritméticas o variables, como poseen los lenguajes de programación. Históricamente, el marcado se usaba y se usa en la industria editorial y de la comunicación, así como entre autores, editores e impresores.

Un ejemplo de cómo funciona el lenguaje de marcado puede observarse en el dictado de viva voz de un documento a una persona que lo transcribe a máquina:

Ponga estilo de carta, ponga comillas, ponga mayúsculas, Estimado Juan, ponga dos puntos, aparte, sangría, ponga primera letra mayúscula, te escribo esta carta, ponga negrillas, de forma muy urgente, cierre negrilla, ya que no me has enviado..., etc.

Clases de lenguajes de marcado

Se suele diferenciar entre tres clases de lenguajes de marcado, aunque en la práctica pueden combinarse varias clases en un mismo documento. Por ejemplo, el HTML contiene etiquetas puramente procedimentales, como la B de bold (negrita), junto con otras puramente descriptivas (BLOCKQUOTE, el atributo HREF). El HTML también incluye el elemento PRE, que indica que el texto debe representarse tal y como está escrito.

Marcado de presentación

El marcado de presentación es aquel que indica el formato del texto. Este tipo de marcado es útil para maquetar la presentación de un documento para su lectura, pero resulta insuficiente para el procesamiento automático de la información. El marcado de presentación resulta más fácil de elaborar, sobre todo para cantidades pequeñas de información. Sin embargo resulta complicado de mantener o modificar, por lo que su uso se ha ido reduciendo en proyectos grandes en favor de otros tipos de marcado más estructurados.

Se puede tratar de averiguar la estructura de un documento de esta clase buscando pistas en el texto. Por ejemplo, el título puede ir precedido de varios saltos de línea (o renglón), y estar ubicado centrado en la página web. Varios programas pueden deducir la estructura del texto basándose en esta clase de datos, aunque el resultado suele ser bastante imperfecto. Un ejemplo de marcado de presentación, puede ser RTF.

Marcado de procedimientos

El marcado de procedimientos está enfocado hacia la presentación del texto, sin embargo, también es visible para el usuario que edita el texto. El programa que representa el documento debe interpretar el código en el mismo orden en que aparece. Por ejemplo, para formatear un título, debe haber una serie de directivas inmediatamente antes del texto en cuestión, indicándole al software instrucciones tales como centrar, aumentar el tamaño de la fuente, o cambiar a negrita. Inmediatamente después del título deberá haber etiquetas inversas que reviertan estos efectos. En sistemas más avanzados se utilizan macros o pilas que facilitan el trabajo.

Algunos ejemplos de marcado de procedimientos son nroff, troff, TeX. Este tipo de marcado se ha usado extensivamente en aplicaciones de edición profesional, manipulados por tipógrafos calificados, ya que puede llegar a ser extremadamente complejo.

Marcado descriptivo

El marcado descriptivo o semántico utiliza etiquetas para describir los fragmentos de texto, pero sin especificar cómo deben ser representados, o en qué orden. Los lenguajes expresamente diseñados para generar marcado descriptivo son el SGML y el XML.

Las etiquetas pueden utilizarse para añadir al contenido cualquier clase de metadatos. Por ejemplo, el estándar Atom, un lenguaje de sindicación, proporciona un método para marcar la hora «actualizada», que es el dato facilitado por el editor de cuándo ha sido modificada por última vez cierta información. El estándar no especifica cómo se debe representar, o siquiera si se debe representar. El software puede emplear este dato de múltiples maneras, incluyendo algunas no previstas por los diseñadores del estándar.

Una de las virtudes del marcado descriptivo es su flexibilidad: los fragmentos de texto se etiquetan tal como son, y no tal como deben aparecer. Estos fragmentos pueden utilizarse para más usos de los previstos inicialmente. Por ejemplo, los hiperenlaces fueron diseñados en un principio para que un usuario que lee el texto los pulse. Sin embargo, los buscadores los emplean para localizar nuevas páginas con información relacionada, o para evaluar la popularidad de determinado sitio web.

El marcado descriptivo también simplifica la tarea de reformatear un texto, debido a que la información del formato está separada del propio contenido. Por ejemplo, un fragmento indicado como cursiva (<i>texto</i>), puede emplearse para marcar énfasis o bien para señalar palabras en otro idioma. Esta ambigüedad, presente en el marcado presentacional y en el procedimental, no puede soslayarse más que con una tediosa revisión a mano. Sin embargo, si ambos casos se hubieran diferenciado descriptivamente con etiquetas distintas, podrían representarse de manera diferente sin esfuerzo.

El marcado descriptivo está evolucionando hacia el marcado genérico. Los nuevos sistemas de marcado descriptivo estructuran los documentos en árbol, con la posibilidad de añadir referencias cruzadas. Esto permite tratarlos como bases de datos, en las que el propio almacenamiento tiene en cuenta la estructura, no como en los grandes objetos binarios (blobs) como en el pasado. Estos sistemas no tienen un esquema estricto como las bases relacionales, por lo que a menudo se las considera bases semiestructuradas.

Mapa de los lenguajes de marcas

Esta es una relación de los principales lenguajes de marcas ordenados por su campo de aplicación. Nótese que los lenguajes de ámbito general pueden usarse para aplicaciones más específicas (pero no al revés). Para ver una lista más completa consulte Categoría:Lenguajes de descripción.

Principales

GML --> SGML --> XML --> Dialectos XML

Documentos en general

Lenguajes descriptivos Lenguajes de presentación Lenguajes ligeros Lenguajes para manuales

Tecnologías de internet

World Wide Web Interfaz de usuario Sindicación Servicios web

Lenguajes especializados

Historia

Los lenguajes de marcas se llaman así por la práctica tradicional de marcar los manuscritos con instrucciones de impresión en los márgenes. En la época de la imprenta, esta tarea ha correspondido a los marcadores, que indicaban el tipo de letra, el estilo y el tamaño, así como la corrección de errores, para que otras personas compusieran la tipografía. Esto condujo a la creación de un grupo de marcas estandarizadas.[1]​ Con la introducción de las computadoras, se trasladó un concepto similar al mundo de la informática.

Orígenes

El concepto de lenguaje de marcas fue expuesto por primera vez por William W. Tunnicliffe en 1967.[2]​ La mayor novedad consistía en la separación entre la presentación y la estructura del texto. Tunnicliffe, que prefería referirse a este concepto como codificación genérica (generic coding), dirigiría más tarde el desarrollo de un estándar al que bautizaría como GenCode, destinado a la industria editorial. El editor Stanley Fish también expuso ideas similares a finales de los años 1960. Brian Reid, en su disertación de 1980 en la Carnegie Mellon University, mostró su teoría y una implementación práctica de un lenguaje descriptivo todavía en uso.

Sin embargo, quien es considerado el padre de los lenguajes de marcas es Charles Goldfarb, investigador para la compañía IBM. Goldfarb participó en la creación del lenguaje GML, y posteriormente dirigió el comité que elaboró el estándar SGML, la piedra angular de los lenguajes de marcas. En cualquier caso, y a pesar de las controversias sobre su origen, es comúnmente aceptado que la idea surgió de forma independiente varias veces durante los 70, y que se generalizó en los años 1980.

Los lenguajes primitivos

El primer lenguaje que diferenció claramente la estructura de la presentación fue ciertamente el Scribe, desarrollado por Brian Reid y descrito en 1980 en su tesis doctoral.[3]​ Scribe era revolucionario por varios motivos, no solo porque separaba el estilo de las propias marcas del documento, también por el control gramático del empleo de elementos descriptivos. Scribe influyó en el desarrollo de los lenguajes posteriores.

Otro de los principales estándares de publicación es TeX, creado y mantenido por Donald Knuth en los años 70 y 80. TeX se centra en la estructura detallada del texto y la descripción de las fuentes, fundamentalmente en el campo de las publicaciones matemáticas especializadas. Esto obligó a Knuth a dedicar un tiempo considerable en el estudio de la tipografía. Sin embargo, TeX requiere amplios conocimientos para ser utilizado, por lo que solo ha cuajado en entornos académicos, en los que es el estándar de facto en varias disciplinas científicas. El software más extendido para el empleo de TeX es LaTeX.

Al margen de la industria editorial también surgieron algunas iniciativas, como los lenguajes troff y nroff, lenguajes utilizados para maquetación en sistemas UNIX. Su funcionalidad era limitada porque obligaba a trabajar mediante ensayo y error, hasta que las marcas insertadas en el texto ofrecieran el resultado deseado. Estos lenguajes no llegaron a cuajar en entornos profesionales, siendo utilizados por usuarios ocasionales. La aparición de procesadores de texto tipo WYSIWYG relegó a estos sistemas al olvido.

La generalización de los lenguajes de marcas

La iniciativa que sentaría las bases de los actuales lenguajes, partiría de la empresa IBM, que buscaba nuevas soluciones para mantener grandes cantidades de documentos. El trabajo fue encomendado a Charles F. Goldfarb, que junto con Edward Mosher y Raymond Lorie, diseñó el Generalized Markup Language o GML (nótese que también son las iniciales de sus creadores). Este lenguaje heredó del proyecto GenCode la idea de que la presentación debe separarse del contenido. El marcado, por tanto, se centra en definir la estructura del texto y no su presentación visual.

El lenguaje GML fue un gran éxito y pronto se extendió a otros ámbitos, siendo adoptado por el gobierno de Estados Unidos, con lo que surgió la necesidad de estandarizarlo. En los primeros años 1980 se constituyó un comité dirigido por Goldfarb. Sharon Adler, Anders Berglund y James D. Mason fueron también miembros de dicho comité. Se incorporaron ideas de diferentes fuentes, y participó gran cantidad de gente. Tras un largo proceso, en 1986 la Organización Internacional para la Estandarización publicaría el Standard Generalized Markup Language con rango de Estándar Internacional con el código ISO 8879.[4]

El SGML especifica la sintaxis para la inclusión de marcas en los textos, así como la sintaxis del documento que especifica qué etiquetas están permitidas y dónde: el Document Type Definition o schema. Esto permitía que un autor emplease cualquier marca que quisiera, eligiendo nombres para las etiquetas que tuvieran sentido tanto por el tema del documento como por el idioma. Así, el SGML es, estrictamente hablando, un metalenguaje, del que se derivan varios lenguajes especializados. Desde finales de los 80 han aparecido nuevos lenguajes basados en SGML, como por ejemplo el TEI o el DocBook.

El SGML tuvo una gran aceptación y hoy día se emplea en campos en los que se requiere documentación a gran escala. A pesar de ello, resultó farragoso y difícil de aprender, como consecuencia de la ambición de los objetivos previstos. Su gran potencia era a la vez una ventaja y una desventaja. Por ejemplo, ciertas etiquetas podían tener solo principio, o solo final, o incluso ser obviadas, pensando en que los textos serían redactados a mano y que así se ahorrarían pulsaciones de teclas. Sin embargo fue un punto clave en el desarrollo de los lenguajes de marcas actuales, ya que la gran mayoría derivan de este.

La popularización: el HTML

En 1991, parecía que los editores WYSIWYG (que almacenan los documentos en formatos binarios propietarios) abarcarían casi la totalidad del procesamiento de textos, relegando al SGML a usos profesionales o industriales muy específicos. Sin embargo, la situación cambió drásticamente cuando Sir Tim Berners-Lee, que había aprendido SGML de su compañero en el CERN Anders Berglund, utilizó la sintaxis SGML para crear el HTML.

Este lenguaje era similar a cualquier otro creado a partir del SGML, sin embargo resultó extraordinariamente sencillo, tanto que el DTD no se desarrolló hasta más tarde. DeRose[5]​ argumenta que la flexibilidad y escalabilidad del marcado HTML fue uno de los principales factores, junto con el empleo de URLs y la distribución libre de navegadores, del éxito de la World Wide Web.

El HTML es hoy día el tipo de documento más empleado en el mundo. Su sencillez era tal que cualquier persona podía escribir documentos en este formato, sin apenas necesidad de conocimientos de informática. Esta fue una de las razones de su éxito, pero también condujo a un cierto caos. El crecimiento exponencial de la web en los años 90 produjo documentos en cantidades ingentes pero mal estructurados, problema agravado aún más por la falta de respeto por los estándares, por parte de diseñadores web y fabricantes de software.

La madurez: el XML

 
Ejemplo de código XML.

La respuesta a los problemas surgidos en torno al HTML vino de la mano del XML (eXtensible Markup Language). El XML es un metalenguaje que permite crear etiquetas adaptadas a las necesidades (de ahí lo de «extensible»). El estándar define cómo pueden ser esas etiquetas y qué se puede hacer con ellas. Es además especialmente estricto en cuanto a lo que está permitido y lo que no, todo documento debe cumplir dos condiciones: ser válido y estar bien formado.

El XML fue desarrollado por el World Wide Web Consortium,[6]​ mediante un comité creado y dirigido por Jon Bosak. El objetivo principal era simplificar[7]​ el SGML para adaptarlo a un campo muy preciso: documentos en internet.

El nuevo lenguaje se extendió con rapidez, ya que todo documento XML es a su vez SGML. Los programas y documentos creados para y con SGML podían convertirse casi automáticamente al nuevo lenguaje. El XML simplificó radicalmente la complejidad del SGML, facilitando el aprendizaje y la implementación del nuevo estándar. Se solucionaron además viejos problemas, como los surgidos de la internacionalización, y la imposibilidad de validar un documento sin schema. El acierto fundamental de este lenguaje es que logra un equilibrio entre simplicidad y flexibilidad.

El XML fue ideado en principio para entornos semiestructurados, como textos y publicaciones. Uno de los ejemplos más claros es el XHTML, la redefinición del HTML en clave XML, con las ventajas que ello supone. Sin embargo pronto se observó que sus virtudes podían ser útiles en campos bien distintos. Los lenguajes basados en XML tienen aplicaciones incontables, como en la transacción de datos entre servidores, intercambio de información financiera, fórmulas y reacciones químicas, y un largo etcétera.

Tendencias

Las nuevas tendencias han abandonado los documentos con estructura en árbol. Los textos de la literatura antigua suelen tener estructura de prosa o de poesía: versículos, párrafos, etc. Los documentos de referencia suelen organizarse en libros, capítulos, versos y líneas. A menudo se entremezclan unos con otros, por lo que la estructura en árbol no se ajusta a sus necesidades. Los nuevos sistemas de modelado superan estos inconvenientes, como el MECS, diseñado para la obra de Wittgenstein, o las TEI Guidelines, LMNL, y CLIX.

La Iniciativa de codificación de textos o Text Encoding Initiative (TEI) ha publicado multitud de guías[8]​ para la codificación de documentos de interés en humanidades y ciencias sociales, desarrollados durante años de trabajo colaborativo internacional. Estas directrices se han empleado en innumerables proyectos de catalogación de documentos históricos, trabajos académicos, etc.

La web semántica

Los lenguajes de marcado son la herramienta fundamental en el diseño de la web semántica, aquella que no solo permite acceder a la información, sino que además define su significado, de forma que sea más fácil su procesamiento automático y se pueda reutilizar para distintas aplicaciones.[9]​ Esto se consigue añadiendo datos adicionales a los documentos, por medio de dos lenguajes expresamente creados: el RDF (Resource descriptión framework-Plataforma de descripción de recursos) y OWL (Web Ontology Language-Lenguaje de ontologías para la web), ambos basados en XML.

Características

Texto plano

Una de las principales ventajas de este tipo de codificación es que la gran mayoría puede ser interpretada directamente dado que son archivos de texto plano, quedando excluidos algunos lenguajes de presentación que guardan la información en archivos binarios como '.doc' de MS Word donde solo una pequeña parte de la información es legible. Esto es una ventaja evidente respecto a los sistemas de archivos binarios, que requieren siempre de un programa intermediario para trabajar con ellos. Un documento escrito con lenguajes de marcado puede ser editado por un usuario con un sencillo editor de textos, sin perjuicio de que se puedan utilizar programas más sofisticados que faciliten el trabajo.

Al tratarse solamente de texto, los documentos son independientes de la plataforma, sistema operativo o programa con el que fueron creados. Esta fue una de las premisas de los creadores de GML en los años 70, para no añadir restricciones innecesarias al intercambio de información. Es una de las razones fundamentales de la gran aceptación que han tenido en el pasado y del excelente futuro que se les augura.

Compacidad

Las instrucciones de marcado se entremezclan con el propio contenido en un único archivo o flujo de datos. Este es un ejemplo en diferentes lenguajes de marcas:

Ejemplos HTML LaTeX Wikitexto
Título <h1>Título</h1> \section{Título} == Título ==
Lista

<ul>
<li>Punto 1</li>
<li>Punto 2</li>
<li>Punto 3</li>
</ul>

\begin{itemize}
\item Punto 1
\item Punto 2
\item Punto 3
\end{itemize}

* Punto 1
* Punto 2
* Punto 3

texto en negrita <b>texto</b> \bf{texto} '''texto'''
texto en cursiva <i>texto</i> \it{texto} ''texto''

El código entre paréntesis angulares como <ul>, o con códigos \section, son instrucciones de marcado, también llamados etiquetas. Estas etiquetas en concreto son descriptivas de la estructura del documento, pudiendo ser su presentación visual de varias maneras. La etiqueta i (de italics, cursiva), por el contrario, especifica que el texto se debe mostrar en cursiva, sin especificar el motivo de esta diferenciación: es una etiqueta presentacional. El texto entre estas instrucciones es el propio contenido del documento.

Facilidad de procesamiento

Las organizaciones de estándares han venido desarrollando lenguajes especializados para los tipos de documentos de comunidades o industrias concretas. Uno de los primeros fue el CALS, utilizado por las fuerzas armadas de EE. UU. para sus manuales técnicos. Otras industrias con necesidad de gran cantidad de documentación, como las de aeronáutica, telecomunicaciones, automoción o hardware, ha elaborado lenguajes adaptados a sus necesidades. Esto ha conducido a que sus manuales se editen únicamente en versión electrónica, y después se obtenga a partir de esta las versiones impresas, en línea o en CD. Un ejemplo notable fue el caso de Sun Microsystems, empresa que optó por escribir la documentación de sus productos en SGML, ahorrando costes considerables. El responsable de aquella decisión fue Jon Bosak, que más tarde fundaría el comité del XML.

Flexibilidad

Aunque originalmente los lenguajes de marcas se idearon para documentos de texto, se han empezado a utilizar en áreas como gráficos vectoriales, servicios web, sindicación web o interfaces de usuario. Estas nuevas aplicaciones aprovechan la sencillez y potencia del lenguaje XML. Esto ha permitido que se pueda combinar varios lenguajes de marcas diferentes en un único archivo, como en el caso de XHTML+SMILy de XHTML+MathML+SVG.[10]

Referencias

  1. . Archivado desde el original el 10 de agosto de 2006. Consultado el 4 de agosto de 2006. 
  2. Conferencia titulada The Separation of Information Content of Documents from their Format, celebrada en Ottawa en septiembre de 1967.
  3. Reid, Brian. Scribe: A Document Specification Language and its Compiler. Pittsburgh:Ph.D. thesis, Carnegie-Mellon University. , también disponible como informe técnico, CMU-CS-81-100.
  4. DeRose, Steven J. (1997). The SGML FAQ Book. Boston: Kluwer Academic Publishers. ISBN 0-7923-9943-9. 
  5. Referencia del lenguaje xml, versión 1.1
  6. Nota del W3C sobre las diferencias entre SGML y XML
  7. Sitio web del consorcio TEI
  8. Web semántica en el W3C
  9. XHTML+MathML+SVG en la web del W3C.

Bibliografía

  • James H. Coombs, Allen H. Renear, Steven J. DeRose (1995). «Markup Systems and the Future of Scholarly Text Processing». Detroit, Estados Unidos: Universidad de Michigan. Consultado el 2006.  Originalmente publicado en 1987, introdujo conceptos hoy ampliamente utilizados, y sentó las bases para el desarrollo de los lenguajes descriptivos.
  • A. Fernández-Valmayor, A. Navarro, B. Fernández-Manjón y J. L. Sierra. «Lenguajes de programación, lenguajes de marcado y modelos hipermedia: una visión interesada de la evolución de los lenguajes informáticos». Madrid: Universidad Complutense de Madrid. ISSN 1139-8736. Consultado el 2006. 
  • Carolina García Cataño y David Arroyo Menéndez (2002). «Biblioteca Digital y Web Semántica» (BiblioWeb de SinDominio edición). Consultado el 2006.  Aplicación de los lenguajes de marcas para una biblioteca digital. Disponible bajo GFDL.
  • Goldfarb, Charles F. (1996). «The Roots of SGML -- A Personal Recollection». Consultado el 2006. 
  • Goldfarb, Charles F. (1990). The SGML Handbook. Oxford University Press. ISBN 0-19-853737-9. 

Enlaces externos

  • Organizaciones de estándares:
    • Lenguajes de marcas según el World Wide Web Consortium (W3C)
    • International Organization for Standardization (ISO)
  • Artículos:
    • Tesis doctoral sobre Hipertexto y lenguajes de marcas. María Jesús Lamarca Lapuente. UCM
    • Dos artículos de Tim Berners-Lee: Metadata Architecture y Semantic Web Road map
  • Eventos:
    • Sitio web de la conferencia Extreme Markup Languajes
  •   Datos: Q37045
  •   Multimedia: Markup languages

lenguaje, marcado, lenguaje, marcado, lenguaje, marcas, forma, codificar, documento, junto, texto, incorpora, etiquetas, marcas, contienen, información, adicional, acerca, estructura, texto, presentación, lenguaje, especializado, basado, sgml, emplea, para, re. Un lenguaje de marcado o lenguaje de marcas es una forma de codificar un documento que junto con el texto incorpora etiquetas o marcas que contienen informacion adicional acerca de la estructura del texto o su presentacion Un lenguaje especializado basado en SGML es el que se emplea para redactar la version digital del Oxford English Dictionary Permite busquedas sofisticadas ademas de facilitar la conversion a HTML El lenguaje de marcas mas extendido es el HTML HyperText Markup Language lenguaje de marcado de hipertexto fundamento del World Wide Web entramado de comunicacion de alcance mundial Los lenguajes de marcado suelen confundirse con lenguajes de programacion Sin embargo no son lo mismo ya que el lenguaje de marcado no tiene funciones aritmeticas o variables como poseen los lenguajes de programacion Historicamente el marcado se usaba y se usa en la industria editorial y de la comunicacion asi como entre autores editores e impresores Un ejemplo de como funciona el lenguaje de marcado puede observarse en el dictado de viva voz de un documento a una persona que lo transcribe a maquina Ponga estilo de carta ponga comillas ponga mayusculas Estimado Juan ponga dos puntos aparte sangria ponga primera letra mayuscula te escribo esta carta ponga negrillas de forma muy urgente cierre negrilla ya que no me has enviado etc Indice 1 Clases de lenguajes de marcado 1 1 Marcado de presentacion 1 2 Marcado de procedimientos 1 3 Marcado descriptivo 2 Mapa de los lenguajes de marcas 2 1 Principales 2 2 Documentos en general 2 3 Tecnologias de internet 2 4 Lenguajes especializados 3 Historia 3 1 Origenes 3 2 Los lenguajes primitivos 3 3 La generalizacion de los lenguajes de marcas 3 4 La popularizacion el HTML 3 5 La madurez el XML 3 6 Tendencias 3 7 La web semantica 4 Caracteristicas 4 1 Texto plano 4 2 Compacidad 4 3 Facilidad de procesamiento 4 4 Flexibilidad 5 Referencias 6 Bibliografia 7 Enlaces externosClases de lenguajes de marcado EditarSe suele diferenciar entre tres clases de lenguajes de marcado aunque en la practica pueden combinarse varias clases en un mismo documento Por ejemplo el HTML contiene etiquetas puramente procedimentales como la B de bold negrita junto con otras puramente descriptivas BLOCKQUOTE el atributo HREF El HTML tambien incluye el elemento PRE que indica que el texto debe representarse tal y como esta escrito Marcado de presentacion Editar El marcado de presentacion es aquel que indica el formato del texto Este tipo de marcado es util para maquetar la presentacion de un documento para su lectura pero resulta insuficiente para el procesamiento automatico de la informacion El marcado de presentacion resulta mas facil de elaborar sobre todo para cantidades pequenas de informacion Sin embargo resulta complicado de mantener o modificar por lo que su uso se ha ido reduciendo en proyectos grandes en favor de otros tipos de marcado mas estructurados Se puede tratar de averiguar la estructura de un documento de esta clase buscando pistas en el texto Por ejemplo el titulo puede ir precedido de varios saltos de linea o renglon y estar ubicado centrado en la pagina web Varios programas pueden deducir la estructura del texto basandose en esta clase de datos aunque el resultado suele ser bastante imperfecto Un ejemplo de marcado de presentacion puede ser RTF Marcado de procedimientos Editar El marcado de procedimientos esta enfocado hacia la presentacion del texto sin embargo tambien es visible para el usuario que edita el texto El programa que representa el documento debe interpretar el codigo en el mismo orden en que aparece Por ejemplo para formatear un titulo debe haber una serie de directivas inmediatamente antes del texto en cuestion indicandole al software instrucciones tales como centrar aumentar el tamano de la fuente o cambiar a negrita Inmediatamente despues del titulo debera haber etiquetas inversas que reviertan estos efectos En sistemas mas avanzados se utilizan macros o pilas que facilitan el trabajo Algunos ejemplos de marcado de procedimientos son nroff troff TeX Este tipo de marcado se ha usado extensivamente en aplicaciones de edicion profesional manipulados por tipografos calificados ya que puede llegar a ser extremadamente complejo Marcado descriptivo Editar El marcado descriptivo o semantico utiliza etiquetas para describir los fragmentos de texto pero sin especificar como deben ser representados o en que orden Los lenguajes expresamente disenados para generar marcado descriptivo son el SGML y el XML Las etiquetas pueden utilizarse para anadir al contenido cualquier clase de metadatos Por ejemplo el estandar Atom un lenguaje de sindicacion proporciona un metodo para marcar la hora actualizada que es el dato facilitado por el editor de cuando ha sido modificada por ultima vez cierta informacion El estandar no especifica como se debe representar o siquiera si se debe representar El software puede emplear este dato de multiples maneras incluyendo algunas no previstas por los disenadores del estandar Una de las virtudes del marcado descriptivo es su flexibilidad los fragmentos de texto se etiquetan tal como son y no tal como deben aparecer Estos fragmentos pueden utilizarse para mas usos de los previstos inicialmente Por ejemplo los hiperenlaces fueron disenados en un principio para que un usuario que lee el texto los pulse Sin embargo los buscadores los emplean para localizar nuevas paginas con informacion relacionada o para evaluar la popularidad de determinado sitio web El marcado descriptivo tambien simplifica la tarea de reformatear un texto debido a que la informacion del formato esta separada del propio contenido Por ejemplo un fragmento indicado como cursiva lt i gt texto lt i gt puede emplearse para marcar enfasis o bien para senalar palabras en otro idioma Esta ambiguedad presente en el marcado presentacional y en el procedimental no puede soslayarse mas que con una tediosa revision a mano Sin embargo si ambos casos se hubieran diferenciado descriptivamente con etiquetas distintas podrian representarse de manera diferente sin esfuerzo El marcado descriptivo esta evolucionando hacia el marcado generico Los nuevos sistemas de marcado descriptivo estructuran los documentos en arbol con la posibilidad de anadir referencias cruzadas Esto permite tratarlos como bases de datos en las que el propio almacenamiento tiene en cuenta la estructura no como en los grandes objetos binarios blobs como en el pasado Estos sistemas no tienen un esquema estricto como las bases relacionales por lo que a menudo se las considera bases semiestructuradas Mapa de los lenguajes de marcas EditarEsta es una relacion de los principales lenguajes de marcas ordenados por su campo de aplicacion Notese que los lenguajes de ambito general pueden usarse para aplicaciones mas especificas pero no al reves Para ver una lista mas completa consulte Categoria Lenguajes de descripcion Principales Editar GML gt SGML gt XML gt Dialectos XMLDocumentos en general Editar Lenguajes descriptivos Lenguajes de presentacion Lenguajes ligeros Lenguajes para manualesASN 1 EBML YAML Rich Text Format S1000D TeX troff HTML BBCode Markdown ReStructuredText setext Textile Wikitexto DocBook HelpML LinuxDoc POD Microsoft Assistance MLTecnologias de internet Editar World Wide Web Interfaz de usuario Sindicacion Servicios webHTML XHTML Wireless ML Handhelp ML RDF Meta Content Framework GladeXML MXML Macromedia User Interface ML XAML and MyXaml XForms XUL XBL Atom RSS ICE OPML y OML SyncML WSDL XINS WSCL WSFL XML RPC WebmlLenguajes especializados Editar Graficos 2D SVG CGM VML InkML Graficos 3D VRML X3D STEP Matematica MathML y OpenMath Musica LilyPond y MusicXML Taxonomia DITA Finanzas eXtensible Business Reporting Language Financial products ML Geomatica Geography ML Aeronautica Spacecraft ML Multimedia Synchronized Multimedia Integration Language Voz VoiceXML Mensajeria instantanea XMPP Videojuegos BulletML COLLADA Historia EditarLos lenguajes de marcas se llaman asi por la practica tradicional de marcar los manuscritos con instrucciones de impresion en los margenes En la epoca de la imprenta esta tarea ha correspondido a los marcadores que indicaban el tipo de letra el estilo y el tamano asi como la correccion de errores para que otras personas compusieran la tipografia Esto condujo a la creacion de un grupo de marcas estandarizadas 1 Con la introduccion de las computadoras se traslado un concepto similar al mundo de la informatica Origenes Editar El concepto de lenguaje de marcas fue expuesto por primera vez por William W Tunnicliffe en 1967 2 La mayor novedad consistia en la separacion entre la presentacion y la estructura del texto Tunnicliffe que preferia referirse a este concepto como codificacion generica generic coding dirigiria mas tarde el desarrollo de un estandar al que bautizaria como GenCode destinado a la industria editorial El editor Stanley Fish tambien expuso ideas similares a finales de los anos 1960 Brian Reid en su disertacion de 1980 en la Carnegie Mellon University mostro su teoria y una implementacion practica de un lenguaje descriptivo todavia en uso Sin embargo quien es considerado el padre de los lenguajes de marcas es Charles Goldfarb investigador para la compania IBM Goldfarb participo en la creacion del lenguaje GML y posteriormente dirigio el comite que elaboro el estandar SGML la piedra angular de los lenguajes de marcas En cualquier caso y a pesar de las controversias sobre su origen es comunmente aceptado que la idea surgio de forma independiente varias veces durante los 70 y que se generalizo en los anos 1980 Los lenguajes primitivos Editar El primer lenguaje que diferencio claramente la estructura de la presentacion fue ciertamente el Scribe desarrollado por Brian Reid y descrito en 1980 en su tesis doctoral 3 Scribe era revolucionario por varios motivos no solo porque separaba el estilo de las propias marcas del documento tambien por el control gramatico del empleo de elementos descriptivos Scribe influyo en el desarrollo de los lenguajes posteriores Otro de los principales estandares de publicacion es TeX creado y mantenido por Donald Knuth en los anos 70 y 80 TeX se centra en la estructura detallada del texto y la descripcion de las fuentes fundamentalmente en el campo de las publicaciones matematicas especializadas Esto obligo a Knuth a dedicar un tiempo considerable en el estudio de la tipografia Sin embargo TeX requiere amplios conocimientos para ser utilizado por lo que solo ha cuajado en entornos academicos en los que es el estandar de facto en varias disciplinas cientificas El software mas extendido para el empleo de TeX es LaTeX Al margen de la industria editorial tambien surgieron algunas iniciativas como los lenguajes troff y nroff lenguajes utilizados para maquetacion en sistemas UNIX Su funcionalidad era limitada porque obligaba a trabajar mediante ensayo y error hasta que las marcas insertadas en el texto ofrecieran el resultado deseado Estos lenguajes no llegaron a cuajar en entornos profesionales siendo utilizados por usuarios ocasionales La aparicion de procesadores de texto tipo WYSIWYG relego a estos sistemas al olvido La generalizacion de los lenguajes de marcas Editar Articulos principales Generalized Markup Languagey SGML La iniciativa que sentaria las bases de los actuales lenguajes partiria de la empresa IBM que buscaba nuevas soluciones para mantener grandes cantidades de documentos El trabajo fue encomendado a Charles F Goldfarb que junto con Edward Mosher y Raymond Lorie diseno el Generalized Markup Language o GML notese que tambien son las iniciales de sus creadores Este lenguaje heredo del proyecto GenCode la idea de que la presentacion debe separarse del contenido El marcado por tanto se centra en definir la estructura del texto y no su presentacion visual El lenguaje GML fue un gran exito y pronto se extendio a otros ambitos siendo adoptado por el gobierno de Estados Unidos con lo que surgio la necesidad de estandarizarlo En los primeros anos 1980 se constituyo un comite dirigido por Goldfarb Sharon Adler Anders Berglund y James D Mason fueron tambien miembros de dicho comite Se incorporaron ideas de diferentes fuentes y participo gran cantidad de gente Tras un largo proceso en 1986 la Organizacion Internacional para la Estandarizacion publicaria el Standard Generalized Markup Language con rango de Estandar Internacional con el codigo ISO 8879 4 El SGML especifica la sintaxis para la inclusion de marcas en los textos asi como la sintaxis del documento que especifica que etiquetas estan permitidas y donde el Document Type Definition o schema Esto permitia que un autor emplease cualquier marca que quisiera eligiendo nombres para las etiquetas que tuvieran sentido tanto por el tema del documento como por el idioma Asi el SGML es estrictamente hablando un metalenguaje del que se derivan varios lenguajes especializados Desde finales de los 80 han aparecido nuevos lenguajes basados en SGML como por ejemplo el TEI o el DocBook El SGML tuvo una gran aceptacion y hoy dia se emplea en campos en los que se requiere documentacion a gran escala A pesar de ello resulto farragoso y dificil de aprender como consecuencia de la ambicion de los objetivos previstos Su gran potencia era a la vez una ventaja y una desventaja Por ejemplo ciertas etiquetas podian tener solo principio o solo final o incluso ser obviadas pensando en que los textos serian redactados a mano y que asi se ahorrarian pulsaciones de teclas Sin embargo fue un punto clave en el desarrollo de los lenguajes de marcas actuales ya que la gran mayoria derivan de este La popularizacion el HTML Editar Articulo principal HTML En 1991 parecia que los editores WYSIWYG que almacenan los documentos en formatos binarios propietarios abarcarian casi la totalidad del procesamiento de textos relegando al SGML a usos profesionales o industriales muy especificos Sin embargo la situacion cambio drasticamente cuando Sir Tim Berners Lee que habia aprendido SGML de su companero en el CERN Anders Berglund utilizo la sintaxis SGML para crear el HTML Este lenguaje era similar a cualquier otro creado a partir del SGML sin embargo resulto extraordinariamente sencillo tanto que el DTD no se desarrollo hasta mas tarde DeRose 5 argumenta que la flexibilidad y escalabilidad del marcado HTML fue uno de los principales factores junto con el empleo de URLs y la distribucion libre de navegadores del exito de la World Wide Web El HTML es hoy dia el tipo de documento mas empleado en el mundo Su sencillez era tal que cualquier persona podia escribir documentos en este formato sin apenas necesidad de conocimientos de informatica Esta fue una de las razones de su exito pero tambien condujo a un cierto caos El crecimiento exponencial de la web en los anos 90 produjo documentos en cantidades ingentes pero mal estructurados problema agravado aun mas por la falta de respeto por los estandares por parte de disenadores web y fabricantes de software La madurez el XML Editar Articulo principal XML Ejemplo de codigo XML La respuesta a los problemas surgidos en torno al HTML vino de la mano del XML eXtensible Markup Language El XML es un metalenguaje que permite crear etiquetas adaptadas a las necesidades de ahi lo de extensible El estandar define como pueden ser esas etiquetas y que se puede hacer con ellas Es ademas especialmente estricto en cuanto a lo que esta permitido y lo que no todo documento debe cumplir dos condiciones ser valido y estar bien formado El XML fue desarrollado por el World Wide Web Consortium 6 mediante un comite creado y dirigido por Jon Bosak El objetivo principal era simplificar 7 el SGML para adaptarlo a un campo muy preciso documentos en internet El nuevo lenguaje se extendio con rapidez ya que todo documento XML es a su vez SGML Los programas y documentos creados para y con SGML podian convertirse casi automaticamente al nuevo lenguaje El XML simplifico radicalmente la complejidad del SGML facilitando el aprendizaje y la implementacion del nuevo estandar Se solucionaron ademas viejos problemas como los surgidos de la internacionalizacion y la imposibilidad de validar un documento sin schema El acierto fundamental de este lenguaje es que logra un equilibrio entre simplicidad y flexibilidad El XML fue ideado en principio para entornos semiestructurados como textos y publicaciones Uno de los ejemplos mas claros es el XHTML la redefinicion del HTML en clave XML con las ventajas que ello supone Sin embargo pronto se observo que sus virtudes podian ser utiles en campos bien distintos Los lenguajes basados en XML tienen aplicaciones incontables como en la transaccion de datos entre servidores intercambio de informacion financiera formulas y reacciones quimicas y un largo etcetera Tendencias Editar Las nuevas tendencias han abandonado los documentos con estructura en arbol Los textos de la literatura antigua suelen tener estructura de prosa o de poesia versiculos parrafos etc Los documentos de referencia suelen organizarse en libros capitulos versos y lineas A menudo se entremezclan unos con otros por lo que la estructura en arbol no se ajusta a sus necesidades Los nuevos sistemas de modelado superan estos inconvenientes como el MECS disenado para la obra de Wittgenstein o las TEI Guidelines LMNL y CLIX La Iniciativa de codificacion de textos o Text Encoding Initiative TEI ha publicado multitud de guias 8 para la codificacion de documentos de interes en humanidades y ciencias sociales desarrollados durante anos de trabajo colaborativo internacional Estas directrices se han empleado en innumerables proyectos de catalogacion de documentos historicos trabajos academicos etc La web semantica Editar Articulo principal Web semantica Los lenguajes de marcado son la herramienta fundamental en el diseno de la web semantica aquella que no solo permite acceder a la informacion sino que ademas define su significado de forma que sea mas facil su procesamiento automatico y se pueda reutilizar para distintas aplicaciones 9 Esto se consigue anadiendo datos adicionales a los documentos por medio de dos lenguajes expresamente creados el RDF Resource description framework Plataforma de descripcion de recursos y OWL Web Ontology Language Lenguaje de ontologias para la web ambos basados en XML Caracteristicas EditarTexto plano Editar Una de las principales ventajas de este tipo de codificacion es que la gran mayoria puede ser interpretada directamente dado que son archivos de texto plano quedando excluidos algunos lenguajes de presentacion que guardan la informacion en archivos binarios como doc de MS Word donde solo una pequena parte de la informacion es legible Esto es una ventaja evidente respecto a los sistemas de archivos binarios que requieren siempre de un programa intermediario para trabajar con ellos Un documento escrito con lenguajes de marcado puede ser editado por un usuario con un sencillo editor de textos sin perjuicio de que se puedan utilizar programas mas sofisticados que faciliten el trabajo Al tratarse solamente de texto los documentos son independientes de la plataforma sistema operativo o programa con el que fueron creados Esta fue una de las premisas de los creadores de GML en los anos 70 para no anadir restricciones innecesarias al intercambio de informacion Es una de las razones fundamentales de la gran aceptacion que han tenido en el pasado y del excelente futuro que se les augura Compacidad Editar Las instrucciones de marcado se entremezclan con el propio contenido en un unico archivo o flujo de datos Este es un ejemplo en diferentes lenguajes de marcas Ejemplos HTML LaTeX WikitextoTitulo lt h1 gt Titulo lt h1 gt section Titulo Titulo Lista lt ul gt lt li gt Punto 1 lt li gt lt li gt Punto 2 lt li gt lt li gt Punto 3 lt li gt lt ul gt begin itemize item Punto 1 item Punto 2 item Punto 3 end itemize Punto 1 Punto 2 Punto 3texto en negrita lt b gt texto lt b gt bf texto texto texto en cursiva lt i gt texto lt i gt it texto texto El codigo entre parentesis angulares como lt ul gt o con codigos section son instrucciones de marcado tambien llamados etiquetas Estas etiquetas en concreto son descriptivas de la estructura del documento pudiendo ser su presentacion visual de varias maneras La etiqueta i de italics cursiva por el contrario especifica que el texto se debe mostrar en cursiva sin especificar el motivo de esta diferenciacion es una etiqueta presentacional El texto entre estas instrucciones es el propio contenido del documento Facilidad de procesamiento Editar Las organizaciones de estandares han venido desarrollando lenguajes especializados para los tipos de documentos de comunidades o industrias concretas Uno de los primeros fue el CALS utilizado por las fuerzas armadas de EE UU para sus manuales tecnicos Otras industrias con necesidad de gran cantidad de documentacion como las de aeronautica telecomunicaciones automocion o hardware ha elaborado lenguajes adaptados a sus necesidades Esto ha conducido a que sus manuales se editen unicamente en version electronica y despues se obtenga a partir de esta las versiones impresas en linea o en CD Un ejemplo notable fue el caso de Sun Microsystems empresa que opto por escribir la documentacion de sus productos en SGML ahorrando costes considerables El responsable de aquella decision fue Jon Bosak que mas tarde fundaria el comite del XML Flexibilidad Editar Aunque originalmente los lenguajes de marcas se idearon para documentos de texto se han empezado a utilizar en areas como graficos vectoriales servicios web sindicacion web o interfaces de usuario Estas nuevas aplicaciones aprovechan la sencillez y potencia del lenguaje XML Esto ha permitido que se pueda combinar varios lenguajes de marcas diferentes en un unico archivo como en el caso de XHTML SMILy de XHTML MathML SVG 10 Referencias Editar Signos de correccion Archivado desde el original el 10 de agosto de 2006 Consultado el 4 de agosto de 2006 Conferencia titulada The Separation of Information Content of Documents from their Format celebrada en Ottawa en septiembre de 1967 Reid Brian Scribe A Document Specification Language and its Compiler Pittsburgh Ph D thesis Carnegie Mellon University tambien disponible como informe tecnico CMU CS 81 100 Referencia del estandar 8879 en la web del ISO DeRose Steven J 1997 The SGML FAQ Book Boston Kluwer Academic Publishers ISBN 0 7923 9943 9 Referencia del lenguaje xml version 1 1 Nota del W3C sobre las diferencias entre SGML y XML Sitio web del consorcio TEI Web semantica en el W3C XHTML MathML SVG en la web del W3C Bibliografia EditarJames H Coombs Allen H Renear Steven J DeRose 1995 Markup Systems and the Future of Scholarly Text Processing Detroit Estados Unidos Universidad de Michigan Consultado el 2006 Originalmente publicado en 1987 introdujo conceptos hoy ampliamente utilizados y sento las bases para el desarrollo de los lenguajes descriptivos A Fernandez Valmayor A Navarro B Fernandez Manjon y J L Sierra Lenguajes de programacion lenguajes de marcado y modelos hipermedia una vision interesada de la evolucion de los lenguajes informaticos Madrid Universidad Complutense de Madrid ISSN 1139 8736 Consultado el 2006 Carolina Garcia Catano y David Arroyo Menendez 2002 Biblioteca Digital y Web Semantica BiblioWeb de SinDominio edicion Consultado el 2006 Aplicacion de los lenguajes de marcas para una biblioteca digital Disponible bajo GFDL Goldfarb Charles F 1996 The Roots of SGML A Personal Recollection Consultado el 2006 Goldfarb Charles F 1990 The SGML Handbook Oxford University Press ISBN 0 19 853737 9 Enlaces externos EditarOrganizaciones de estandares Lenguajes de marcas segun el World Wide Web Consortium W3C International Organization for Standardization ISO Articulos Tesis doctoral sobre Hipertexto y lenguajes de marcas Maria Jesus Lamarca Lapuente UCM Dos articulos de Tim Berners Lee Metadata Architecture y Semantic Web Road map Eventos Sitio web de la conferencia Extreme Markup Languajes Datos Q37045 Multimedia Markup languagesObtenido de https es wikipedia org w index php title Lenguaje de marcado amp oldid 136223541, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos