fbpx
Wikipedia

Codificación de caracteres

La codificación de caracteres es el método que permite convertir un carácter de un lenguaje natural (como el de un alfabeto o silabario) en un símbolo de otro sistema de representación, como un número o una secuencia de pulsos electrónicos en un sistema electrónico aplicando normas o reglas de codificación.

Definen la forma en la que se codifica un carácter dado en un símbolo en otro sistema de representación. Ejemplos de esto son el código Morse, la norma ASCII o la UTF-8, entre otros.

ASCII

Por estar íntimamente ligado al octeto (y por consiguiente a los enteros que van del 0 al 127), el problema que presenta es que no puede codificar más que 128 símbolos diferentes (128 es el número total de diferentes configuraciones que se pueden conseguir con 7 dígitos binarios o digitales (0000000, 0000001, …, 1111111), usando el octavo dígito de cada octeto (bit o dígito de paridad) para detectar algún error de transmisión). Un cupo de 128 es suficiente para incluir mayúsculas y minúsculas del abecedario inglés, además de cifras, puntuación, y algunos «caracteres de control» (por ejemplo, uno que instruye a una impresora que pase a la hoja siguiente), pero el ASCII no incluye ni los caracteres acentuados ni el comienzo de interrogación que se usa en castellano, ni tantos otros símbolos (matemáticos, letras griegas, …) que son necesarios en muchos contextos.

ASCII Extendido

Debido a las limitaciones del ASCII se definieron varios códigos de caracteres de 8 bits, entre ellos el ASCII extendido. Sin embargo, el problema de estos códigos de 8 bits es que cada uno de ellos se define para un conjunto de lenguas con escrituras semejantes y por tanto no dan una solución unificada a la codificación de todas las lenguas del mundo. Es decir, no son suficientes 8 bits para codificar todos los alfabetos y escrituras del mundo.

Unicode

Como solución a estos problemas, desde 1991 se ha acordado internacionalmente utilizar la norma Unicode, que es una gran tabla, que en la actualidad asigna un código a cada uno de los más de cincuenta mil símbolos, los cuales abarcan todos los alfabetos europeos, ideogramas chinos, japoneses, coreanos, muchas otras formas de escritura, y más de un millar de símbolos locales.

Normas de Transmisión

Las normas de transmisión tienen como objetivo definir la forma en que los caracteres codificados (utilizando las normas de codificación) son transmitidos en el canal de comunicaciones (por ejemplo Internet)

Actualmente, en Internet los mensajes se transmiten en paquetes que siempre constan de un número entero de octetos, y la detección de error ya no se hace con el octavo dígito de cada octeto, sino con octetos especiales que automáticamente se agregan a cada paquete. Las normas de transmisión se limitan a especificar una correspondencia, reversible, entre códigos (que representan caracteres), y secuencias de octetos (que han de ser transmitidos en calidad de datos).

Tablas tipográficas

Pero, finalmente, para cartearse electrónicamente en chino simplificado (por ejemplo) falta un detalle importante:

La tabla que el Consorcio Unicode publica para ser leída por humanos, contiene una representación gráfica o descripción, de cada carácter incluido hasta ese momento; pero los sistemas de visualización de documentos, para funcionar, requieren tablas de tipografía, que asocian un glifo (dibujo) a cada carácter que abarcan, y sucede que hay muchísimas tablas de tipografía, con nombres como Arial o Times, que dibujan una misma letra con base en matrices diferentes y en diferentes estilos («A» o «A»); sin embargo, la gran mayoría de las fuentes tipográficas contienen solo un pequeño subconjunto de todos los caracteres Unicode.

Normas comunes de codificación de caracteres

  • ISO 646
  • EBCDIC
    • CP930
  • ISO 8859:
    • ISO 8859-1 Europa occidental
    • ISO 8859-2 Europa occidental y Centroeuropa (checo, polaco, croata, rumano, esloveno, …)
    • ISO 8859-3 Europa occidental y Europa del Sur
    • ISO 8859-4 Europa occidental y países bálticos (lituano, estonio y lapón)
    • ISO 8859-5 alfabeto cirílico
    • ISO 8859-6 árabe
    • ISO 8859-7 griego
    • ISO 8859-8 Hebreo
    • ISO 8859-9 Europa occidental con el juego de caracteres turco
    • ISO 8859-10 Europa occidental con juegos de caracteres nórdicos, incluyendo el de Islandia.
    • ISO 8859-11 tailandés
    • ISO 8859-13 idiomas bálticos y polaco
    • ISO 8859-14 idiomas celtas (gaélico irlandés, escocés, galés)
    • ISO 8859-15 Añade el símbolo de Euro y otros a ISO 8859-1
    • ISO 8859-16 idiomas centroeuropeos (polaco, checo, esloveno, eslovaco, húngaro, albano, rumano, alemán e italiano)
  • CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
  • Juegos de caracteres de Windows:
    • Windows-1250 para idiomas centroeuropeos que utilizan un guion latino (polaco, checo, eslovaco, húngaro, esloveno, serbio, croata, rumano y albano)
    • Windows-1251 para alfabetos cirílicos
    • Windows-1252 para idiomas occidentales
    • Windows-1253 para griego
    • Windows-1254 para turco
    • Windows-1255 para hebreo
    • Windows-1256 para árabe
    • Windows-1257 para idiomas bálticos
    • Windows-1258 para vietnamita
  • Mac OS Roman
  • KOI8-R, KOI8-U, KOI7
  • MIK
  • Cork o T1
  • ISCII
  • VISCII
  • Big5
    • HKSCS
  • Guobiao
    • GB2312
    • GBK (Página de códigos 936 de Microsoft)
    • GB18030
  • Shift JIS para Japonés (Página de códigos 932 de Microsoft)
  • EUC-KR para Coreano (Página de códigos 932 de Microsoft)
  • ISO-2022 y EUC para juegos de caracteres CJK
  • Unicode (y sus subconjuntos, como el Basic Multilingual Plane de 16 bits). Véase también UTF-8 y UTF-16.
  • ANSEL o ISO/IEC 6937

Codificación de caracteres del español

Minúsculas
carácter ISO-8859-1 UTF-8 UTF-16
a 0x61 0x61 0x00 0x61
b 0x62 0x62 0x00 0x62
c 0x63 0x63 0x00 0x63
d 0x64 0x64 0x00 0x64
e 0x65 0x65 0x00 0x65
f 0x66 0x66 0x00 0x66
g 0x67 0x67 0x00 0x67
h 0x68 0x68 0x00 0x68
i 0x69 0x69 0x00 0x69
j 0x6a 0x6a 0x00 0x6a
k 0x6b 0x6b 0x00 0x6b
l 0x6c 0x6c 0x00 0x6c
m 0x6d 0x6d 0x00 0x6d
n 0x6e 0x6e 0x00 0x6e
o 0x6f 0x6f 0x00 0x6f
p 0x70 0x70 0x00 0x70
q 0x71 0x71 0x00 0x71
r 0x72 0x72 0x00 0x72
s 0x73 0x73 0x00 0x73
t 0x74 0x74 0x00 0x74
u 0x75 0x75 0x00 0x75
v 0x76 0x76 0x00 0x76
w 0x77 0x77 0x00 0x77
x 0x78 0x78 0x00 0x78
y 0x79 0x79 0x00 0x79
z 0x7a 0x7a 0x00 0x7a
Mayúsculas
carácter ISO-8859-1 UTF-8 UTF-16
A 0x41 0x41 0x00 0x41
B 0x42 0x42 0x00 0x42
C 0x43 0x43 0x00 0x43
D 0x44 0x44 0x00 0x44
E 0x45 0x45 0x00 0x45
F 0x46 0x46 0x00 0x46
G 0x47 0x47 0x00 0x47
H 0x48 0x48 0x00 0x48
I 0x49 0x49 0x00 0x49
J 0x4a 0x4a 0x00 0x4a
K 0x4b 0x4b 0x00 0x4b
L 0x4c 0x4c 0x00 0x4c
M 0x4d 0x4d 0x00 0x4d
N 0x4e 0x4e 0x00 0x4e
O 0x4f 0x4f 0x00 0x4f
P 0x50 0x50 0x00 0x50
Q 0x51 0x51 0x00 0x51
R 0x52 0x52 0x00 0x52
S 0x53 0x53 0x00 0x53
T 0x54 0x54 0x00 0x54
U 0x55 0x55 0x00 0x55
V 0x56 0x56 0x00 0x56
W 0x57 0x57 0x00 0x57
X 0x58 0x58 0x00 0x58
Y 0x59 0x59 0x00 0x59
Z 0x5a 0x5a 0x00 0x5a
Acentos y tildes
carácter ISO-8859-1 UTF-8 UTF-16
á 0xe1 0xc3 0xa1 0x00 0xe1
Á 0xc1 0xc3 0x81 0x00 0xc1
é 0xe9 0xc3 0xa9 0x00 0xe9
É 0xc9 0xc3 0x89 0x00 0xc9
í 0xed 0xc3 0xad 0x00 0xed
Í 0xcd 0xc3 0x8d 0x00 0xcd
ó 0xf3 0xc3 0xb3 0x00 0xf3
Ó 0xd3 0xc3 0x93 0x00 0xd3
ú 0xfa 0xc3 0xba 0x00 0xfa
Ú 0xda 0xc3 0x9a 0x00 0xda
ü 0xfc 0xc3 0xbc 0x00 0xfc
Ü 0xdc 0xc3 0x9c 0x00 0xdc
ñ 0xf1 0xc3 0xb1 0x00 0xf1
Ñ 0xd1 0xc3 0x91 0x00 0xd1
Símbolos
carácter ISO-8859-1 UTF-8 UTF-16
¿ 0xbf 0xc2 0xbf 0x00 0xbf
? 0x3f 0x3f 0x00 0x3f
¡ 0xa1 0xc2 0xa1 0x00 0xa1
! 0x21 0x21 0x00 0x21
  •   Datos: Q184759
  •   Multimedia: Character sets

codificación, caracteres, codificación, caracteres, método, permite, convertir, carácter, lenguaje, natural, como, alfabeto, silabario, símbolo, otro, sistema, representación, como, número, secuencia, pulsos, electrónicos, sistema, electrónico, aplicando, norm. La codificacion de caracteres es el metodo que permite convertir un caracter de un lenguaje natural como el de un alfabeto o silabario en un simbolo de otro sistema de representacion como un numero o una secuencia de pulsos electronicos en un sistema electronico aplicando normas o reglas de codificacion Definen la forma en la que se codifica un caracter dado en un simbolo en otro sistema de representacion Ejemplos de esto son el codigo Morse la norma ASCII o la UTF 8 entre otros Indice 1 ASCII 2 ASCII Extendido 3 Unicode 4 Normas de Transmision 5 Tablas tipograficas 6 Normas comunes de codificacion de caracteres 7 Codificacion de caracteres del espanolASCII EditarPor estar intimamente ligado al octeto y por consiguiente a los enteros que van del 0 al 127 el problema que presenta es que no puede codificar mas que 128 simbolos diferentes 128 es el numero total de diferentes configuraciones que se pueden conseguir con 7 digitos binarios o digitales 0000000 0000001 1111111 usando el octavo digito de cada octeto bit o digito de paridad para detectar algun error de transmision Un cupo de 128 es suficiente para incluir mayusculas y minusculas del abecedario ingles ademas de cifras puntuacion y algunos caracteres de control por ejemplo uno que instruye a una impresora que pase a la hoja siguiente pero el ASCII no incluye ni los caracteres acentuados ni el comienzo de interrogacion que se usa en castellano ni tantos otros simbolos matematicos letras griegas que son necesarios en muchos contextos ASCII Extendido EditarDebido a las limitaciones del ASCII se definieron varios codigos de caracteres de 8 bits entre ellos el ASCII extendido Sin embargo el problema de estos codigos de 8 bits es que cada uno de ellos se define para un conjunto de lenguas con escrituras semejantes y por tanto no dan una solucion unificada a la codificacion de todas las lenguas del mundo Es decir no son suficientes 8 bits para codificar todos los alfabetos y escrituras del mundo Unicode EditarComo solucion a estos problemas desde 1991 se ha acordado internacionalmente utilizar la norma Unicode que es una gran tabla que en la actualidad asigna un codigo a cada uno de los mas de cincuenta mil simbolos los cuales abarcan todos los alfabetos europeos ideogramas chinos japoneses coreanos muchas otras formas de escritura y mas de un millar de simbolos locales Normas de Transmision EditarLas normas de transmision tienen como objetivo definir la forma en que los caracteres codificados utilizando las normas de codificacion son transmitidos en el canal de comunicaciones por ejemplo Internet Actualmente en Internet los mensajes se transmiten en paquetes que siempre constan de un numero entero de octetos y la deteccion de error ya no se hace con el octavo digito de cada octeto sino con octetos especiales que automaticamente se agregan a cada paquete Las normas de transmision se limitan a especificar una correspondencia reversible entre codigos que representan caracteres y secuencias de octetos que han de ser transmitidos en calidad de datos Tablas tipograficas EditarPero finalmente para cartearse electronicamente en chino simplificado por ejemplo falta un detalle importante La tabla que el Consorcio Unicode publica para ser leida por humanos contiene una representacion grafica o descripcion de cada caracter incluido hasta ese momento pero los sistemas de visualizacion de documentos para funcionar requieren tablas de tipografia que asocian un glifo dibujo a cada caracter que abarcan y sucede que hay muchisimas tablas de tipografia con nombres como Arial o Times que dibujan una misma letra con base en matrices diferentes y en diferentes estilos A o A sin embargo la gran mayoria de las fuentes tipograficas contienen solo un pequeno subconjunto de todos los caracteres Unicode Normas comunes de codificacion de caracteres EditarISO 646 ASCII EBCDIC CP930 ISO 8859 ISO 8859 1 Europa occidental ISO 8859 2 Europa occidental y Centroeuropa checo polaco croata rumano esloveno ISO 8859 3 Europa occidental y Europa del Sur ISO 8859 4 Europa occidental y paises balticos lituano estonio y lapon ISO 8859 5 alfabeto cirilico ISO 8859 6 arabe ISO 8859 7 griego ISO 8859 8 Hebreo ISO 8859 9 Europa occidental con el juego de caracteres turco ISO 8859 10 Europa occidental con juegos de caracteres nordicos incluyendo el de Islandia ISO 8859 11 tailandes ISO 8859 13 idiomas balticos y polaco ISO 8859 14 idiomas celtas gaelico irlandes escoces gales ISO 8859 15 Anade el simbolo de Euro y otros a ISO 8859 1 ISO 8859 16 idiomas centroeuropeos polaco checo esloveno eslovaco hungaro albano rumano aleman e italiano CP437 CP737 CP850 CP852 CP855 CP857 CP858 CP860 CP861 CP863 CP865 CP866 CP869 Juegos de caracteres de Windows Windows 1250 para idiomas centroeuropeos que utilizan un guion latino polaco checo eslovaco hungaro esloveno serbio croata rumano y albano Windows 1251 para alfabetos cirilicos Windows 1252 para idiomas occidentales Windows 1253 para griego Windows 1254 para turco Windows 1255 para hebreo Windows 1256 para arabe Windows 1257 para idiomas balticos Windows 1258 para vietnamita Mac OS Roman KOI8 R KOI8 U KOI7 MIK Cork o T1 ISCII VISCII Big5 HKSCS Guobiao GB2312 GBK Pagina de codigos 936 de Microsoft GB18030 Shift JIS para Japones Pagina de codigos 932 de Microsoft EUC KR para Coreano Pagina de codigos 932 de Microsoft ISO 2022 y EUC para juegos de caracteres CJK Unicode y sus subconjuntos como el Basic Multilingual Plane de 16 bits Vease tambien UTF 8 y UTF 16 ANSEL o ISO IEC 6937Codificacion de caracteres del espanol EditarMinusculascaracter ISO 8859 1 UTF 8 UTF 16a 0x61 0x61 0x00 0x61b 0x62 0x62 0x00 0x62c 0x63 0x63 0x00 0x63d 0x64 0x64 0x00 0x64e 0x65 0x65 0x00 0x65f 0x66 0x66 0x00 0x66g 0x67 0x67 0x00 0x67h 0x68 0x68 0x00 0x68i 0x69 0x69 0x00 0x69j 0x6a 0x6a 0x00 0x6ak 0x6b 0x6b 0x00 0x6bl 0x6c 0x6c 0x00 0x6cm 0x6d 0x6d 0x00 0x6dn 0x6e 0x6e 0x00 0x6eo 0x6f 0x6f 0x00 0x6fp 0x70 0x70 0x00 0x70q 0x71 0x71 0x00 0x71r 0x72 0x72 0x00 0x72s 0x73 0x73 0x00 0x73t 0x74 0x74 0x00 0x74u 0x75 0x75 0x00 0x75v 0x76 0x76 0x00 0x76w 0x77 0x77 0x00 0x77x 0x78 0x78 0x00 0x78y 0x79 0x79 0x00 0x79z 0x7a 0x7a 0x00 0x7a Mayusculascaracter ISO 8859 1 UTF 8 UTF 16A 0x41 0x41 0x00 0x41B 0x42 0x42 0x00 0x42C 0x43 0x43 0x00 0x43D 0x44 0x44 0x00 0x44E 0x45 0x45 0x00 0x45F 0x46 0x46 0x00 0x46G 0x47 0x47 0x00 0x47H 0x48 0x48 0x00 0x48I 0x49 0x49 0x00 0x49J 0x4a 0x4a 0x00 0x4aK 0x4b 0x4b 0x00 0x4bL 0x4c 0x4c 0x00 0x4cM 0x4d 0x4d 0x00 0x4dN 0x4e 0x4e 0x00 0x4eO 0x4f 0x4f 0x00 0x4fP 0x50 0x50 0x00 0x50Q 0x51 0x51 0x00 0x51R 0x52 0x52 0x00 0x52S 0x53 0x53 0x00 0x53T 0x54 0x54 0x00 0x54U 0x55 0x55 0x00 0x55V 0x56 0x56 0x00 0x56W 0x57 0x57 0x00 0x57X 0x58 0x58 0x00 0x58Y 0x59 0x59 0x00 0x59Z 0x5a 0x5a 0x00 0x5a Acentos y tildescaracter ISO 8859 1 UTF 8 UTF 16a 0xe1 0xc3 0xa1 0x00 0xe1A 0xc1 0xc3 0x81 0x00 0xc1e 0xe9 0xc3 0xa9 0x00 0xe9E 0xc9 0xc3 0x89 0x00 0xc9i 0xed 0xc3 0xad 0x00 0xedI 0xcd 0xc3 0x8d 0x00 0xcdo 0xf3 0xc3 0xb3 0x00 0xf3o 0xd3 0xc3 0x93 0x00 0xd3u 0xfa 0xc3 0xba 0x00 0xfaU 0xda 0xc3 0x9a 0x00 0xdau 0xfc 0xc3 0xbc 0x00 0xfcU 0xdc 0xc3 0x9c 0x00 0xdcn 0xf1 0xc3 0xb1 0x00 0xf1N 0xd1 0xc3 0x91 0x00 0xd1Simboloscaracter ISO 8859 1 UTF 8 UTF 16 0xbf 0xc2 0xbf 0x00 0xbf 0x3f 0x3f 0x00 0x3f 0xa1 0xc2 0xa1 0x00 0xa1 0x21 0x21 0x00 0x21 Datos Q184759 Multimedia Character setsObtenido de https es wikipedia org w index php title Codificacion de caracteres amp oldid 136130779, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos