fbpx
Wikipedia

Primer teorema de Shannon

En teoría de la información, el teorema de codificación de fuentes, primer teorema de Shannon o, menos utilizado, teorema de codificación sin ruido es un teorema enunciado por Claude Shannon en 1948 que establece el límite teórico para la compresión de una fuente de datos,[1]​ así como el significado operacional de la entropía de Shannon.

El primer teorema de Shannon demuestra que, en el límite de una cadena de variables aleatorias independientes e idénticamente distribuidas de datos que tiende a infinito, es imposible comprimir la información de forma que la relación de codificación (número medio de bits por símbolo) sea menor que la entropía de Shannon de la fuente, si se garantiza que no haya pérdida de información. Sin embargo, sí es posible conseguir una relación de codificación arbitrariamente cerca del valor de la entropía de Shannon.

El primer teorema de Shannon establece una cota inferior y superior de la longitud mínima posible de bits de información como función de la entropía.

Enunciado

La codificación de una fuente es una correspondencia entre una secuencia de símbolos de una fuente de información y una secuencia de símbolos de un alfabeto (generalmente bits) de forma que los símbolos de la fuente pueden ser recuperados posteriormente de forma exacta desde los bits binarios (codificación sin pérdidas) o recuperarla con alguna distorsión (codificación con pérdidas), pero que sigan siendo entendibles. Este es el concepto detrás de la compresión de datos.

Primer teorema de Shannon

En la Teoría de la Información, el primer teorema de Shannon (Shannon 1948)[2]​ informalmente expresa que: (MacKay 2003, p. 81.[3]​ Cover 2006, Capítulo 5.[4]​):

N i.i.d. variables aleatorias cada una con una entropía H(X) puede ser comprimida en más de N H(X) bits con un riesgo despreciable de pérdida de información , segúnN → ∞; pero a la inversa, si son comprimidos en menos de N H(X) bits es prácticamente seguro que se produce pérdida de información.

Primer teorema de Shannon para códigos simbólicos

Sean Σ1, Σ2 dos alfabetos finitos y sean Σ
1
y Σ
2
los conjuntos finitos de palabras de esos alfabetos (respectivamente).

Suponga que X es una variable aleatoria tomando valores en Σ1 y sea f un código singularmente decodificable desdeΣ
1
aΣ
2
donde2| = a. Sea S la variable aleatoria dada por la longitud de la palabra clavef (X).

Sif es óptimo en el sentido de que tiene la longitud de palabra clave mínima esperada para X, entonces (Shannon 1948):

 

Demostración: Teorema de codificación de la fuente

Sea X una fuente de variables aleatorias independientes idénticamente distribuidas (i.i.d.), su serie temporal X1,…,Xn es también i.i.d. con entropía H(X) en el caso discreto y entropía diferencial en el caso continuo.

El teorema de codificación fuente establece que para cualquier ε>0 hay una cantidad suficientemente grande n y un codificador que toma n i.i.d repeticiones de la fuente, X1:n, y lo lleva a  bits binarios de tal manera que los símbolos fuente X1:n son recuperables de los bits binarios con probabilidad de al menos 1-ε.

Demostración de su accesibilidad: Arregla algunos  y deja

 

El conjunto típico  se define como:

 

La propiedad de equipartición asintótica muestra que para cantidades suficientemente grandes de n, la probabilidad de que una secuencia generada por la fuente se encuentre en dicho conjunto se acerca a uno.

La definición de conjuntos típicos implica que aquellas secuencias que se encuentran en dicho conjunto satisfacen:

 

Nótese que:

  • La probabilidad de que una secuencia    sea extraída de   es mayor que 1-ε.
  •  
  •     

Ya que  ,   bits son suficientes para señalar cualquier cadena en este conjunto. La demostración inversa se realiza mostrando que cualquier conjunto menor que   (en el sentido de exponente), cubriría un conjunto de probabilidades limitadas desde 0.

Demostración: Teorema de codificación de fuentes para códigos de símbolos

Para  ,   representa la longitud de la palabra para cada   posible. Se define   donde   es una constante de normalización elegida de forma que  . Entonces:

 

Donde la segunda línea viene dada por la desigualdad de Gibbs y la quinta por la desigualdad de Kraft.

 

Por lo que  .

Para la segunda desigualdad, se establece que:

 

por lo que:

 

por tanto:

 

y por la desigualdad de Kraft, hay un código sin prefijo que tiene esa longitud de palabra. Esta S mínima satisface:

 

Extensión a fuentes independientes no estacionarias

En primer lugar definimos una base típica como  

 

Entonces, dada una δ >0, con n suficientemente grande  . Ahora solo hay que codificar las secuencias en la base típica, y los métodos más usuales de codificación muestran que la dimensión de esta base es menor que . De esta forma, en promedio bits   son suficientes para codificar con probabilidad mayor que 1- δ, donde   y δ pueden escogerse tan pequeños como se quiera, para un n muy grande.

Véase también

Referencias

  1. Claude Shannon (julio de 1948). «A Mathematical Theory of Communication». Bell Labs Technical Journal. .
  2. C.E. Shannon, "A Mathematical Theory of Communication", Bell System Technical Journal, vol. 27, pp. 379-423, 623-656, July, October, 1948
  3. David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1
  4. Cover, Thomas M. (2006). «Chapter 5: Data Compression». Elements of Information Theory. John Wiley & Sons. ISBN 0-471-24195-4. 

Bibliografía

  • Cover T. M., Thomas J. A., Elementos of Information Theory, John Wiley & Sonidos, 1991. ISBN 0-471-06259-6
  • Fano, R. A., Transmission of information; a statistical theory of communications, MIT Press, 1961. ISBN 0-262-06001-9
  • Feinstein, Amiel, "A New basic theorem of information theory", IEEE Transactions donde Information Theory, 4(4): 2-22, 1954.
  • MacKay, David J. C., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003. ISBN 0-521-64298-1 [disponible en línea]
  • Shannon, C. E., A Mathematical Theory of Communication Urbana, IL: University of Illinois Press, 1949 (reprinted 1998).
  • Wolfowitz, J., "The coding of messages subject tono chance errores", Illinois J. Math., 1: 591–606, 1957.

Enlaces externos

  •   Datos: Q2411312

primer, teorema, shannon, teoría, información, teorema, codificación, fuentes, primer, teorema, shannon, menos, utilizado, teorema, codificación, ruido, teorema, enunciado, claude, shannon, 1948, establece, límite, teórico, para, compresión, fuente, datos, así. En teoria de la informacion el teorema de codificacion de fuentes primer teorema de Shannon o menos utilizado teorema de codificacion sin ruido es un teorema enunciado por Claude Shannon en 1948 que establece el limite teorico para la compresion de una fuente de datos 1 asi como el significado operacional de la entropia de Shannon El primer teorema de Shannon demuestra que en el limite de una cadena de variables aleatorias independientes e identicamente distribuidas de datos que tiende a infinito es imposible comprimir la informacion de forma que la relacion de codificacion numero medio de bits por simbolo sea menor que la entropia de Shannon de la fuente si se garantiza que no haya perdida de informacion Sin embargo si es posible conseguir una relacion de codificacion arbitrariamente cerca del valor de la entropia de Shannon El primer teorema de Shannon establece una cota inferior y superior de la longitud minima posible de bits de informacion como funcion de la entropia Indice 1 Enunciado 1 1 Primer teorema de Shannon 1 2 Primer teorema de Shannon para codigos simbolicos 2 Demostracion Teorema de codificacion de la fuente 3 Demostracion Teorema de codificacion de fuentes para codigos de simbolos 4 Extension a fuentes independientes no estacionarias 5 Vease tambien 6 Referencias 7 Bibliografia 8 Enlaces externosEnunciado EditarLa codificacion de una fuente es una correspondencia entre una secuencia de simbolos de una fuente de informacion y una secuencia de simbolos de un alfabeto generalmente bits de forma que los simbolos de la fuente pueden ser recuperados posteriormente de forma exacta desde los bits binarios codificacion sin perdidas o recuperarla con alguna distorsion codificacion con perdidas pero que sigan siendo entendibles Este es el concepto detras de la compresion de datos Primer teorema de Shannon Editar En la Teoria de la Informacion el primer teorema de Shannon Shannon 1948 2 informalmente expresa que MacKay 2003 p 81 3 Cover 2006 Capitulo 5 4 N i i d variables aleatorias cada una con una entropia H X puede ser comprimida en mas de N H X bits con un riesgo despreciable de perdida de informacion segunN pero a la inversa si son comprimidos en menos de N H X bits es practicamente seguro que se produce perdida de informacion Primer teorema de Shannon para codigos simbolicos Editar Sean S1 S2 dos alfabetos finitos y sean S 1 y S 2 los conjuntos finitos de palabras de esos alfabetos respectivamente Suponga que X es una variable aleatoria tomando valores en S1 y sea f un codigo singularmente decodificable desdeS 1 aS 2 donde S2 a Sea S la variable aleatoria dada por la longitud de la palabra clave f X Si f es optimo en el sentido de que tiene la longitud de palabra clave minima esperada para X entonces Shannon 1948 H X log 2 a E S lt H X log 2 a 1 displaystyle frac H X log 2 a leq mathbb E S lt frac H X log 2 a 1 Demostracion Teorema de codificacion de la fuente EditarSea X una fuente de variables aleatorias independientes identicamente distribuidas i i d su serie temporal X1 Xn es tambien i i d con entropia H X en el caso discreto y entropia diferencial en el caso continuo El teorema de codificacion fuente establece que para cualquier e gt 0 hay una cantidad suficientemente grande n y un codificador que toma n i i d repeticiones de la fuente X1 n y lo lleva a n H X e displaystyle n bigl H bigl X bigr varepsilon bigr bits binarios de tal manera que los simbolos fuente X1 n son recuperables de los bits binarios con probabilidad de al menos 1 e Demostracion de su accesibilidad Arregla algunos y dejap x 1 x n P r X 1 x 1 X n x n displaystyle p bigl x 1 x n bigl P r X 1 x 1 X n x n El conjunto tipico A n e displaystyle A n varepsilon se define como A n e x 1 x n 1 n l o g p x 1 x n H n X lt e displaystyle A n varepsilon x 1 x n left vert frac 1 n logp x 1 x n H n X right vert lt varepsilon La propiedad de equiparticion asintotica muestra que para cantidades suficientemente grandes de n la probabilidad de que una secuencia generada por la fuente se encuentre en dicho conjunto se acerca a uno La definicion de conjuntos tipicos implica que aquellas secuencias que se encuentran en dicho conjunto satisfacen 2 n H X e p x 1 x n 2 n H X e displaystyle 2 n H X varepsilon leq p x 1 x n leq 2 n H X varepsilon Notese que La probabilidad de que una secuencia X 1 X n displaystyle X 1 X n sea extraida de A n e displaystyle A n varepsilon es mayor que 1 e A n e 2 n H X e displaystyle A n varepsilon leq 2 n H X varepsilon A n e 1 e 2 n H X e displaystyle A n varepsilon leq 1 varepsilon 2 n H X varepsilon Ya que A n e 2 n H X e displaystyle A n varepsilon leq 2 n H X varepsilon n H X e displaystyle n H X varepsilon bits son suficientes para senalar cualquier cadena en este conjunto La demostracion inversa se realiza mostrando que cualquier conjunto menor que A n e displaystyle A n varepsilon en el sentido de exponente cubriria un conjunto de probabilidades limitadas desde 0 Demostracion Teorema de codificacion de fuentes para codigos de simbolos EditarPara 1 i n displaystyle 1 leq i leq n s i displaystyle s i representa la longitud de la palabra para cada x i displaystyle x i posible Se define q i a s i C displaystyle q i a s i C donde C displaystyle C es una constante de normalizacion elegida de forma que q i q n 1 displaystyle q i q n 1 Entonces H x i 1 n p i l o g 2 p i i 1 n p i l o g 2 q i i 1 n p i l o g 2 a s i i 1 n p i l o g 2 C i 1 n p i l o g 2 a s i l o g 2 C i 1 n s i p i l o g 2 a E S l o g 2 a displaystyle H x sum i 1 n p i log 2 p i leq sum i 1 n p i log 2 q i sum i 1 n p i log 2 a s i sum i 1 n p i log 2 C sum i 1 n p i log 2 a s i log 2 C leq sum i 1 n s i p i log 2 a leq mathbb E Slog 2 a Donde la segunda linea viene dada por la desigualdad de Gibbs y la quinta por la desigualdad de Kraft C i 1 n a s i 1 displaystyle C sum i 1 n a s i leq 1 Por lo que l o g 2 C 0 displaystyle log 2 C leq 0 Para la segunda desigualdad se establece que s i l o g a p i displaystyle s i log a p i por lo que l o g a p i s i l o g a p i 1 displaystyle log a p i leq s i leq log a p i 1 por tanto a s i p i displaystyle a s i leq p i y por la desigualdad de Kraft hay un codigo sin prefijo que tiene esa longitud de palabra Esta S minima satisface E S p i s i lt p i l o g a p i 1 p i l o g 2 p i l o g 2 a 1 displaystyle mathbb E S sum p i s i lt sum p i log a p i 1 sum p i frac log 2 p i log 2 a 1 Extension a fuentes independientes no estacionarias EditarEn primer lugar definimos una base tipica como A n e displaystyle A n varepsilon A n e x n 1 n l o g p X 1 X n H n X e displaystyle A n varepsilon x n frac 1 n log p X 1 X n H n X varepsilon Entonces dada una d gt 0 con n suficientemente grande P r A n e lt 1 d displaystyle P r A n varepsilon lt 1 delta Ahora solo hay que codificar las secuencias en la base tipica y los metodos mas usuales de codificacion muestran que la dimension de esta base es menor que2 n H x e displaystyle 2 n H x varepsilon De esta forma en promedio bits H X e displaystyle H X varepsilon son suficientes para codificar con probabilidad mayor que 1 d donde e displaystyle varepsilon y d pueden escogerse tan pequenos como se quiera para un n muy grande Vease tambien EditarParadoja de Freedman Desigualdad de Jensen Segundo teorema de Shannon Teorema de Shannon HartleyReferencias Editar Claude Shannon julio de 1948 A Mathematical Theory of Communication Bell Labs Technical Journal C E Shannon A Mathematical Theory of Communication Bell System Technical Journal vol 27 pp 379 423 623 656 July October 1948 David J C MacKay Information Theory Inference and Learning Algorithms Cambridge Cambridge University Press 2003 ISBN 0 521 64298 1 Cover Thomas M 2006 Chapter 5 Data Compression Elements of Information Theory John Wiley amp Sons ISBN 0 471 24195 4 Bibliografia EditarCover T M Thomas J A Elementos of Information Theory John Wiley amp Sonidos 1991 ISBN 0 471 06259 6 Fano R A Transmission of information a statistical theory of communications MIT Press 1961 ISBN 0 262 06001 9 Feinstein Amiel A New basic theorem of information theory IEEE Transactions donde Information Theory 4 4 2 22 1954 MacKay David J C Information Theory Inference and Learning Algorithms Cambridge University Press 2003 ISBN 0 521 64298 1 disponible en linea Shannon C E A Mathematical Theory of Communication Urbana IL University of Illinois Press 1949 reprinted 1998 Wolfowitz J The coding of messages subject tono chance errores Illinois J Math 1 591 606 1957 Enlaces externos EditarEsta obra contiene una traduccion derivada de Theoreme du codage de source de Wikipedia en frances concretamente de esta version del 24 de enero de 2010 publicada por sus editores bajo la Licencia de documentacion libre de GNU y la Licencia Creative Commons Atribucion CompartirIgual 3 0 Unported CE Shannon A Mathematical Theory of Communication Bello System Technical Journal vol 27 pp 379 423 julio de 1948 Donde Shannon and Shannon s law Archivado el 15 de marzo de 2016 en Wayback Machine Shannon s Noisy Channel Coding Theorem Datos Q2411312 Obtenido de https es wikipedia org w index php title Primer teorema de Shannon amp oldid 139374448, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos