fbpx
Wikipedia

Ratio de entropía

La ratio de entropía de una secuencia de n variables aleatorias (proceso estocástico) caracteriza la tasa de crecimiento de la entropía de la secuencia con el crecimiento de n.

La tasa de entropía de un proceso estocástico viene definida por la ecuación:

siempre que dicho límite exista.

Una cantidad relacionada con la ratio de entropía ( H(X) ) es:

cuando dicho límite existe.

H'(X) mide la entropía condicional de la última variable aleatoria en función de todas las anteriores. Para proceso estocásticos estacionarios se cumple H(X)=H'(X)

Ejemplos

  • Consideremos el caso de una máquina de escribir que tiene m teclas con igual probabilidad de ser tecleada. Podemos decir que   y por tanto  . Podemos generalizar, si   es un proceso estocástico con variables aleatorias independientes e idénticamente distribuida. Entonces:
 
  • Supongamos un proceso estocástico con variables aleatorias independientes pero no idénticamente distribuidas. Por tanto:
 
Sin embargo depende de la distribución de las variables aleatorias que exista, o no, el límite y por tanto la tasa de entropía. Por ejemplo si definimos una secuencia binaria aleatoria en la que   no es constante sino una función de i de la forma
  si  
  si  
para k=0,1,2...
Entonces H(X) no está definida para este proceso.

Ratio de un idioma

Un idioma o lengua, es un sistema de comunicación verbal o gestual propio de una comunidad humana. Podemos observar que en los idiomas existen letras, conjuntos de letras y palabra más comunes que otras. La gramática del idioma también restringe qué palabras y en que orden se pueden encontrar. Además el resto del mensaje (el contexto) también afecta a la probabilidad de aparición de una palabra. Por ejemplo si estamos en un contexto judicial y aparecen las letras "im", podemos determinar que la palabra "impugnar" es más probable que la palabra "imbécil". En este caso podríamos decir que hay una probabilidad de las palabras condicionada por el contexto (resto de palabras).

Por tanto podemos decir que los idiomas son 'ineficientes', es decir, contienen mucha redundancia. No sería necesario usar todos los símbolos que usamos para expresar algo. Por ejemplo si queremos transmitir el mensaje "This is a suny day" podríamos usar la expresión "This is a suny dy" de forma que el receptor nos entendería igual.[1]​ Esta es el fundamento en el que se basa el uso habitual de un montón de abreviaturas cuando la gente se comunica con SMSs.

Podemos considerar un idioma como un proceso estocástico   de variables aleatorias donde cada una tiene como valor un símbolo del lenguaje. Debido a las características vistas de los lenguajes, y usando la entropía condicionada, podemos decir:

 

Definimos la ratio de entropía de un idioma (vamos a denotar por R), también llamada simplemente ratio del idioma, como la ratio de entropía del proceso:

 

Es decir, la ratio de entropía de un idioma es el límite de la entropía de un ejemplo de texto en el idioma, cuando la longitud del texto se hace muy grande. La ratio de un idioma la podemos interpretar como la cantidad de información que contiene cada letra de nuestro alfabeto. En otras palabras, si un alfabeto consta de L elementos, existirán   mensajes posibles de longitud N. Sin embargo como los mensajes son redundante solo obtendremos   (con r la ratio del idioma) mensajes que tengan sentido

Para el castellano se estima que el ratio está entre 1.2 y 1.5. Para el inglés se estima en torno al 1.3.

Se llama ratio absoluta (vamos a denotar por  ) de un idioma al valor máximo que puede tener la ratio de un idioma. Es decir si tenemos un idioma con n símbolos la ratio máxima del idioma será aquel en el que todos los símbolos son equiprobables e independientes. Por tanto  . Este valor identifica el máximo número de bits que pueden ser codificados con cada carácter (símbolo) asumiendo que cada carácter de la secuencia es equiprobable.

Se llama redundancia de un idioma (vamos a denotar por  ) a la diferencia entre la ratio absoluta y la ratio de un idioma. Por tanto  . Este valor muestra cuanto puede ser reducido la longitud de un texto en un idioma sin perder ninguna información.

Dado que la redundancia   nos indica el número de bits extra usados para codificar un mensaje (bits redundantes) y   es el número de bits para codificar un alfabeto de n símbolos letra a letra, entonces la relación   expresará porcentualmente que tan redundante es el lenguaje utilizado. Para el castellano tenemos   como porcentaje de redundancia

Métodos de cálculo

Se han usado distintos métodos para aproximarse al valor de la ratio de entropía de un idioma. Estos métodos se han aplicado habitualmente al idioma inglés pero, en general, esos métodos son aplicables a cualquier otro idioma obteniendo su propio valor aproximado. Vamos a ver los métodos propuestos más importantes y cuales han sido los resultados para el idioma inglés. El idioma inglés se suele considerar formado por un alfabeto de 27 símbolos (26 letras más el espacio en blanco).

Aproximación sucesiva

Shannon[2]​ describió un método para aproximarnos al cálculo de la ratio de un idioma basándose en el estudio de los n-gramas. Para ello Shannon propone una serie de lenguajes artificiales que convergen con el idioma y que van aproximándose cada vez más a él. En cada paso se van cogiendo más características del idioma pareciéndose cada vez más a él y por tanto la incertidumbre de cada símbolo, condicionada por el conocimiento de los anteriores, se va reduciendo. De esta forma va acotando paulatinamente la ratio del idioma. La serie de lenguajes artificiales que propone son los siguientes:

  • Aproximación de símbolos orden 0. En esta aproximación todos los símbolos son equiprobables e independientes. Por tanto el valor de ratio del idioma será igual a la ratio absoluta e igual a   y por tanto 4.76.
  • Aproximación de símbolos de orden 1. En esta aproximación tenemos símbolos independientes pero cada símbolo tendrá la misma probabilidad que el símbolo tiene en el idioma que se está trabajando, en este caso el inglés. El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 4.03
  • Aproximación de símbolos de orden 2. Es similar a la aproximación de orden 1 pero en lugar de aplicar la frecuencia de los símbolos se aplica la frecuencia de los digramas (secuencias de 2 símbolos) en el idioma. Es decir, dado un símbolo se calcula la probabilidad del siguiente en función de la probabilidad de los digramas que forma con el símbolo anterior. El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 3.9
  • Aproximación de símbolos de orden 3. Es similar a la aproximación de orden 2 pero en lugar de aplicar la frecuencia de los digramas se aplica la frecuencia de los trigramas (secuencias de 3 símbolos) en el idioma. Es decir, dado un símbolo se calcula la probabilidad del siguiente en función de la probabilidad de los trigramas que forma con los dos símbolo anteriores.
  • Aproximación de símbolos de orden 4. Es similar a la aproximación de orden 3 pero en lugar de aplicar la frecuencia de los trigramas se aplica la frecuencia de los tetragramas (secuencias de 4 símbolos) en el idioma. Es decir, dado un símbolo se calcula la probabilidad del siguiente en función de la probabilidad de los tetragramas que forma con los tres símbolo anteriores. Esta aproximación no fue propuesta por el documento original de Shannon. El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 2.8
  • Aproximación de palabras de orden 1. Se escogen palabras del inglés y la frecuencia de cada una es la que tiene cada palabra en el idioma.
  • Aproximación de palabras de orden 2. Se usa las probabilidades de transición entre palabras del idioma. Sin embargo no se incluye ninguna otra probabilidad en la estructura.

Sin embargo estos valores sólo sirven para acotar ya que no capturan toda la estructura del idioma, sólo capturan una parte (aunque cada vez más importante).

La aplicación de esta técnica de acotación se puede extender para acotar la ratio de entropía de otros tipos de fuentes de información. Por ejemplo, podríamos aplicarla a los distintos métodos de codificación de imágenes.

Estimación mediante el juego de adivinación de Shannon

Este método de estimación fue realizado por Shannon en 1950[3]​ obteniendo un valor de 1.3.

El método consiste en coger un ejemplo de texto suficientemente largo y preguntar sucesivamente a un humano que adivine la próxima letra. Si un sujeto contesta con un símbolo x podemos interpretar que el sujetoo estima que el símbolo x es el más probable en el contexto que está analizando. Si fallara contestaría con el siguiente más probable y así sucesivamente. El experimentador guarda el número de intentos necesitados para calcular cada siguiente carácter. Con los datos obtenidos se puede calcular la distribución empírica de la frecuencia del número de adivinaciones requeridas para calcular el siguiente carácter. Muchas letras requerirán sólo un intento, sin embargo otras serán más difíciles (por ejemplo las iniciales de palabras o frases).

Usando este método con distintos textos independientes podemos hacer una estimación de la ratio del idioma ya que podemos conjeturar que la entropía de las secuencia a adivinar es la entropía del idioma. Por tanto la entropía de la secuencia a adivinar está vinculada con la entropía del histograma construido contabilizando los intentos en el experimento.

Estimación mediante apuestas

En este enfoque hacemos que un sujeto humano apueste sobre la próxima letra de un texto en inglés. Esto permite ser más finos en la gradación de los juicios sobre la adivinación de la próxima letra. En este caso, la elección óptima es proporcional a la probabilidad condicional de la próxima letra. Como tenemos 27 símbolos entonces se pagará con la proporción 27 a 1 si se elige la letra correcta.

La apuesta de forma secuencial es equivalente a apostar sobre la secuencia completa. Por tanto la apuesta después de n letras puede ser escrita como:

 

donde  ) es la fracción de la ganancia del apostante en la secuencia.

Si asumimos que el sujeto conoce la distribución de probabilidad subyacente podemos estimar que:

 

siendo   la entropía. A partir de ahí se puede estimar la ratio de entropía

En un experimento[4]​ con 12 sujetos con un texto de 75 letras devolvió una estimación de 1.34 como ratio del idioma inglés.

Referencias

  • Thomas M. Cover, Joy A. Thomas,"Elements of Information Theory", John Wiley & Sons. Second Edition 2006
  • Jorge Ramió Aguirre, Aplicaciones criptográficas. Libro guía de la asignatura de Seguridad Informática. Escuela Universitaria de Informática. Universidad Politécnica de Madrid. Enero 1998.
  1. Denis Trček,"Managing information systems security and privacy", Springer-Verlag Berling Heidelberg 1996
  2. C. E. Shannon,"A Mathematical Theory of Communication",The Bell System Technical Journal Vol 27 pp. 379–423, 623–656, July, October, 1948
  3. C. E. Shannon, "Prediction and entropy of printed English". Bell Syst. Tech. J., 30:50–64, Enero 1951
  4. T. M. Cover and R. King. A convergent gambling estimate of the entropy of English. IEEE Trans. Inf. Theory, IT-24:413–421, 1978.
  •   Datos: Q1345213

ratio, entropía, ratio, entropía, secuencia, variables, aleatorias, proceso, estocástico, caracteriza, tasa, crecimiento, entropía, secuencia, crecimiento, tasa, entropía, proceso, estocástico, displaystyle, viene, definida, ecuación, displaystyle, infty, dfra. La ratio de entropia de una secuencia de n variables aleatorias proceso estocastico caracteriza la tasa de crecimiento de la entropia de la secuencia con el crecimiento de n La tasa de entropia de un proceso estocastico X i displaystyle X i viene definida por la ecuacion H X lim n 1 n H X 1 X N displaystyle H X lim n to infty dfrac 1 n H X 1 X N siempre que dicho limite exista Una cantidad relacionada con la ratio de entropia H X es H X lim n H X n X n 1 X n 1 X 1 displaystyle H X lim n to infty H X n X n 1 X n 1 X 1 cuando dicho limite existe H X mide la entropia condicional de la ultima variable aleatoria en funcion de todas las anteriores Para proceso estocasticos estacionarios se cumple H X H X Indice 1 Ejemplos 2 Ratio de un idioma 2 1 Metodos de calculo 2 1 1 Aproximacion sucesiva 2 1 2 Estimacion mediante el juego de adivinacion de Shannon 2 1 3 Estimacion mediante apuestas 3 ReferenciasEjemplos EditarConsideremos el caso de una maquina de escribir que tiene m teclas con igual probabilidad de ser tecleada Podemos decir que H X 1 X N log m n displaystyle H X 1 X N log m n y por tanto H X log m displaystyle H X log m Podemos generalizar si X i displaystyle X i es un proceso estocastico con variables aleatorias independientes e identicamente distribuida Entonces H X lim n H X 1 X N n lim n n H X 1 n H X 1 displaystyle H X lim n to infty dfrac H X 1 X N n lim n to infty dfrac nH X 1 n H X 1 Supongamos un proceso estocastico con variables aleatorias independientes pero no identicamente distribuidas Por tanto H X 1 X N i 1 n H X i displaystyle H X 1 X N sum i 1 n H X i Sin embargo depende de la distribucion de las variables aleatorias que exista o no el limite y por tanto la tasa de entropia Por ejemplo si definimos una secuencia binaria aleatoria en la que p i P X i 1 displaystyle p i P X i 1 no es constante sino una funcion de i de la formap i 0 5 displaystyle p i 0 5 si 2 k lt log log i 2 k 1 displaystyle 2k lt log log i leq 2k 1 p i 0 displaystyle p i 0 si 2 k 1 lt log log i 2 k 2 displaystyle 2k 1 lt log log i leq 2k 2 para k 0 1 2 dd Entonces H X no esta definida para este proceso Ratio de un idioma EditarUn idioma o lengua es un sistema de comunicacion verbal o gestual propio de una comunidad humana Podemos observar que en los idiomas existen letras conjuntos de letras y palabra mas comunes que otras La gramatica del idioma tambien restringe que palabras y en que orden se pueden encontrar Ademas el resto del mensaje el contexto tambien afecta a la probabilidad de aparicion de una palabra Por ejemplo si estamos en un contexto judicial y aparecen las letras im podemos determinar que la palabra impugnar es mas probable que la palabra imbecil En este caso podriamos decir que hay una probabilidad de las palabras condicionada por el contexto resto de palabras Por tanto podemos decir que los idiomas son ineficientes es decir contienen mucha redundancia No seria necesario usar todos los simbolos que usamos para expresar algo Por ejemplo si queremos transmitir el mensaje This is a suny day podriamos usar la expresion This is a suny dy de forma que el receptor nos entenderia igual 1 Esta es el fundamento en el que se basa el uso habitual de un monton de abreviaturas cuando la gente se comunica con SMSs Podemos considerar un idioma como un proceso estocastico X i displaystyle X i de variables aleatorias donde cada una tiene como valor un simbolo del lenguaje Debido a las caracteristicas vistas de los lenguajes y usando la entropia condicionada podemos decir H X 1 X n H X 1 H X 2 X 1 H X 3 X 1 X 2 H X n X 1 X n displaystyle H X 1 X n H X 1 H X 2 X 1 H X 3 X 1 X 2 H X n X 1 X n Definimos la ratio de entropia de un idioma vamos a denotar por R tambien llamada simplemente ratio del idioma como la ratio de entropia del proceso R H X lim n 1 n H X 1 X n displaystyle R H X lim n to infty dfrac 1 n H X 1 X n Es decir la ratio de entropia de un idioma es el limite de la entropia de un ejemplo de texto en el idioma cuando la longitud del texto se hace muy grande La ratio de un idioma la podemos interpretar como la cantidad de informacion que contiene cada letra de nuestro alfabeto En otras palabras si un alfabeto consta de L elementos existiran 2 log 2 N N displaystyle 2 log 2 N N mensajes posibles de longitud N Sin embargo como los mensajes son redundante solo obtendremos 2 r N displaystyle 2 r N con r la ratio del idioma mensajes que tengan sentidoPara el castellano se estima que el ratio esta entre 1 2 y 1 5 Para el ingles se estima en torno al 1 3 Se llama ratio absoluta vamos a denotar por R 0 displaystyle R 0 de un idioma al valor maximo que puede tener la ratio de un idioma Es decir si tenemos un idioma con n simbolos la ratio maxima del idioma sera aquel en el que todos los simbolos son equiprobables e independientes Por tanto R 0 log 2 n displaystyle R 0 log 2 n Este valor identifica el maximo numero de bits que pueden ser codificados con cada caracter simbolo asumiendo que cada caracter de la secuencia es equiprobable Se llama redundancia de un idioma vamos a denotar por D displaystyle D a la diferencia entre la ratio absoluta y la ratio de un idioma Por tanto D R 0 R displaystyle D R 0 R Este valor muestra cuanto puede ser reducido la longitud de un texto en un idioma sin perder ninguna informacion Dado que la redundancia D displaystyle D nos indica el numero de bits extra usados para codificar un mensaje bits redundantes y R 0 displaystyle R 0 es el numero de bits para codificar un alfabeto de n simbolos letra a letra entonces la relacion D R displaystyle D R expresara porcentualmente que tan redundante es el lenguaje utilizado Para el castellano tenemos 68 42 lt D R 0 lt 74 73 displaystyle 68 42 lt D R 0 lt 74 73 como porcentaje de redundancia Metodos de calculo Editar Se han usado distintos metodos para aproximarse al valor de la ratio de entropia de un idioma Estos metodos se han aplicado habitualmente al idioma ingles pero en general esos metodos son aplicables a cualquier otro idioma obteniendo su propio valor aproximado Vamos a ver los metodos propuestos mas importantes y cuales han sido los resultados para el idioma ingles El idioma ingles se suele considerar formado por un alfabeto de 27 simbolos 26 letras mas el espacio en blanco Aproximacion sucesiva Editar Shannon 2 describio un metodo para aproximarnos al calculo de la ratio de un idioma basandose en el estudio de los n gramas Para ello Shannon propone una serie de lenguajes artificiales que convergen con el idioma y que van aproximandose cada vez mas a el En cada paso se van cogiendo mas caracteristicas del idioma pareciendose cada vez mas a el y por tanto la incertidumbre de cada simbolo condicionada por el conocimiento de los anteriores se va reduciendo De esta forma va acotando paulatinamente la ratio del idioma La serie de lenguajes artificiales que propone son los siguientes Aproximacion de simbolos orden 0 En esta aproximacion todos los simbolos son equiprobables e independientes Por tanto el valor de ratio del idioma sera igual a la ratio absoluta e igual a log 2 27 displaystyle log 2 27 y por tanto 4 76 Aproximacion de simbolos de orden 1 En esta aproximacion tenemos simbolos independientes pero cada simbolo tendra la misma probabilidad que el simbolo tiene en el idioma que se esta trabajando en este caso el ingles El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 4 03 Aproximacion de simbolos de orden 2 Es similar a la aproximacion de orden 1 pero en lugar de aplicar la frecuencia de los simbolos se aplica la frecuencia de los digramas secuencias de 2 simbolos en el idioma Es decir dado un simbolo se calcula la probabilidad del siguiente en funcion de la probabilidad de los digramas que forma con el simbolo anterior El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 3 9 Aproximacion de simbolos de orden 3 Es similar a la aproximacion de orden 2 pero en lugar de aplicar la frecuencia de los digramas se aplica la frecuencia de los trigramas secuencias de 3 simbolos en el idioma Es decir dado un simbolo se calcula la probabilidad del siguiente en funcion de la probabilidad de los trigramas que forma con los dos simbolo anteriores Aproximacion de simbolos de orden 4 Es similar a la aproximacion de orden 3 pero en lugar de aplicar la frecuencia de los trigramas se aplica la frecuencia de los tetragramas secuencias de 4 simbolos en el idioma Es decir dado un simbolo se calcula la probabilidad del siguiente en funcion de la probabilidad de los tetragramas que forma con los tres simbolo anteriores Esta aproximacion no fue propuesta por el documento original de Shannon El valor de la ratio de este lenguaje se ha calculado y es aproximadamente 2 8 Aproximacion de palabras de orden 1 Se escogen palabras del ingles y la frecuencia de cada una es la que tiene cada palabra en el idioma Aproximacion de palabras de orden 2 Se usa las probabilidades de transicion entre palabras del idioma Sin embargo no se incluye ninguna otra probabilidad en la estructura Sin embargo estos valores solo sirven para acotar ya que no capturan toda la estructura del idioma solo capturan una parte aunque cada vez mas importante La aplicacion de esta tecnica de acotacion se puede extender para acotar la ratio de entropia de otros tipos de fuentes de informacion Por ejemplo podriamos aplicarla a los distintos metodos de codificacion de imagenes Estimacion mediante el juego de adivinacion de Shannon Editar Este metodo de estimacion fue realizado por Shannon en 1950 3 obteniendo un valor de 1 3 El metodo consiste en coger un ejemplo de texto suficientemente largo y preguntar sucesivamente a un humano que adivine la proxima letra Si un sujeto contesta con un simbolo x podemos interpretar que el sujetoo estima que el simbolo x es el mas probable en el contexto que esta analizando Si fallara contestaria con el siguiente mas probable y asi sucesivamente El experimentador guarda el numero de intentos necesitados para calcular cada siguiente caracter Con los datos obtenidos se puede calcular la distribucion empirica de la frecuencia del numero de adivinaciones requeridas para calcular el siguiente caracter Muchas letras requeriran solo un intento sin embargo otras seran mas dificiles por ejemplo las iniciales de palabras o frases Usando este metodo con distintos textos independientes podemos hacer una estimacion de la ratio del idioma ya que podemos conjeturar que la entropia de las secuencia a adivinar es la entropia del idioma Por tanto la entropia de la secuencia a adivinar esta vinculada con la entropia del histograma construido contabilizando los intentos en el experimento Estimacion mediante apuestas Editar En este enfoque hacemos que un sujeto humano apueste sobre la proxima letra de un texto en ingles Esto permite ser mas finos en la gradacion de los juicios sobre la adivinacion de la proxima letra En este caso la eleccion optima es proporcional a la probabilidad condicional de la proxima letra Como tenemos 27 simbolos entonces se pagara con la proporcion 27 a 1 si se elige la letra correcta La apuesta de forma secuencial es equivalente a apostar sobre la secuencia completa Por tanto la apuesta despues de n letras puede ser escrita como S n 27 n b X 1 X 2 X n displaystyle S n 27 n b X 1 X 2 X n donde b X 1 X 2 X n displaystyle b X 1 X 2 X n es la fraccion de la ganancia del apostante en la secuencia Si asumimos que el sujeto conoce la distribucion de probabilidad subyacente podemos estimar que H n X log 2 27 1 n log S n displaystyle H n X leq log 2 27 dfrac 1 n log S n siendo H n X displaystyle H n X la entropia A partir de ahi se puede estimar la ratio de entropiaEn un experimento 4 con 12 sujetos con un texto de 75 letras devolvio una estimacion de 1 34 como ratio del idioma ingles Referencias EditarThomas M Cover Joy A Thomas Elements of Information Theory John Wiley amp Sons Second Edition 2006 Jorge Ramio Aguirre Aplicaciones criptograficas Libro guia de la asignatura de Seguridad Informatica Escuela Universitaria de Informatica Universidad Politecnica de Madrid Enero 1998 Denis Trcek Managing information systems security and privacy Springer Verlag Berling Heidelberg 1996 C E Shannon A Mathematical Theory of Communication The Bell System Technical Journal Vol 27 pp 379 423 623 656 July October 1948 C E Shannon Prediction and entropy of printed English Bell Syst Tech J 30 50 64 Enero 1951 T M Cover and R King A convergent gambling estimate of the entropy of English IEEE Trans Inf Theory IT 24 413 421 1978 Datos Q1345213Obtenido de https es wikipedia org w index php title Ratio de entropia amp oldid 122896559, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos