jueves, 28 de noviembre de 2013

Teoría de la información

Supongamos el mensaje siguiente (puede ser una muestra de especies):
"hhhhdggfsjjujjjakks"
Contabilizamos el número de veces que aparece cada letra en el mensaje :
h->4
d->1
g->2
f->1
s->2
j->5
u->1
a->1
k->2
Total=19
La probabilidad de cada letra es:
p(h)=4/19
p(d)=1/19
p(g)=2/19
p(f)=1/19
p(s)=2/19
p(j)=5/19
p(u)=1/19
p(a)=1/19
p(k)=2/19
Calculando la información que aporta cada letra con el -log2(pi) según Shannon:
-log2(p(h))=-lo2(4/19)=2'25
-log2(p(d))=-log2(1/19)=4'25
-log2(p(g))=-log2(2/19)=3'25
-log2(p(f))=-log2(1/19)=4,25
-log2(p(s))=-log2(2/19)=3,25
-log2(p(j))=-log2(5/19)=1,93
-log2(p(u))=-log2(1/19)=4'25
-log2(p(a))=-log2(1/19)=4'25
-log2(p(k))=-log2(2/19)=3'25
Es una medida de la información que aporta cada letra, las que aparecen poco aportan más información y, las que aparecen más, menos información. Las unidades de información son bits. Esto significa que si aparece una j ya sabemos que está, la segunda vez ya la conocemos y así hasta la quinta vez (es una especie menos valiosa porque está repetida). Si hay ruido tenemos bastante certeza de que nos llegue (en otra muestra en el lugar es fácil volver a encontrar la especie j).
Ahora promediamos la información que hay en el mensaje con las probabilidades de aparecer.
H=2'25(4/19)+4'25(1/19)+3'25(2/19)+4'25(1/19)+3'25(2/19)+1'93(5/19)+4'25(1/19)+4'25(1/19)+3'25(2/19)=2'55
El mensaje tiene un información promedio de 2'55 bits por letra. Cuantas más letras e igualmente repartidas más información hay. En este caso tenemos una información equivalente a repartir 5'85.. letras entre las 19 del mensaje con frecuencia 3'24.. veces, usando para codificarlas 2'55 dígitos.