• Nebyly nalezeny žádné výsledky

Informační entropie

N/A
N/A
Protected

Academic year: 2022

Podíl "Informační entropie"

Copied!
37
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Informační entropie

Andrew Kozlík

KA MFF UK

(2)

Informační entropie

Definice

Nechť X : Ω→Aje diskrétní náhodná veličina.

Potom entropie náhodné veličiny X je definována jako H(X) :=−X

a∈A

Pr(X=a)·log2Pr(X=a),

kde předepisujeme 0·log20:=0.

Ospravedlnění předpisu pro 0:

I Limitním chováním: limz→0+zlog2z =0.

I Selským rozumem: Je-li X=a nemožný jev, pak by neměl zvyšovat míru nejistoty.

(3)

Vyloučení nemožných jevů

Úmluva

Nechť X : Ω→Aje diskrétní náhodná veličina.

Budeme předpokládat, že Pr(X=a)6=0 pro všechna a ∈A.

Ospravedlnění

Pokud X nesplňuje předpoklad, pak lze definovat novou

náhodnou veličinu X0, která jej splňuje a přitom H(X) = H(X0):

I Zadefinujeme A0 :={a∈A: Pr(X=a)6=0}.

I Zadefinujeme zúžení X0 :=X|A0.

(4)

Shannonova věta o kódování zdroje

I Entropie diskrétní náhodné veličiny je dolní mez na průměrnou délku kteréhokoliv jejího prostého kódování.

I Vždy existuje prosté kódování, kterým se lze přiblížit k této dolní mezi libovolně blízko.

(Je však třeba kódovat více výsledků najednou.)

(5)

Vlastnosti entropie

H(X) =−X

a∈A

Pr(X=a)·log2Pr(X=a)

Pozorování

I Má-li X rovnoměrné rozdělení, pak H(X) =−X

a∈A

1

|A|log2 1

|A| = log2|A|.

V případě |A|=2k tak dostáváme H(X) =k.

I Existuje-li a0 ∈Atakové, že Pr(X=a0) =1, pak H(X) =−1·log21=0.

Jinými slovy, je-li výsledek jistý, pak je entropie nulová.

(6)

Huffmanovo kódování náhodné veličiny

Máme náhodnou veličinu X : Ω→A.

I Prvkům z A přiřazujeme kódy z {0,1}. I Vlastnosti Huffmanova kódování:

I Je prosté.

I Průměrná délka zakódovaného prvku leží v intervalu [H(X),H(X) +1).

Příklad

Mějme A={1,2,3,4,5,6}a rozdělení pravděpodobnosti:

a 1 2 3 4 5 6

Pr(X=a) 0,05 0,10 0,15 0,12 0,13 0,45

(7)

Huffmanovo kódování

I Sestrojíme binární strom.

I Listy budou prvky z A.

I Váha listu x ∈Abude Pr(X=a).

I Váha vnitřního vrcholu bude součet vah jeho podvrcholů.

I Na začátku máme množinu vrcholů A bez hran.

(Každý z nich je kořen jednoprvkového stromu.) I Zvolíme dva nejlehčí kořeny a připojíme je pod nový

kořenový vrchol. Opakujeme dokud nezůstane jediný kořen.

I Pro každý vrchol označíme jednu vycházející hranu symbolem 0 a druhou symbolem 1.

I Huffmanův kód h(a) určíme tak, že přečteme symboly na cestě od kořene k listu a.

(8)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(9)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(10)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15

0,25 0,30

0,55

1,00

0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(11)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15

0,25 0,30

0,55

1,00

0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(12)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(13)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(14)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30

0,55

1,00

0 1 0 1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(15)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30

0,55

1,00

0 1 0 1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(16)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(17)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(18)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(19)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(20)

Entropie a střední délka kódu

a Pr(X=a) h(a) log2Pr(X=a) 1 0,05 0000 −4,32 2 0,10 0001 −3,32 3 0,15 001 −2,74 4 0,12 010 −3,06 5 0,13 011 −2,94 6 0,45 1 −1,15

I Délka kódu `(h(a)) je přibližně rovna−log2Pr(X=a).

I Srovnání entropie a střední délky kódu:

H(X) = −X

a∈A

Pr(X=a)·log2Pr(X=a)≈2,23

E`(h(X)) = X

a∈A

Pr(X=a)·`(h(a)) =2,25.

(21)

Věta (Jensenova nerovnost)

Nechť

I f :I →R je ryze konkávní funkce na intervalu I , I x1, . . . ,xn∈I ,

I λ1, . . . , λn ∈(0,∞), I Pn

i=1λi =1.

Potom

n

X

i=1

λif(xi)≤f n

X

i=1

λixi

,

přičemž rovnost nastává právě tehdy, když x1 =x2 =· · ·=xn.

Důkaz.

I V případě n =2 se jedná o definici ryze konkávní funkce.

I Dále postupujeme indukcí podle n.

(22)

Věta (o maximální entropii)

Nechť X : Ω→A je diskrétní náhodná veličina.

Potom

H(X)≤log2|A|,

přičemž rovnost nastává, právě když X má rovnoměrné rozdělení.

Důkaz.

Využijeme Jensenovu nerovnost s f = log2. H(X) = X

a∈A

Pr(X=a)

| {z }

„λiÿ

·log2 1 Pr(X=a)

| {z }

„xiÿ

≤log2X

a∈A

1.

Ověření předpokladů:

I Funkce log2 je ryze konkávní na (0,∞).

I Podle úmluvy je Pr(X=a)6=0 pro všechna a∈A.

I P

a∈APr(X=a) =1.

(23)

Sdružená entropie

Definice

Nechť X : Ω→Aa Y : Ω→B jsou diskrétní náhodné veličiny.

I Kartézský součin veličin X a Y definujeme jako (X,Y) : Ω→A×B

ω7→(X(ω),Y(ω)).

I Sdruženou entropii veličin X a Y definujeme jako entropii jejich kartézského součinu a značíme ji H(X,Y).

Pozorování

Pro libovolná a∈A a b∈B platí Pr((X,Y)=(a,b))

= Pr({ω∈Ω :X(ω) = a,Y(ω) = b})

= Pr({ω∈Ω :X(ω) = a} ∩ {ω ∈Ω :Y(ω) = b})

= Pr(X=a,Y=b).

(24)

Sdružená entropie

I Sdruženou entropii lze rozepsat H(X,Y) = −X

(a,b)∈A×B

Pr((X,Y)=(a,b)) log2Pr((X,Y)=(a,b))

=−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a,Y=b).

I Kartézský součin a sdruženou entropii lze přirozeným způsobem rozšířit na více veličin.

I V zápisu sdružené entropie nezáleží na pořadí veličin, ani na jejich případném uzávorkování, např.:

H(X,Y,Z) = H(X,(Y,Z)) = H((Z,X),Y).

(25)

Věta (o sdružené entropii)

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom

H(X,Y)≤H(X) + H(Y),

přičemž rovnost nastává, právě když X a Y jsou nezávislé.

Důkaz.

Mapa důkazu:

1. Dokážeme H(X,Y)−H(X)−H(Y)≤0.

2. Dokážeme, že jsou-li X a Y nezávislé, pak nastává rovnost.

3. Dokážeme, že nastává-li rovnost, pak

Pr(X=a) Pr(Y=b) = Pr(X=a,Y=b) pro všechna a a b taková, že

(a) Pr(X=a,Y=b)6=0, (b) Pr(X=a,Y=b) =0,

(26)

Příprava důkazu

Definici entropie rozepíšeme podle důsledku věty o úplné pravděpodobnosti:

H(X) = −X

a∈A

Pr(X=a) log2Pr(X=a)

=−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a).

Stejně tak pro Y: H(Y) = −X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(Y=b).

(27)

Příprava důkazu

H(X,Y)−H(X)−H(Y)

=−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a,Y=b) +X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a) +X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(Y=b)

=

X

a∈A, b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) log2 Pr(X=a) Pr(Y=b) Pr(X=a,Y=b)

Sčítance, ve kterých Pr(X=a,Y=b) = 0, můžeme vynechávat.

(28)

Krok 1 důkazu

Aplikujeme Jensenovu nerovnost sf = log2: H(X,Y)−H(X)−H(Y)

= X

a∈A, b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) log2 Pr(X=a) Pr(Y=b) Pr(X=a,Y=b)

≤log2 X

a∈A, b∈B Pr(X=a,Y=b)6=0

Pr(X=a) Pr(Y=b)

≤log2X

a∈A b∈B

Pr(X=a) Pr(Y=b)

= log2X

a∈A

Pr(X=a)X

b∈B

Pr(Y=b)

= log2X

a∈A

Pr(X=a) = log21=0.

(29)

Krok 2 důkazu

I Předpokládejme, že X a Y jsou nezávislé,

tj. Pr(X=a,Y=b) = Pr(X=a) Pr(Y=b) pro všechna a a b.

I H(X,Y)−H(X)−H(Y)

= X

a∈A,b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) log2 Pr(X=a) Pr(Y=b) Pr(X=a,Y=b)

= X

a∈A,b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) log21

=0

(30)

Krok 3 důkazu, část (a)

I Předpokládejme, že H(X,Y)−H(X)−H(Y) =0.

I Potom v Jensenově nerovnosti nastává rovnost:

0= X

a∈A, b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) log2Pr(X=a) Pr(Y=b) Pr(X=a,Y=b)

≤log2 X

a∈A,b∈B Pr(X=a,Y=b)6=0

Pr(X=a) Pr(Y=b)≤0.

I Podle věty o Jensenově nerovnosti je hodnota zlomku stejná pro všechna a a b, přes která sčítáme.

I Označme tuto hodnotu c. Potom:

0= X

a∈A,b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) log2c.

I Zřejmě musí být c =1.

(31)

Krok 3 důkazu

I Dokázali jsme, že

Pr(X=a) Pr(Y=b) Pr(X=a,Y=b) =1

pro všechna a a b taková, že Pr(X=a,Y=b)6=0.

I Zbývá dokázat rovnost i pro případy Pr(X=a,Y=b) = 0.

I Ukážeme, že

Pr(X=a) Pr(Y=b) = 0

pro všechna a a b taková, že Pr(X=a,Y=b) = 0.

(32)

Krok 3 důkazu, část (b)

Číslo 1 rozepíšeme dvěma způsoby:

1= X

a∈A,b∈B

Pr(X=a) Pr(Y=b)

1= X

a∈A,b∈B Pr(X=a,Y=b)6=0

Pr(X=a,Y=b) = X

a∈A,b∈B Pr(X=a,Y=b)6=0

Pr(X=a) Pr(Y=b)

Využíváme výsledek z části (a) Odečtením rovnic dostaneme:

0= X

a∈A, b∈B Pr(X=a,Y=b)=0

Pr(X=a) Pr(Y=b).

Čili Pr(X=a) Pr(Y=b) =0 pro všechna a a b taková, že Pr(X=a,Y=b) = 0.

(33)

Podmíněná entropie

Definice

Nechť

I X : Ω→Aa Y : Ω→B jsou diskrétní náhodné veličiny a I E ⊆Ωje jev takový, že Pr(E)6=0.

Entropii veličiny X podmíněnou jevem E definujeme jako H(X |E) :=−X

a∈A

Pr(X=a |E) log2Pr(X=a |E).

Podmíněnou entropii H(X |Y) definujeme jako H(X |Y) :=X

b∈B

Pr(Y=b) H(X |Y=b).

(34)

Tvrzení

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom H(X |Y) = H(X,Y)−H(Y).

Důkaz.

Definici podmíněné entropie můžeme rozepsat H(X |Y)

=−X

b∈B

Pr(Y=b)X

a∈A

Pr(X=a |Y=b) log2Pr(X=a|Y=b)

=−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a|Y=b).

(35)

Pokračování důkazu

I Máme tedy

H(X |Y) =−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a |Y=b).

I V důkazu věty o sdružené entropii jsme měli H(Y) =−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(Y=b).

I Spojením rovností dostáváme H(X |Y) + H(Y)

=−X

a∈A

X

b∈B

Pr(X=a,Y=b) log2Pr(X=a |Y=b) Pr(Y=b)

| {z }

Pr(X=a,Y=b)

= H(X,Y).

(36)

Pozorování

Podle poslední věty a posledního tvrzení platí:

0 ≤ H(X |Y) = H(X,Y)−H(Y) ≤ H(X), Rovnost nastává, právě když X a Y jsou nezávislé.

Důsledek

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom:

1. H(X |Y)≤H(X),

přičemž rovnost nastává, právě když X a Y jsou nezávislé.

2. H(Y)≤H(X,Y).

(37)

Definice

Nechť X : Ω→Aa Y : Ω→B jsou diskrétní náhodné veličiny.

Vzájemnou informaci definujeme jako

I(X;Y) = H(X) + H(Y)−H(X,Y).

Tvrzení

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom

1. I(X;Y) =I(Y;X);

2. I(X;Y) = H(X)−H(X |Y) = H(Y)−H(Y |X);

3. I(X;Y)≥0,

přičemž rovnost nastává, právě když X a Y jsou nezávislé.

Odkazy

Související dokumenty

a) uvede do žádosti o akreditaci studijního programu návrh kódu klasifikace vzdělání ISCED-F 2013 spolu s. krátkým

Poissonovým rozdělením lze velmi dobře aproximovat binomické rozdělení pro případ, že počet pokusů je dostatečně velký a pravděpodobnost výskytu události (úspěchu)

Nechť náhodná veličina modelující IQ (inteligenční kvocient) evropské populace má normální rozdělení se střední hodnotou 100 bodů a směrodatnou odchylkou 15 bodů.. a)

Na základě náčrtku hustoty pravděpodobnosti odhadněte a následně za pomocí tabulky distribuční funkce normované normální náhodné veličiny

Jiří Neubauer Modely diskrétní náhodné veličiny.. Hodnoty pravděpodobnostní funkce Poissonova rozdělení jsou pro některé hodnoty λ tabelovány.?. Jiří Neubauer

Většina lidí má podprůměrnou mzdu, průměr táhnou nahoru ti, kteří mají velmi vysokou mzdu.... čtvrtletí 2020 byla 34271 Kč (odpovídá

Wagnerův hraniční index, morfometrické metody, analýza kvadrátů, míra entropie, index nejbližšího souseda, index proximity.. metody prostorového a neprostorového

Jestli-že každému prvku v jeho krystalickém stavu přiřadíme při teplotě absolutní nuly nulovou hodnotu entropie, pak entropie každé látky bude mít kladnou hodnotu; pro