• Nebyly nalezeny žádné výsledky

Informační entropie

N/A
N/A
Protected

Academic year: 2022

Podíl "Informační entropie"

Copied!
28
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Informační entropie

Andrew Kozlík

KA MFF UK

(2)

Házení mincí

Experiment: k-krát po sobě hodíme mincí a výsledky hodů zaznamenáme jako posloupnost hodnot 0 (rub) a 1 (líc).

1001101. . .01

I Dostaneme posloupnost z množiny {0,1}k.

I Každá z možných posloupností má pravděpodobnost 2−k. I Zřejmě jde o nejkompaktnější možný zápis výsledků mezi

všemi zápisy, které využívají symboly {0,1}.

I Můžeme říct:

I „Informační hodnota zápisu je k bitů.ÿ

I „Náhodná veličina s rovnoměrným rozdělením na množině {0,1}k má míru nejistotyk bitů.ÿ

(3)

Házení dvěma mincemi

Experiment: k-krát po sobě hodíme dvěmanerozlišitelnými mincemi současně.

Zaznamenáme výsledky hodů:

Výsledek Pravděpodobnost Kód

rub a rub 1/4 00

rub a líc 1/2 01

líc a líc 1/4 11

Například:

01 00 11 01 01=0100110101 I Záznam bude mít délku 2k.

I Nevyužíváme plně kapacitu zápisu, protože kód 10 se nepoužije.

I Například posloupnost 011001 je neplatná.

(4)

Lepší záznam házení dvěma mincemi

Výsledek (rub a líc) má dvakrát vyšší pravděpodobnost výskytu než ostatní výsledky. Měl by mít kratší zápis:

Výsledek Pravděpodobnost Kód A Kód B

rub a rub 1/4 10 00

rub a líc 1/2 1 1

líc a líc 1/4 01 01

Kód A má problém: 10 1=101=1 01 Kód B funguje dobře: 00 1=001=00 1 U kódování B lze poznat, kde každý kód končí:

I Kód začínající symbolem 0 má vždy délku dvou symbolů.

I Kód začínající symbolem 1 má délku jednoho symbolu.

I Například 011001=01 1 00 1.

(5)

Vlastnosti kódování B

I Z každé posloupnosti lze jednoznačně rekonstruovat výsledky hodů. Říkáme, že toto kódování je prosté.

I Délka výsledné posloupnosti nebude jednoznačně určena počtem hodů k.

I Víme, že délka záznamu bude ležet v intervalu [k,2k].

I Průměrná délka záznamu bude 14k·2+12k·1+14k·2= 32k.

I Dá se ukázat, že toto kódování je z hlediska délky optimální.

I Průměrné množství informace získané z jednoho hodu dvěma nerozlišitelnými mincemi je tedy 1,5 bitů.

(6)

Informační entropie

Definice

Nechť X : Ω→Aje diskrétní náhodná veličina.

Potom entropie náhodné veličiny X je definována jako H(X) :=−X

a∈A

Pr(X=a)·log2Pr(X=a),

kde předepisujeme 0·log20:=0.

Ospravedlnění předpisu pro 0:

I Limitním chováním: limz→0+zlog2z =0.

I Selským rozumem: Je-li X=a nemožný jev, pak by neměl zvyšovat míru nejistoty.

(7)

Shannonova věta o kódování zdroje

I Entropie diskrétní náhodné veličiny je dolní mez na průměrnou délku kteréhokoliv jejího prostého kódování.

I Vždy existuje prosté kódování, kterým se lze přiblížit k této dolní mezi libovolně blízko.

(Je však třeba kódovat více výsledků najednou.)

(8)

Vlastnosti entropie

H(X) =−X

a∈A

Pr(X=a)·log2Pr(X=a)

Pozorování

I Má-li X rovnoměrné rozdělení, pak H(X) =−X

a∈A

1

|A|log2 1

|A| = log2|A|.

V případě |A|=2k tak dostáváme H(X) =k.

I Existuje-li a0 ∈Atakové, že Pr(X=a0) =1, pak H(X) =−1·log21=0.

Jinými slovy, je-li výsledek jistý, pak je entropie nulová.

(9)

Huffmanovo kódování náhodné veličiny

Máme náhodnou veličinu X : Ω→A.

I Prvkům z A přiřazujeme kódy z {0,1}. I Vlastnosti Huffmanova kódování:

I Je prosté.

I Průměrná délka zakódovaného prvku leží v intervalu [H(X),H(X) +1).

Příklad

Mějme A={1,2,3,4,5,6}a rozdělení pravděpodobnosti:

a 1 2 3 4 5 6

Pr(X=a) 0,05 0,10 0,15 0,12 0,13 0,45

(10)

Huffmanovo kódování

I Sestrojíme binární strom.

I Listy budou prvky z A.

I Váha listu x ∈Abude Pr(X=a).

I Váha vnitřního vrcholu bude součet vah jeho podvrcholů.

I Na začátku máme množinu vrcholů A bez hran.

(Každý z nich je kořen jednoprvkového stromu.) I Zvolíme dva nejlehčí kořeny a připojíme je pod nový

kořenový vrchol. Opakujeme dokud nezůstane jediný kořen.

I Pro každý vrchol označíme jednu vycházející hranu symbolem 0 a druhou symbolem 1.

I Huffmanův kód h(a) určíme tak, že přečteme symboly na cestě od kořene k listu a.

(11)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(12)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(13)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15

0,25 0,30

0,55

1,00

0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(14)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15

0,25 0,30

0,55

1,00

0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(15)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(16)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(17)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30

0,55

1,00

0 1 0 1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(18)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30

0,55

1,00

0 1 0 1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(19)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(20)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(21)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(22)

Huffmanův algoritmus.

0,05 1

0,10 2

0,15 3

0,12 4

0,13 5

0,45 6

0,15 0,25

0,30 0,55

1,00

0 1 0 1

0

1

0

1

0

1

a h(a) 1 0000 2 0001 3 001 4 010 5 011 6 1

(23)

Entropie a střední délka kódu

a Pr(X=a) h(a) log2Pr(X=a) 1 0,05 0000 −4,32 2 0,10 0001 −3,32 3 0,15 001 −2,74 4 0,12 010 −3,06 5 0,13 011 −2,94

6 0,45 1 −1,15

I Délka kódu `(h(a)) je přibližně rovna−log2Pr(X=a).

I Srovnání entropie a střední délky kódu:

H(X) = −X

a∈A

Pr(X=a)·log2Pr(X=a)≈2,23

E`(h(X)) = X

a∈A

Pr(X=a)·`(h(a)) =2,25.

(24)

Věta (Jensenova nerovnost)

Nechť

I f :I →R je ryze konkávní funkce na intervalu I , I x1, . . . ,xn∈I ,

I λ1, . . . , λn ∈(0,∞), I Pn

i=1λi =1.

Potom

n

X

i=1

λif(xi)≤f n

X

i=1

λixi

,

přičemž rovnost nastává právě tehdy, když x1 =x2 =· · ·=xn.

Důkaz.

I V případě n =2 se jedná o definici ryze konkávní funkce:

λ1f(x1) +λ2f(x2)<f(λ1x12x2),λ12 =1, x1 6=x2. I Dále postupujeme indukcí podle n.

(25)

Věta (o maximální entropii)

Nechť X : Ω→A je diskrétní náhodná veličina.

Potom

H(X)≤log2|A|,

přičemž rovnost nastává, právě když X má rovnoměrné rozdělení.

Důkaz.

Využijeme Jensenovu nerovnost s f = log2. H(X) = X

a∈A

Pr(X=a)

| {z }

„λiÿ

·log2 1 Pr(X=a)

| {z }

„xiÿ

≤log2X

a∈A

1.

Ověření předpokladů:

I Funkce log2 je ryze konkávní na (0,∞).

I P

a∈APr(X=a) =1.

(26)

Sdružená entropie

Definice

Nechť X : Ω→Aa Y : Ω→B jsou diskrétní náhodné veličiny.

I Kartézský součin veličin X a Y definujeme jako (X,Y) : Ω→A×B

ω7→(X(ω),Y(ω)).

I Sdruženou entropii veličin X a Y definujeme jako entropii jejich kartézského součinu a značíme ji H(X,Y).

Věta (o sdružené entropii)

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom

H(X,Y)≤H(X) + H(Y),

přičemž rovnost nastává, právě když X a Y jsou nezávislé.

(27)

Podmíněná entropie

Definice

Nechť

I X : Ω→Aa Y : Ω→B jsou diskrétní náhodné veličiny a I E ⊆Ωje jev takový, že Pr(E)6=0.

Entropii veličiny X podmíněnou jevem E definujeme jako H(X |E) :=−X

a∈A

Pr(X=a |E) log2Pr(X=a |E).

Podmíněnou entropii H(X |Y) definujeme jako H(X |Y) :=X

b∈B

Pr(Y=b) H(X |Y=b).

(28)

Tvrzení

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom H(X |Y) = H(X,Y)−H(Y).

Pozorování

Podle tohoto tvrzení a věty o sdružené entropii platí:

0 ≤ H(X |Y) = H(X,Y)−H(Y) ≤ H(X), Rovnost nastává, právě když X a Y jsou nezávislé.

Důsledek

Nechť X : Ω→A a Y : Ω→B jsou diskrétní náhodné veličiny.

Potom:

1. H(X |Y)≤H(X),

přičemž rovnost nastává, právě když X a Y jsou nezávislé.

2. H(Y)≤H(X,Y).

Odkazy

Související dokumenty

Wagnerův hraniční index, morfometrické metody, analýza kvadrátů, míra entropie, index nejbližšího souseda, index proximity.. metody prostorového a neprostorového

Poissonovým rozdělením lze velmi dobře aproximovat binomické rozdělení pro případ, že počet pokusů je dostatečně velký a pravděpodobnost výskytu události (úspěchu)

Nechť náhodná veličina modelující IQ (inteligenční kvocient) evropské populace má normální rozdělení se střední hodnotou 100 bodů a směrodatnou odchylkou 15 bodů.. a)

Na základě náčrtku hustoty pravděpodobnosti odhadněte a následně za pomocí tabulky distribuční funkce normované normální náhodné veličiny

Jiří Neubauer Modely diskrétní náhodné veličiny.. Hodnoty pravděpodobnostní funkce Poissonova rozdělení jsou pro některé hodnoty λ tabelovány.?. Jiří Neubauer

a) uvede do žádosti o akreditaci studijního programu návrh kódu klasifikace vzdělání ISCED-F 2013 spolu s. krátkým

Jestli-že každému prvku v jeho krystalickém stavu přiřadíme při teplotě absolutní nuly nulovou hodnotu entropie, pak entropie každé látky bude mít kladnou hodnotu; pro

Většina lidí má podprůměrnou mzdu, průměr táhnou nahoru ti, kteří mají velmi vysokou mzdu.... čtvrtletí 2020 byla 34271 Kč (odpovídá