• Nebyly nalezeny žádné výsledky

Dobývání znalostí

N/A
N/A
Protected

Academic year: 2022

Podíl "Dobývání znalostí"

Copied!
20
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Dobývání znalostí

Doc. RNDr. Iveta Mrázová, CSc.

Katedra teoretické informatiky

Matematicko-fyzikální fakulta

Univerzity Karlovy v Praze

(2)

Genetické algoritmy (GA)

D Holland 60. roky 20. stor.

Š Populácia umelých chromozómov sa cyklicky podrobuje

„ selektívnej reprodukcii preferujúcej výkonnejších jedincov a

„ náhodným zmenám

Š Umelý chromozóm (genotyp) = reťazec symbolov kódujúci vlastnosti jedinca (fenotyp)

„ napr. binárna hodnota premennej alebo postupnosť hodnôt premenných

„ mnoho typov kódovaní

z binárne, Greyov kód, reálne hodnoty

„ abecedy – napr. binárna, ternárna, …

I. Mrázová: Dobývání znalostí 2

(3)

GA – fitness funkcia

Š Fitness funkcia (účelová, cieľová funkcia) – kritérium výkonnosti, zobrazenie: genotyp → reálne (celé) číslo

„

čím vyššia hodnota, tým je jedinec lepší

I. Mrázová: Dobývání znalostí 3

R Φ : genotyp

M

Φ( x )

populácia fitness

12 8 24

M 14

(4)

Genetické algoritmy

Jednoduchý genetický algoritmus (Goldberg 1989)

„

vytvor populáciu N náhodne vygenerovaných chromozómov x

1

, x

2

, …, x

N

„

opakuj

z

dekóduj všetky chromozómy a spočítaj ich fitness f

i

= Φ (x

i

)

z

vytvor novú populáciu selektívnou reprodukciou

z

rekombinuj chromozómy – kríženie

z

mutuj chromozómy

„

skonči, keď sa objaví hľadaný jedinec, alebo fitness najlepšieho nerastie

I. Mrázová: Dobývání znalostí 4

(5)

Jednoduchá selekcia

Š Zo starej populácie vytvárame novú kopírovaním chromozómov tak, že čím lepší jedinec, tým viacej jeho kópií sa môže objaviť v novej populácii

Š reprodukcia ruletou:

„ každý jedinec dostane na kole rulety priehradku veľkosti pi úmernej jeho fitness funkcii – to bude pravdepodobnosť, že bude

reprodukovaný (predpokladáme nezápornú fitness funkciu)

„ ruletou sa otočí N krát

I. Mrázová: Dobývání znalostí 5

=

=

n

j j i i

f p f

1

p1 = 0.25

p2 = 0.1

(6)

Varianty selekcie (1)

Š Problémy jednoduchej selekcie

a) keď všetci jedinci majú podobnú fitness náhodné prehľadávanie s genetickým posunom

b) keď jeden až dvaja jedinci majú fitness o mnoho vyššiu než zvyšok populácie

takmer všetci jedinci v novej generácii budú kópiou toho istého jedinca, predčasná konvergencia

Š Riešenie:

1. škálovanie [scaling] (typicky lineárna transformácia)

pre a) zväčšiť rozdiely, pre b) zmenšiť

2. selekcia podľa poradia [rank based] jedinci sa zoradia podľa fitness a pravdepodobnosť reprodukcie je úmerná poradiu jedinca, nie jeho fitness

I. Mrázová: Dobývání znalostí 6

(7)

Varianty selekcie (2)

3.

S orezávaním [truncation] – jedincov usporiadame podľa veľkosti fitness, M najlepších jedincov okopírujeme O - krát tak, že N = M x O

4.

Turnajom [tournament] – náhodne sa vyberú 2 jedinci a vygeneruje sa náhodné číslo r ∈ < 0 , 1 > , ak je r < T , kde T ∈ < 0 , 1 > je preddefinovaný parameter, tak bude

okopírovaný jedinec s vyššou fitness inak ten druhý

Š Pri ďalších genetických operáciách sa môže doteraz najlepší jedinec stratiť. Pomoc: elitizmus [elitism] – S najlepších jedincov je bez zmeny okopírovaných do novej generácie

I. Mrázová: Dobývání znalostí 7

(8)

Kríženie

Š Jedinci sú náhodne spárovaní a každý pár je s danou pravdepodobnosťou skrížený

I. Mrázová: Dobývání znalostí 8

Jednobodové kríženie

Viacbodové kríženie

(9)

Mutácia, distribuované GA

Š Každý prvok chromozómu je s danou pravdepodobnosťou zmenený

„ Bit sa neguje, v prípade iných oborov hodnôt sa nahradí náhodnou hodnotou z daného oboru hodnôt, alebo sa pričíta náhodná hodnota podľa nejakého rozdelenia so stredom 0

Š Jedinci v populácii sú rozmiestnení napr. v dvojrozmernom priestore (napr. toroid); selekcia a kríženie sa dejú iba lokálne, subpopulácie sa prekrývajú – tým je možné šírenie „dobrých“

vlastností cez celú populáciu

I. Mrázová: Dobývání znalostí 9

(10)

Nedeterminizmus

Š Celý GA je nedeterministický, používa náhodné veličiny

Š Typicky sa sleduje priemerná a maximálna fitness, GA sa zastaví, keď je dosiahnutá dopredu zadaná hodnota fitness, alebo zadaný počet generácií, alebo sa fitness v priebehu niekoľkých generácií nemení.

Š Následne sa GA spúšťa opakovane aj s pozmenenými parametrami

Š Výsledkom je najlepší jedinec vybraný z finálnych generácií zo všetkých behov GA.

I. Mrázová: Dobývání znalostí 10

(11)

Základné bloky a teória schém

Š Fitness si môžeme predstaviť ako mnohorozmernú nadro- vinu udávajúcu hodnotu fitness vo všetkých možných

hodnotách genotypu – fitness krajina s kopcami a údolia- mi; pre chromozóm dĺžky 1 je to funkcia jednej premennej

I. Mrázová: Dobývání znalostí 11

Fitness

Priestor genetických vlastností

Max. fitness

generácie

(12)

Schémy

Š Schéma je šablóna popisujúca nejakú skupinu reťazcov

„ 1 * 1 = { 1 0 1 , 1 1 1 } * zastupuje ľubovoľnú prípustnú hodnotu

Š populácia s N jedincami s reťazcami dĺžky k obsahuje niečo medzi 2k a N 2 k schémami

Š schéma môže popisovať komponentu chromozómu, ktorá zaručuje vysokú fitness

Š potenciálne umožňuje preskúmať viacej reťazcov než ich je v populácii

Š Holland 1975 – GA spracuje v jednom kroku až N 3 schém, aj keď má iba N reťazcov (implicitný paralelizmus GA)

Š niektoré schémy majú vyššiu priemernú fitness;

Š dlhé schémy sa ľahko rozbijú 1*****1 ***11**

I. Mrázová: Dobývání znalostí 12

(13)

Schémy (2)

Š Najdôležitejšie sú schémy s krátkou dĺžkou. Schémy s krát- kou dĺžkou a vysokou fitness sa objavujú v exponenciálne mnohých potomkoch v priebehu GA.

Š Schémy sú považované za základné bloky evolúcie a kríže- nie je hlavný operátor, pretože umožňuje preskúmať kombi- nácie schém

Š Funguje to však iba pri vhodnom kódovaní, kde základné bloky majú krátku dĺžku.

Š POZOR: niekedy kríženie „kazí“ výsledky a pravdepodob- nosť kríženia sa preto nastavuje na 0, alebo na veľmi malú hodnotu.

I. Mrázová: Dobývání znalostí 13

(14)

Veta o schémach

Š o ( H ) ozn. rád schémy H = počet pevných pozícií v schéme (s hodnotou 0 alebo 1 pre binárnu abecedu). Napr.

„ o ( 011*1** ) = 4

„ o ( 1****** ) = 1

Š δ ( H ) ozn. dĺžku schémy H = vzdialenosť medzi prvou a poslednou pevnou pozíciou (s hodnotou 0 alebo 1 pre

binárnu abecedu)

„ δ ( 011*1** ) = 4

„ δ ( 1****** ) = 0

Š analyzujeme vývoj GA – vplyv reprodukcie, kríženia a mutácie na počet reťazcov zodpovedajúcich danej schéme

I. Mrázová: Dobývání znalostí 14

(15)

Vplyv reprodukcie na očakávaný počet reťazcov danej schémy v populácii (1)

Š Predpokladajme, že v kroku t obsahuje populácia m reťazcov odpovedajúcich schéme H ( m = m ( H , t ) )

Š pri reprodukcii je reťazec Ai vybraný do ďalšej populácie (podľa jeho ohodno- tenia fi = Φ ( Ai ) ) s pravdepodobnosťou

Š v ďalšej populácii veľkosti a bude očakávaný počet reťazcovodpovedajúcich schéme H ( m = m ( H , t+1 ) ) určený pomocou

Š kde f (H) odpovedá priemernému hodnoteniu reťazcov odpovedajúcich schéme H

I. Mrázová: Dobývání znalostí 15

=

= n

j

j i i

f p f

1

( ) ( ) ( )

=

=

+ n

j

f j

H n f

t H m t

H m

1

, 1

,

(16)

Vplyv reprodukcie na očakávaný počet reťazcov danej schémy v populácii (2)

Š f ( H ) odpovedá priemernému hodnoteniu reťazcov odpovedajúcich schéme H v kroku i

„

potom pre

„

dostávame

pri prostej reprodukcii počet reťazcov odpovedajúcich určitej schéme v popuácii rastie, resp. klesá, podľa ich priemerného ohodnotenia

I. Mrázová: Dobývání znalostí 16

n f

f

j

j

=

( ) ( ) ( )

f H t f

H m t

H

m , + 1 = , ⋅

(17)

Vplyv kríženia na očakávaný počet

reťazcov danej schémy v populácii (1)

Š Pre každú schému je možné určiť pravdepodobnosť jeho pretrvania po krížení p

S

podľa

„ (teda schéma “prežije”, ak bude bod kríženia “mimo jeho dĺžky”)

Š Ak kríženie nastáva náhodne – s pravdepodobnosťou p

c

– bude pravdepodobnosť pretrvania schémy po krížení

vplyv kombinácie reprodukcie a kríženia na počet reťazcov schémy H v populácii bude

I. Mrázová: Dobývání znalostí 17

( )

1 1

− −

= l

p

S

δ H

( ) ( ) ( ) ( )

⎥⎦⎤

⎢⎣⎡

− −

+ 1 , 1 1

, l

p H f

H t f

H m t

H

m c δ

( )

1 1

− −

= l

p H

p S c δ

(18)

Vplyv kríženia na očakávaný počet

reťazcov danej schémy v populácii (2)

Š Pri reprodukcii a krížení počet reťazcov schémy H rastie, resp. klesá, v závislosti na

„ ohodnotení schémy

„ dĺžke schémy

I. Mrázová: Dobývání znalostí 18

( ) ( ) ( ) ( )

⎥⎦ ⎤

⎢⎣ ⎡

− −

+ 1 , 1 1

, l

p H f

H t f

H m t

H

m

c

δ

(19)

Vplyv mutácie na očakávaný počet

reťazcov danej schémy v populácii (1)

Š Náhodná zmena na jednej pozícii s pravdepodobnosťou pm

Š aby “prežila” schéma H , tak sa musí zachovať každá z jeho pevných pozícií

z každá pozícia prežíva s pravdepodobnosťou 1 - pm

z všetky mutácie sú navzájom nezávislé

„ schéma H “prežije”, ak prežije každá z jeho o ( H ) pevných pozícií

„ pravdepodobnosť, že schéma H “prežije” mutáciu je

„ aproximácia pre malé hodnoty pm ( << 1 )

I. Mrázová: Dobývání znalostí 19

( 1 − p

m

)

o ( )H

( 1 p

m

)

o ( )H

1 o ( ) H p

m

(20)

Vplyv reprodukcie, kríženia a mutácie na očakávaný počet reťazcov danej schémy v populácii

Š očakávaný počet reťazcov po reprodukcii, krížení a mutácii

najväčšiu “šancu na prežitie” majú krátke sché- my s malým počtom pevných pozícií a nadprie- merným ohodnotením

I. Mrázová: Dobývání znalostí 20

( ) ( ) ( ) ⎢⎣ ( ) ( ) ⎥⎦

− −

+

c

o H p

m

l p H f

H t f

H m t

H

m , 1 , 1 δ 1

Odkazy

Související dokumenty

K zaměstnancům fitness centra, kteří jsou denně v kontaktu s klienty, patří manaţerka Top Fitness, recepční, fitness instruktoři, lektoři lekcí a paní, která

Sledovanie priebehu projektu sa uskutočňuje prostredníctvom zisťovania stavu prác realizovaných priamo projektovým alebo podporným tímom. Ide o priebežnú kontrolu

Je zrejmé, že rastúca mobilita výrobných faktorov bude mať za následok pokračovanie pretvárania národných daňových systémov, napríklad v snahe prilákať

Na stran ě 78 autorka tvrdí: „Takýto vývoj vedie k formovaniu menej spravodlivých da ň ových systémov, pretože vyšší podiel regresívnych daní v da ň ovou

Velmi zda ř ile je autorkou zpracována zejména č ást týkající se vlivu globalizace na da ň ové mixy, v níž jsou fundovan ě identifikovány základní

(„příbuznost“ dle alel na daném lokusu = shoda alel vážená přes frekvenci alely). • d 2 rozdíl

A ak naše správanie sa, alebo niektorý náš názor bude v rozpore s tým, čo je podstatné, nemala by pre nás byť zmena vlastného správania sa, či názoru vôbec ťaţká,

tená voda, ani sa ho nedotkol, hodil tanierom alebo pohárom o múr, ale nikdy sa nič;nerozbil-o. Raz prišiel chlapcov' pozrieť istý mládenec z Ilfurtu, keď práve u nich'