DuˇsanJenˇc´ık Kategorizaceuˇzivatel˚unazákladˇehistoriestahovanýchwebovýchdokument˚u

(1)

Bakaláˇrská práce

Kategorizace uˇ zivatel˚ u na z´ akladˇ e historie stahovan´ ych webov´ ych

dokument˚ u

Duˇ san Jenˇ c´ık

Vedouc´ı pr´ace: Ing. Jan ˇSediv´y, CSc.

Cesk´ˇ e vysoké uˇcen´ı technické v Praze Fakulta elektrotechnická

(2)

České vysoké učení technické v Praze Fakulta elektrotechnická

Katedra kybernetiky

ZADÁNÍ BAKALÁŘSKÉ PRÁCE

Student: Dušan J e n č í k

Studijní program: Otevřená informatika (bakalářský)

Obor: Informatika a počítačové vědy

Název tématu: Kategorizace uživatelů na základě historie stahovaných webových dokumentů

Pokyny pro vypracování:

Cílem této práce je kategorizovat uživatele internetu na základě znalosti historie stahování webových dokumentů. Úkolem kategorizace je zařadit uživatele do různých kategorií (např.

ženy, děti, podle věku apod.). Pro práci bude poskytnuta databáze posloupností stahovaných URI skutečných uživatelů internetu. Postupujte podle následujících kroků:

• Prostudujte metody pro klástrování do kategorií.

• Prostudujte generativní statistické modely pro uspořádání URI do neznámých kategorií.

• Proveďte základní statistickou analýzu poskytnuté databáze.

• Vyberte vhodné algoritmy na základě předchozí analýzy a aplikujte je na databázi

• Nalezněte vhodná kritéria pro posouzení kvality kategorizace vybranými algoritmy a posuďte jejich přesnost a vhodnost.

Seznam odborné literatury:

[1] Kanungo, Tapas, et al. "An efficient k-means clustering algorithm: Analysis and

implementation." Pattern Analysis and Machine Intelligence, IEEE Transactions on 24.7 (2002): 881-892.

[2] Ahmed, Amr, and Alexander Smola. "Www 2011 invited tutorial overview: latent variable models on the internet." Proceedings of the 20th international conference companion on World wide web. ACM, 2011.

[3] Attardi, Giuseppe, Antonio Gulli, and Fabrizio Sebastiani. "Automatic Web page

categorization by link and context analysis." Proceedings of THAI. Vol. 99. No. 99. 1999.

[4] Pedregosa, Fabian, et al. "Scikit-learn: Machine learning in Python." The Journal of Machine Learning Research 12 (2011): 2825-2830.

Vedoucí bakalářské práce: Ing. Jan Šedivý, CSc.

Platnost zadání: do konce letního semestru 2015/2016

L.S.

doc. Dr. Ing. Jan Kybic vedoucí katedry

prof. Ing. Pavel Ripka, CSc.

děkan

(3)

(4)

Prohl´ aˇ sen´ı autora pr´ ace

Prohlaˇsuji, ˇze jsem pˇredloˇzenou práci vypracoval samostatnˇe a ˇze jsem uvedl veˇskeré pouˇzité informaˇcn´ı zdroje v souladu s Metodickým pokynem o dodrˇzován´ı etických princip˚u pˇri pˇr´ıpravˇe vysokoˇskolských závˇereˇcných prac´ı.

V Praze dne . . . . . . . .

Podpis autora pr´ace

(5)

Podˇ ekov´ an´ı

Rád bych podˇekoval pˇredevˇs´ım mému vedouc´ımu Ing. Janovi ˇSedivému, CSc., který mi nab´ıdl toto téma bakaláˇrské práce a po celou dobu jej´ıho vypracován´ı byl perfektn´ım vedouc´ım.

Dále bych své podˇekován´ı vˇenoval i Ing. Tomáˇsovi Gogárovi, Ing. Tomáˇsovi Tuny- sovi a Ing. Tomáˇsovi Baˇrinovi za obˇetavou pomoc pˇri vypracováván´ı této práce.

Výpoˇcetn´ı prostˇredky byly poskytnuty MetaCentrem v rámci programu LM2010005 a skupinou CERIT-SC v rámci programu Center CERIT Scientific Cloud, která je souˇcást´ı Operational Program Research and Development for Innovations, reg. ˇc. CD.1.05 / 3.2.00 / 08.0144.

(6)

M´e rodinˇe.

(7)

Abstrakt

C´ılem této práce je nalezen´ı metod a postup˚u vedouc´ıch ke kategorizaci uˇzivatel˚u dle historie jejich záznam˚u z procházen´ı internetu. Práce vyuˇz´ıvá analytické a statis- tické metody, kterými se snaˇz´ı nalézt kategorie webových stránek charakteristických pro urˇcitou skupinu uˇzivatel˚u. Bylo zjiˇstˇeno, ˇze shlukovac´ı algoritmy nejsou dostateˇcnˇe popisné pro nalezen´ı poˇzadovaných kategori´ı, a tak bylo vyuˇzito topic-model algoritmu pLSA. D´ıky tomuto algoritmu byla nalezena témata tvoˇrená distribucemi webových stránek a zároveˇn kaˇzdý uˇzivatel byl popsán distribuc´ı nalezených témat. Popis témat byl doplnˇen o kategorie z DMOZ databáze a následnˇe o nejvýznamnˇejˇs´ı slova, která se vyskytuj´ı na stránkách charakterizuj´ıc´ıch dané téma. Pro tuto práci byla poskytnuta zanonymizovaná data nejmenovanou antivirovou spoleˇcnost´ı.

Kl´ıˇcová slova kategorizace, shluková analýza, topic-model, pLSA

Abstract

The aim of this thesis is to find methods and procedures which are leading to categorization of users with respect to history of their records from internet browsing.

The work uses analytical and statistical methods, by which it tries to find some categories of websites, which are characteristic for a specific group of users. It has been found that clustering algorithms are not sufficiently descriptive for finding required categories, and thus it has been used topic-model algorithm named pLSA. The topics

(8)

Obsah

1 Uvod´ 1

1.1 Motivace . . . 1

1.2 Definice probl´emu . . . 2

1.2.1 Data . . . 2

1.2.2 Probl´em . . . 2

1.3 Struktura pr´ace . . . 3

2 Souvisej´ıc´ı pr´ace 4 2.1 Anal´yza clickstreamu . . . 4

2.2 Anal´yza matice ˇcetnost´ı . . . 5

3 Anal´yza 6 3.1 Povaha dat . . . 6

3.1.1 Rozloˇzen´ı n´avˇstˇevnosti podle URL str´anek . . . 7

3.1.2 Rozloˇzen´ı návˇstˇevnosti podle navˇst´ıvených stránek . . . 8

3.2 Pˇredzpracov´an´ı dat . . . 10

3.2.1 Redukce poˇctu URL . . . 10

3.2.2 Redukce poˇctu uˇzivatel˚u . . . 12

3.3 Metodika . . . 14

3.3.1 Algoritmus TF-IDF . . . 14

3.3.2 Algoritmus K-means . . . 15

3.3.3 Algoritmus PCA . . . 16

3.3.4 Algoritmus LSA . . . 17

3.3.5 Algoritmus pLSA . . . 18

3.4 Nevydaˇren´e experimenty . . . 20

3.4.1 Shlukovac´ı algoritmy, PCA, LSA . . . 20

3.4.2 S´eriov´e pLSA . . . 22

(9)

4 Fin´aln´ı zpracov´an´ı 24

4.1 Redukce dat . . . 24

4.2 Paraleln´ı pLSA . . . 25

4.2.1 Popis paraleln´ıho algoritmu pLSA . . . 25

4.2.2 Porovn´an´ı rychlosti . . . 31

4.3 Popis nalezen´ych t´emat . . . 34

4.3.1 Open Directory Project - DMOZ . . . 34

4.3.2 Nejv´yznamnˇejˇs´ı slova dle webov´eho obsahu . . . 37

4.4 Fin´aln´ı v´ysledky . . . 41

5 Z´avˇer 43

A Obsah pˇriloˇzen´eho CD 45

Literatura 46

Pouˇzit´e zkratky 50

(10)

Seznam tabulek

1.1 Struktura clickstreamu . . . 2

3.1 Velmi ´uzce specializovan´e clustery . . . 21

3.2 Sloˇzitosti serializovan´eho algoritmu pLSA . . . 23

4.1 Porovn´an´ı sloˇzitost´ı implementac´ı algoritmu pLSA . . . 33

4.2 Porovn´an´ı rychlost´ı a sloˇzitost´ı implementac´ı algoritmu pLSA . . . . 33

4.3 Kategorie z DMOZ . . . 36

4.4 Nejv´yznamnˇejˇs´ı slova dle obsah˚u str´anek . . . 39

(11)

Seznam obr´ azk˚ u

3.1 Poˇcet uˇzivatel˚u na URL adrese . . . 7 3.2 Poˇcet uˇzivatel˚u na 30 nejvˇetˇs´ıch URL aresách . . . 8 3.3 Poˇcet navˇst´ıvených stránek uˇzivateli . . . 9 3.4 Procento odstranˇených stránek v závislosti na procentu oˇrezu . . . . 11 3.5 Poˇcet navˇst´ıvených stránek uˇzivateli po odstranˇen´ı nˇeˇzádouc´ıch domén 13 4.1 Rychlost konvergence pLSA . . . 31 4.2 Zastoupen´ı kategori´ı z DMOZ . . . 37 4.3 Hodnoty entropie napˇr´ıˇc vyhovuj´ıc´ımi tématy . . . 40

(12)

Seznam zdrojov´ ych k´ od˚ u

3.1 Implementace serializovan´eho pLSA . . . 22

4.1 Inicializace sd´ılen´e pamˇeti v paraleln´ım pLSA . . . 26

4.2 Implementace paraleln´ıho EM algoritmu pLSA . . . 29

4.3 Implementace v´ypoˇctu loglikelihoodu . . . 30

(13)

Kapitola 1 Uvod ´

Na internetu je v dneˇsn´ı dobˇe témˇeˇr kaˇzdý. Lidé vyuˇz´ıvaj´ı internetových sluˇzeb a tyto sluˇzby vyuˇz´ıvaj´ı dat svých uˇzivatel˚u. Internetové spoleˇcnosti jsou dnes nuceni analyzovat své uˇzivatele, aby byly schopné drˇzet krok s konkurenc´ı. Tato práce ukazuje postupy pˇri analýze nasb´ıraných dat o uˇzivatel´ıch.

1.1 Motivace

Nˇekteré softwarové spoleˇcnosti sb´ıraj´ı data od svých uˇzivatel˚u. V pˇr´ıpadˇe webových produkt˚u se nejˇcastˇeji pouˇz´ıvá clickstream¹. Názorným pˇr´ıkladem m˚uˇze být antivirová spoleˇcnost, která pro zefektivnˇen´ı svých antivirových produkt˚u sb´ırá záznamy z procházen´ı internetu od nˇekterých svých uˇzivatel˚u. Jedna taková spoleˇcnost² poskytla data pro tuto práci. Sbˇer dat je provádˇen pˇri zadán´ı URL³ adresy do prohl´ıˇzeˇce uˇzivatelem. Pˇredt´ım neˇz uˇzivatel dostane obsah stránky, tak antivirus danou webovou stránku provˇeˇr´ı na výskyt ˇskodlivého kódu a v negativn´ım pˇr´ıpadˇe uˇzivateli stránku povol´ı naˇc´ıst. Pokud na chtˇené stránce bude objeven virus ˇ

ci jiný neˇzádouc´ı kód, tak je uˇzivatel varován a pˇr´ıstup na stránku mu je rozmlouván, popˇr´ıpadˇe zam´ıtnut. Tato a j´ı podobné spoleˇcnosti takto mohou sb´ırat velké mnoˇzstv´ı dat, která z povahy clickstreamu mohou nar˚ustat do enormn´ıch velikost´ı (stovek GB

(14)

1.2 Definice probl´ emu

1.2.1 Data

Vzhledem k tomu, ˇze clickstream spadá do kategorie velmi citlivých dat, tak je nutné data anonymizovat. Jedná se o proces, kde se urˇcitým zp˚usobem skryje ˇci odstran´ı ta ˇcást dat, která je citlivá.

Struktura clickstreamu bývá pˇribliˇznˇe následuj´ıc´ı⁴: Tabulka 1.1: Struktura clickstreamu

ID poˇc´ıtaˇce ˇcas UTC HTTP referrer URL IP adresa Nejd˚uleˇzitˇejˇs´ımi parametry clickstreamu jsou ID poˇc´ıtaˇce (prozat´ım br´ano jako ID uˇzivatele⁵) a URL adresa na kterou smˇeˇroval.

V této práci je popisováno zpracován´ı jiˇz zanonymizovaných dat, která jsou po- psatelná vektorem webových adres⁶ a matic´ı ˇcetnost´ı⁷ obsahuj´ıc´ı na svých sloupc´ıch 586 624 URL a na ˇrádc´ıch jsou náhodnˇe seˇrazen´ı uˇzivatelé (resp. ID poˇc´ıtaˇce), kterých je 224 679. Kaˇzdý uˇzivatel (resp. ID poˇc´ıtaˇce) je zastoupen pouze jednou. Jedná se pˇritom pouze o populaci ˇzij´ıc´ı v USA, kde data byla nasb´ırána za obdob´ı jednoho mˇes´ıce.

1.2.2 Probl´ em

Hlavn´ı ideou této práce je kategorizace uˇzivatel˚u na základˇe jejich procházen´ı internetu. C´ılem je popsat metody vedouc´ı k nalezen´ı skupin webových stránek, které jsou pro urˇcitou skupinu populace charakteristické. Tedy se jedná o nalezen´ı takových skupin stránek, na které chod´ı

”podobn´ı“ uˇzivatelé. Tato informace ale nen´ı z kontextu dat pˇr´ımo jasná, a proto je potˇrebné data analyzovat.

4Konkrétn´ı clickstream m˚uˇze obsahovat nˇekolik dalˇs´ıch údaj˚u jako jsou stát, mˇesto atp. Tyto a dalˇs´ı parametry nejsou z´ıskávány pˇr´ımo od uˇzivatele, ale na základˇe heuristik postavených na ˇ

cist´em clickstreamu.

5Na jednom poˇc´ıtaˇci, který je monitorován, m˚uˇze pracovat v´ıce ˇclen˚u domácnosti. Z d˚uvodu zjednoduˇsen´ı problému je uvaˇzováno o záznamech z jednoho poˇc´ıtaˇce tak, ˇze jsou generovány pouze jedn´ım uˇzivatelem.

6Byly zvoleny pouze dom´eny 2. ˇr´adu. Pˇr´ıklademfacebook.com,google.com...

7V buˇnkách matice jsou poˇcty návˇstˇev konkrétn´ıho uˇzivatele na konkrétn´ı URL adrese.

(15)

1.3 Struktura pr´ ace

Prvn´ı kapitola Popis probl´emu a struktury dat.

Druhá kapitola Práce pojednává o ˇreˇsen´ı podobného problému jinými.

Tˇret´ı kapitola Zde je popsána povaha dat a r˚uzné metody (algoritmy) vhodné pro ˇreˇsen´ı. Ke konci kapitoly jsou popsány postupy, které nevedly k uspokojivým výsledk˚um.

Ctvrt´ˇ a kapitola Pojednán´ı o fináln´ım zpracován´ı dat. Popsané konkrétn´ı postupy, výpoˇcty a z´ıskané výsledky.

Páta kapitola Shrnut závˇer výzkumu, dosaˇzené výsledky a popsána cesta pro zdo- konalen´ı výsledk˚u.

(16)

Kapitola 2

Souvisej´ıc´ı pr´ ace

Analýzou clickstreamu se v dneˇsn´ı dobˇe zabývá mnoho spoleˇcnost´ı. Nˇekteré pro vylepˇsen´ı svého marketingu, jiné proto, aby byly lépe konkurenceschopné, ale témˇeˇr vˇsechny to dˇelaj´ı za primárn´ım c´ılem: zjistit o zákazn´ıkovi vˇse d˚uleˇzité a následnˇe tyto znalosti zmonetizovat. V této kapitole jsou zm´ınˇeny r˚uzné pˇr´ıstupy vycházej´ıc´ı z analýzy clickstreamu, které v´ıce ˇci ménˇe byly pˇr´ınosné pro analýzu v této práci.

2.1 Anal´ yza clickstreamu

Analýza clickstreamu je v dneˇsn´ı dobˇe pomˇernˇe ˇcastým jevem, ale primárnˇe je tvoˇrena spoleˇcnostmi, které analyzuj´ı své uˇzivatele (napˇr. e-shop) a dle jejich chován´ı usmˇerˇnuj´ı své dalˇs´ı kroky v marketingu. Takové analýzy vznikaj´ı d´ıky zaznamenané cestˇe (sled webových adres - clickstream) uˇzivatelem. Tyto cesty jsou tvoˇreny pouze na stránkách vlastnˇených nˇejakou spoleˇcnost´ı (napˇr. e-shop). D´ıky analýze sled˚u svých uˇzivatel˚u lze urˇcit napˇr´ıklad pohlav´ı svých zákazn´ık˚u jak je tomu psáno v [15].

Kaˇzdý uˇzivatel má jiné chován´ı, ale lze naj´ıt jisté charakteristické rysy v procházen´ı zm´ınˇeného e-shopu typické pro muˇze a pro ˇzeny.Path analysis, neboli analýza sled˚u, dávaj´ı významnou informaci napˇr´ıklad o tom, jestli zákazn´ık provede nákup ˇci nikoli.

D´ıky statistickým metodám lze vypozorovat, jaké sledy událost´ı (navˇst´ıven´ı ˇcást´ı webu) vedou k úspˇeˇsnému nákupu napˇr.: {Domovská stránka → Kategorie produkt˚u

→ Kategorie produktu → Nákupn´ı koˇs´ık}. Naopak pokud sled vypadá: {Domovská stránka → Informace o webu→ Domovská stránka → Informace o webu → Katego- rie produktu. . .}, tak je velká pravdˇepodobnost, ˇze zákazn´ık s takovým clickstreamem nákup produktu neuskuteˇcn´ı, nebo alespoˇn ne ihned. Zm´ınˇená práce se zabývá t´ım, jak predikovat nákup a kde jsou ta d˚uleˇzitá m´ısta v clickstreamu, která rozhoduj´ı o tom, jestli zákazn´ık nakoup´ı ˇci nikoli. Detailnˇejˇs´ı popsán´ı clickstreamu je v práci [23].

(17)

Bohuˇzel naˇse situace je ponˇekud odliˇsná, a to t´ım, ˇze data z clickstreamu nejsou pro jeden e-shop, ale pro vˇetˇs´ı ˇcást celého internetu. Dalˇs´ı negativum je v tom, ˇze nám nebyl poskytnut

”surov´y“ clickstream, ale jiˇz data transformov´ana do matice ˇcetnost´ı.

Na tomto základˇe je nutné uvaˇzovat nad problémem z jiných úhl˚u.

2.2 Anal´ yza matice ˇ cetnost´ı

Vzhledem k tomu, ˇze máme k dispozici matici ˇcetnost´ı, jak jiˇz bylo naznaˇceno v ˇcásti 1.2.1, tak je nutné hledat zpracován´ı právˇe této matice a nikoli ˇcistého clickstreamu, pˇrestoˇze matice ˇcetnost´ı vycház´ı právˇe z clickstreamu. Práce [24] se zabývá analýzou matice ˇcetnost´ı z pohledu sémantických vektor˚u. Vektorový prostor je zde obhajován pro jeho snazˇs´ı a rychlejˇs´ı zpracován´ı. Naˇceˇz práce [11] navazuje vysvˇetlen´ım efektivn´ıho shlukovac´ıho algoritmu K-means. Shlukovac´ı algoritmy jsou pro kategorizaci velmi vhodné. V práci [12] je zm´ınˇeno zpracován´ı TF–IDF algoritmu, vysvˇetleny d˚uleˇzitosti normalizace vektor˚u a benefity kosinové podobnosti. Z výˇse zm´ınˇených prac´ı a mnohých dalˇs´ıch je v tomto výzkumu vycházeno. Vzhledem k tomu, ˇze úplnˇe stejným tématem se nezabývá ˇzádná práce, tak je nutné s pomoc´ı d´ılˇc´ıch znalost´ı zkonstruovat postup, který je v této práci popsán.

(18)

Kapitola 3 Anal´ yza

V této kapitole je popsána povaha dat, která jsou následnˇe pomoc´ı nˇekolika algoritm˚u zanalyzována. Data bylo nutné pˇredzpracovat, aby vynikly diskriminuj´ıc´ı informace. Jsou zde popsány nˇekteré z nejvýznamnˇejˇs´ıch algoritm˚u, které jsou vhodné pro zpracován´ı dat podobného charakteru.

3.1 Povaha dat

Jak jiˇz bylo zm´ınˇeno v úvodu 1.2.1, tak výzkum prob´ıhá nad matic´ı ˇcetnost´ı s rozmˇery 586 624 URL ×224 679 uˇzivatel˚u. Matice je uloˇzena v CSR¹ formátu a vy- padá následovnˇe:







w₁ w₂ . . . w_{586 624} u₁ a_1,1 a_1,2 . . . a_{1,586 624} u₂ a_2,1 a_2,2 . . . a_{2,586 624}

... ... ... . .. ...

u_{224 679} a_{224 679,1} a_{224 679,2} . . . a224 679,586 624







kde w jsou webové stránky (konkrétnˇe pouze domény 2. ˇrádu), u jsou uˇzivatelé a a znaˇc´ı poˇcet navˇst´ıven´ı konkrétn´ı domény uˇzivatelem.

Aby se zjistilo, jakou maj´ı data povahu, myˇsleno jejich rozdˇelen´ı, rozloˇzen´ı a dalˇs´ı charakteristiky, je vhodné provést nˇekolik popisných náhled˚u na data. Pro lepˇs´ı ori- entaci ve výsledc´ıch je vyuˇzito grafického znázornˇen´ı.

1Compressed Storrage Row. Standardn´ı formát pro ukládán´ı ˇr´ıdkých matic. Jsou uloˇzeny pouze nenulové hodnoty.

(19)

3.1.1 Rozloˇ zen´ı n´ avˇ stˇ evnosti podle URL str´ anek

V prvn´ım kroku je na data nahlédnuto z pohledu návˇstˇevnosti URL stránek. Tedy kolik jedineˇcných uˇzivatel˚u chod´ı na konkrétn´ı URL adresu. U kaˇzdého uˇzivatele je zapoˇc´ıtána nenulová návˇstˇeva jen jednou. Hodnoty na ose Y jsou vytvoˇreny tak, ˇze se seˇcetly sloupeˇcky matice², které byly poté znormalizovány v˚uˇci celkovému poˇctu uˇzivatel˚u.

Obr´azek 3.1: Poˇcet uˇzivatel˚u na URL adrese

Hodnoty v grafu výˇse (viz obrázek 3.1) ukazuj´ı, ˇze existuje velmi málo adres, které maj´ı významnˇejˇs´ı návˇstˇevnost. Proto v následuj´ıc´ım grafu (viz obrázek 3.2) je ukázka prvn´ıch 30 nejvˇetˇs´ıch adres. Jednotlivé procentuáln´ı návˇstˇevnosti jsou seˇrazeny se- stupnˇe.

(20)

facebook.com youtube.com

yahoo.com amazon.com

wikipedia.org blogspot.com

ebay.com twitter.com huffingtonpost.com

answers.com craigslist.org

msn.comgo.com about.com

pinterest.comlive.com mozilla.org

walmart.com wordpress.combit.ly

paypal.com avast.com

imdb.com buzzfeed.com

apple.com tumblr.com

netflix.com googleadservices.com

linkedin.com adobe.com

URL 0.00%

20.00%

40.00%

60.00%

80.00%

100.00%

Procento uživatelů

Obr´azek 3.2: Poˇcet uˇzivatel˚u na 30 nejvˇetˇs´ıch URL ares´ach

Dominuj´ıc´ı adresou je facebook.com. Z letmého pohledu lze rozpoznat dalˇs´ı ˇcasto navˇstˇevované weby, které jsou vˇseobecnˇe známé. Bohuˇzel tyto

”velké“ webové stránky, na které chod´ı témˇeˇr vˇsichni uˇzivatelé jsou pro diskriminaci zcela nepouˇzitelné. Na tyto stránky chod´ı významná vˇetˇsina uˇzivatel˚u, a tedy významnost tˇechto domén je t´ımto razantnˇe pon´ıˇzena. Podobnˇe je to i s tˇemi webovými stránkami, na které chod´ı velmi málo uˇzivatel˚u.

3.1.2 Rozloˇ zen´ı n´ avˇ stˇ evnosti podle navˇ st´ıven´ ych str´ anek

V druhém kroku je vhodné diskutovat náhled na data z pohledu uˇzivatele. Nej- vhodnˇejˇs´ı metrikou se zde jev´ı mˇeˇren´ı rozsahu navˇst´ıvených stránek pro jednotlivé skupiny uˇzivatel˚u. Matice je nyn´ı seˇctena po ˇrádc´ıch³, ˇc´ımˇz vznikl vektor znázorˇnuj´ıc´ı poˇcet r˚uzných navˇst´ıvených domén pro kaˇzdého uˇzivatele. Protoˇze je ale uˇzivatel˚u hodnˇe a ˇzádný z nich nenese významnˇejˇs´ı popisnou informaci⁴, je zde vhodné tyto hodnoty z vektoru shromáˇzdit pomoc´ı histogramu, kde lépe vyniknou jednotlivé skupiny obyvatel.

3Kaˇzd´a nenulov´a hodnota byla nahrazena ˇc´ıslem 1.

4Uˇzivatel´e byli anonymizov´ani.

(21)

14 - 52 91 - 129 168 - 206 244 - 283 321 - 360 rozsahy navštívených stránek

0%

5%

10%

15%

20%

25%

30%

35%

procento uživatelů

Obrázek 3.3: Poˇcet navˇst´ıvených stránek uˇzivateli

V grafu výˇse (viz obrázek 3.3) jsou jednotlivé poˇcty navˇst´ıvených stránek uˇzivateli slouˇceny do 10 tˇr´ıd. Prvn´ı a nejpoˇcetnˇejˇs´ı tˇr´ıda reprezentuje tu skupinu uˇzivatel˚u, ve které kaˇzdý uˇzivatel chod´ı na 14 aˇz 52 unikátn´ıch webových stránek (domén). Tˇechto uˇzivatel˚u je pˇribliˇznˇe 34,5 %. V posledn´ı tˇr´ıdˇe je 0,32 % uˇzivatel˚u, kteˇr´ı chod´ı na 360 aˇz 398 stránek⁵. 10 tˇr´ıd bylo vybráno pouze jako názorná ukázka, protoˇze pˇri vˇetˇs´ım poˇctu tˇr´ıd nen´ı dostateˇcnˇe ˇcitelná informace o poˇctu navˇst´ıvených stránek. Tendence (trend) grafu t´ımto nen´ı pozmˇenˇena.

(22)

3.2 Pˇ redzpracov´ an´ı dat

Vzhledem k tomu, ˇze povaha dat nen´ı ideáln´ı, je nutné data jistým zp˚usobem upravit, aby dalˇs´ı výsledky mˇely relevantnˇejˇs´ı charakter.

3.2.1 Redukce poˇ ctu URL

Redukc´ı poˇctu, neboli oˇrezán´ım URL je myˇsleno to, ˇze z celého seznamu domén budou odstranˇeny ty adresy, které nevyhov´ı následuj´ıc´ım poˇzadavk˚um. Ve své pod- statˇe budou vymazány konkrétn´ı domény i pˇr´ısluˇsné slupce v matici ˇcetnost´ı. Úkol oˇrezán´ı domén je z d˚uvodu pˇrehlednosti rozdˇelen na dva po sobˇe jdouc´ı kroky.

Prvotn´ı redukce

Pˇri pohledu na obrázek 3.1 a seˇrazen´ı hodnot sestupnˇe zjist´ıme, ˇze poˇcet menˇs´ıch hodnot je výraznˇe vˇetˇs´ı neˇz poˇcet vˇetˇs´ıch hodnot. Tato skuteˇcnost nás mus´ı vést k zamyˇslen´ı, jaké ˇze webové stránky jsou dostateˇcnˇe popisné pro dalˇs´ı analýzu.

Jiˇz bylo zm´ınˇeno v odstavci 3.1.1, ˇze dominantn´ı adresy⁶ a málo významné adresy⁷ jsou pro dalˇs´ı zpracován´ı sp´ıˇse nevyhovuj´ıc´ı. Na tomto základˇe je na m´ıstˇe tato neˇzádouc´ı data spoleˇcnˇe s adresami odstranit. Motivace k tomuto by mˇela být taková, ˇ

ze zanedbán´ım nediskriminuj´ıc´ıch adres z´ıskáme odfiltrované v´ıce diskriminuj´ıc´ı adresy.

Po prozkoumán´ı výpisu domén (seˇrazených sestupnˇe dle návˇstˇevnosti) jsme dospˇeli k závˇeru, ˇze u hranice 10 % návˇstˇevnosti (odpov´ıdá pˇribliˇznˇe 22 000 uˇzivatel˚u navˇstˇevuj´ıc´ıch konkrétn´ı doménu) m˚uˇze být pomyslná oddˇeluj´ıc´ı linie pro obecné a zájmovˇe uˇzˇs´ı webové stránky. Mezi domény obecnˇejˇs´ıho charakteru m˚uˇzeme zaˇradit facebook.com, youtube.com ˇci amazon.com. Zájmovˇe uˇzˇs´ı doménou m˚uˇzeme nazvat weby podobnéindeed.com⁸ ˇci foodnetwork.com⁹. Tedy webové stránky, kde návˇstˇeva takového webu o uˇzivateli uˇz nˇeco vypov´ıdá.

Na druhé stranˇe lze mluvit o tˇech webových stránkách, na které chod´ı naopak velmi malý poˇcet uˇzivatel˚u. Tyto webové stránky jsou pˇreváˇznˇe soukromého charakteru (pˇr. lokáln´ı firma). V daném mˇeˇr´ıtku pˇribliˇznˇe p˚ul milionu r˚uzných domén jsou tyto malé weby v´ıceménˇe nevýznamné. Rozhodli jsme se, ˇze webová stránka

6Adresy na kter´e chod´ı vˇetˇs´ı poˇcet uˇzivatel˚u.

7Významné z hlediska poˇctu návˇstˇevn´ık˚u.

8Port´al s nab´ıdkami pr´ace.

9Port´al s recepty na vaˇren´ı.

(23)

významnˇejˇs´ıho charakteru (lze se z n´ı dozvˇedˇet nˇejaká podstatná informace) m˚uˇze zaˇc´ınat na 10 r˚uzných návˇstˇevn´ıch.

Na základˇe tˇechto úvah jsme odstranili (neboli nepouˇzili v dalˇs´ıch výpoˇctech) ty webové stránky, které jsou navˇstˇevovány vˇetˇs´ım neˇz 10% mnoˇzstv´ım populace a také ty domény, na které chod´ı ménˇe neˇz 10 lid´ı. Z celkového poˇctu 586 624 webových adres z˚ustalo po této redukci pouze 102 453.

Redukce pro z´ısk´an´ı vˇetˇs´ı vypov´ıdaj´ıc´ı hodnoty

V pˇredchoz´ım kroku jsme pomˇernˇe hrubˇs´ım s´ıtem odstranili nˇekolik zjevnˇe nediskriminuj´ıc´ıch domén. V tomto kroku se ale zamˇeˇr´ıme na ponechán´ı pouze tˇech domén, které z hlediska pohledu na celkovou populaci mohou m´ıt významnˇejˇs´ı charakter.

Tento charakter lze urˇcit napˇr´ıklad podle toho, jak moc je daná doména významná v rámci poˇctu návˇstˇev pro jednoho uˇzivatele. Existuj´ı domény webových stránek, na které uˇzivatel chod´ı opakovanˇe a tyto webové stránky mohou tvoˇrit jistou významnost v rámci obl´ıbenosti webu. Hranici mezi významnými a ménˇe významnými doménami pro jednoho uˇzivatele jsme urˇcili na 10 %. Tedy ty adresy, které tvoˇr´ı alespoˇn 10 % ze vˇsech navˇst´ıvených web˚u daným uˇzivatelem jsou pro nˇej pravdˇepodobnˇe významné.

Ostatn´ı adresy jsme v dalˇs´ıch výpoˇctech zanedbali. Z˚ustaly tedy pouze ty domény, které tvoˇr´ı alespoˇn 10 % ze vˇsech návˇstˇev pro alespoˇn jednoho uˇzivatele.

40%

60%

80%

100%

procento odříznutých URL

(24)

V grafu na pˇredchoz´ı stránce (viz obrázek 3.4) je ukázáno, kolik procent webových stránek bude odstranˇeno (osa Y) v závislosti na procentu oˇrezu významných ˇci nevýznamných adres pro alespoˇn jednoho uˇzivatele (osa X). V grafu je téˇz ukázána i pˇreruˇsovaná linie znázorˇnuj´ıc´ı výˇse zm´ınˇený oˇrez na 10 %. Je patrné, ˇze t´ımto oˇrezem bude odstranˇeno veliké mnoˇzstv´ı domén. Na druhou stranu z˚ustanou pouze ty domény, které jsou výraznˇe významnˇejˇs´ı pro mˇeˇrenou populaci. Po odstranˇen´ı tˇechto ménˇe významných adres z˚ustane 37 441 z p˚uvodn´ıch 102 453 adres.

3.2.2 Redukce poˇ ctu uˇ zivatel˚ u

Podobnˇe jako jsme redukovali URL, nyn´ı pˇristoup´ıme k redukci uˇzivatel˚u. Moti- vac´ı je to, ˇze v dané populaci existuj´ı uˇzivatelé, kteˇr´ı chod´ı na velmi velké mnoˇzstv´ı r˚uzných domén. R˚uznorodost zájm˚u tˇechto uˇzivatel˚u je pomˇernˇe veliká. Také existuj´ı uˇzivatelé, kteˇr´ı naopak chod´ı na velmi malé mnoˇzstv´ı domén. Obˇe tyto skupiny by mohly negativnˇe ovlivnit dalˇs´ı zpracován´ı.

V rámci zachován´ı zájmu o nalezen´ı obecných kategori´ı jsme nuceni pˇristoupit i k redukci uˇzivatel˚u. Málo r˚uznorod´ı uˇzivatelé nemaj´ı takovou vypov´ıdaj´ıc´ı hodnotu, nebot’ jejich zájmy na internetu jsou tvoˇreny pouze malými shluky. Naopak uˇzivatelé s pˇr´ıliˇs ˇsirokými zájmy by bylo pozdˇeji obt´ıˇzné zakategorizovat. Z tˇechto d˚uvod˚u budou odstranˇeny tyto dvˇe skupiny uˇzivatel˚u.

Vycház´ıme z prvn´ı ˇcásti pˇredeˇslé sekce (viz 3.2.1). Jednotlivé domény byly redu- kovány dle poˇctu návˇstˇevn´ık˚u na hranici 10 % ze strany velkých domén a na hranici 10 uˇzivatel˚u ze strany domén s niˇzˇs´ımi poˇcty návˇstˇevn´ık˚u. Je vhodné zakomponovat redukci uˇzivatel˚u ihned po tomto odstranˇen´ı domén. D˚uvod je následuj´ıc´ı. Pˇri redukci domén se zmˇen´ı poˇcty unikátn´ıch navˇst´ıvených domén uˇzivateli (viz obrázek 3.3, který zobrazuje rozloˇzen´ı navˇst´ıvených stránek bez jakéhokoliv odstranˇen´ı). Po aplikován´ı oˇrezu poˇctu domén se poˇcty navˇst´ıvených stránek zmˇen´ı následovnˇe (viz obrázek 3.5 na dalˇs´ı stránce). V grafu se zmˇenily hlavnˇe rozsahy navˇst´ıvených stránek. D˚uleˇzité rozsahy jsou u prvn´ı a ˇctvrté tˇr´ıdy.

Po prozkoumán´ı tohoto grafu jsme dospˇeli k závˇeru, ˇze relevantnˇejˇs´ı informace dostaneme tehdy, kdyˇz odstran´ıme ty uˇzivatele, kteˇr´ı chod´ı na ménˇe neˇz 10 a v´ıce neˇz 150 r˚uzných domén. Tedy z p˚uvodn´ıho poˇctu 224 679 uˇzivatel˚u jsme dostali 191 676 uˇzivatel˚u, kteˇr´ı nemaj´ı tolik extrémn´ı chován´ı. Spodn´ı (levý) a horn´ı (pravý) práh jsou na obrázku vykresleny pˇreruˇsovanou ˇcárou. Uˇzivatelé spadaj´ıc´ı do tˇechto mez´ı byli zachováni.

(25)

2 - 38 74 - 110 146 - 182 219 - 255 291 - 327 rozsahy navštívených stránek

0%

5%

10%

15%

20%

25%

30%

35%

procento uživatelů

Obrázek 3.5: Poˇcet navˇst´ıvených stránek uˇzivateli po odstranˇen´ı nˇeˇzádouc´ıch domén

Po redukci uˇzivatel˚u následovala dalˇs´ı redukce domén na 10 % (viz druhá ˇcást pˇredeˇslé sekce 3.2.1).

Z p˚uvodn´ıho rozmˇeru matice (224 679 uˇzivatel˚u × 586 624 URL) jsme z´ıskali po celkovém oˇrezán´ı matici velikosti 191 676 uˇzivatel˚u × 37 441 URL, coˇz je úspora pˇribliˇznˇe 94,6 % bunˇek pˇri zachován´ı (ba zlepˇsen´ı) charakteru dat. Pro upˇresnˇen´ı je vhodné dodat, ˇze jsme t´ımto uˇsetˇrili pˇribliˇznˇe 57,7 % dat na disku. Vzhledem k tomu, ˇze je matice stále velmi ˇr´ıdká (pˇribliˇznˇe 99,875 % nulových bunˇek), je pro dalˇs´ı výpoˇcty zachován formát CSR.

(26)

3.3 Metodika

V této ˇcásti jsou popsány nejbˇeˇznˇejˇs´ı algoritmy a postupy pro zpracován´ı dat povahy matice ˇcetnost´ı. Vˇsechny zde zm´ınˇené algoritmy jsme na datech vyzkouˇseli, ale nˇekteré nevedly k poˇzadovaným výsledk˚um.

Vzhledem k nejasné cestˇe k c´ıli jsme se rozhodli, ˇze nejvhodnˇejˇs´ım nástrojem pro zpracován´ı bude programovac´ı jazyk Python doplnˇený o statistické a výpoˇcetn´ı knihovny v ˇcele sscikit-learn [17] a SciPy [10]. Tyto knihovny jsou velmi jednoduché k pouˇzit´ı, obsahuj´ı optimalizované algoritmy a maj´ı velmi podrobnou dokumentaci.

Spolu s velmi jednoduchou syntax´ı Pythonu je zde vytvoˇreno prostˇred´ı prosp´ıvaj´ıc´ı relativnˇe rychlému vývoji a testován´ı vˇetˇs´ıho poˇctu experiment˚u. Mezi nevýhody tohoto ˇreˇsen´ı jistˇe patˇr´ı rychlost Pythonu. Jedná se o interpretovaný jazyk, který je vhodný hlavnˇe k zaznamenán´ı myˇslenek a algoritm˚u.

Vˇetˇsina v´ypoˇct˚u byla prov´adˇena v MetaCentru¹⁰ hlavnˇe vzhledem k vˇetˇs´ımu ob- jemu dat.

3.3.1 Algoritmus TF-IDF

TF-IDF¹¹ (zkratka pro anglická slova maj´ıc´ı význam ˇcetnosti slova v dokumentu a pˇrevrácené ˇcetnosti slova ve vˇsech dokumentech) je numerická statistika zohledˇnuj´ıc´ı d˚uleˇzitost slov v daném korpusu¹² [16]. V naˇsem pˇr´ıpadˇe je korpus tvoˇren matic´ı ˇ

cetnost´ı. Dokumentem je zde nazván uˇzivatel (ˇrádek matice) a slovem je zde zastou- pena konkrétn´ı URL doména (sloupec matice).

Vysvˇetlen´ı pojm˚u:

tf_i,j = n_i,j P

kn_k,j (3.1)

kden_i,j je poˇcet výskyt˚u slovat_i (webu) v dokumentud_j (pro uˇzivatele). Kaˇzdý poˇcet výskyt˚u je vydˇelen souˇctem vˇsech výskyt˚u slov v celém dokumentu d_j.

idf_i = log |D|

|{j :t_i ∈d_j}| (3.2)

10Jedná se o sdruˇzen´ı superpoˇc´ıtaˇc˚u rozm´ıstˇených po celé ˇCeské rebublice. Lze si zde na omezenou dobu zarezervovat veliké mnoˇzstv´ı výpoˇcetn´ıch prostˇredk˚u.

11Term Frequency - Inverse Document Frequency.

12Rozs´ahl´y soubor text˚u (dokument˚u).

(27)

kde |D| je poˇcet dokument˚u (uˇzivatel˚u) a |{j : t_i ∈ d_j}| je poˇcet dokument˚u obsahuj´ıc´ıch slovot_i [16]. Poté se fináln´ı hodnota spoˇc´ıtá následovnˇe:

tf idf_i,j =tf_i,j·idf_i (3.3) Výsledkem je matice stejné velikosti jako p˚uvodn´ı matice ˇcetnost´ı. Tato matice reprezentuje významnost kaˇzdého slova v dokumentu napˇr´ıˇc vˇsemi dokumenty. Tedy pro kaˇzdé slovo v kaˇzdém dokumentu existuje ˇc´ıselná hodnota, která pro vˇetˇs´ı ˇc´ısla znaˇc´ı vˇetˇs´ı d˚uleˇzitost daného slova v dokumentu a pro menˇs´ı ˇc´ısla d˚uleˇzitost menˇs´ı.

Po seˇrazen´ı tohoto vektoru (ˇrádektf idf matice) z´ıskáme mapován´ım slova, která jsou pro daný dokument významná, neboli diskriminuj´ıc´ı.

3.3.2 Algoritmus K-means

K-means¹³ je clusterovac´ı (shlukovac´ı) algoritmus vytváˇrej´ıc´ık disjunktn´ıch cluster˚u (shluk˚u). Iterativnˇe minimalizuje odchylky centroid˚u (stˇred˚u) od bod˚u v daném shluku. Algoritmus náhodnˇe¹⁴ um´ıst´ı pˇredem zvolené k bod˚u (centroid˚u) do daného prostoru a pˇriˇrad´ı nejbliˇzˇs´ı body z okol´ı k danému centroidu v závislosti na zvolené metrice. V dalˇs´ıch iterac´ıch um´ıst´ı kaˇzdý centroid do stˇredu (pr˚umˇeru) daného clusteru a tento postup opakuje do té doby, dokud se mˇen´ı rozloˇzen´ı bod˚u napˇr´ıˇc clustery.

C´ılem je dos´ahnout co nejmenˇs´ıch rozd´ıl˚u centroidu od bod˚u uvnitˇr cluster˚u [28].

Pˇredpoklady

Seznam bod˚ux={x₁, . . . , x_n} ∈R^m, ˇc´ıslo k ∈N;k ≤n

a S={S₁, . . . , S_k}jakoˇzto seznam cluster˚u.

Hledá se lokáln´ı optimum následovnˇe:

argmin

S k

XX

kx−µ_ik² (3.4)

(28)

M´ısto metriky lze i pouˇz´ıt tzv. kosinovou podobnost urˇcuj´ıc´ı sv´ıraj´ıc´ı ´uhel mezi dvˇema vektory (body od poˇc´atku).

similarity= cos(θ) = A·B kAkkBk =

Pm

i=1A_i ×B_i pPm

i=1(Ai)²×pPm

i=1(Bi)² (3.5) kde A, B ∈R^m jsou dva body v prostoru [27].

Po nalezen´ı lokáln´ıho optima algoritmus konˇc´ı s t´ım, ˇze je p˚uvodn´ı prostor bod˚u rozdˇelen do k cluster˚u. Vzdálenost centroidu ke vˇsem bod˚um v daném clusteru je nejmenˇs´ı moˇzná pro daný poˇcet k. Vzhledem k tomu, ˇze je nalezeno pouze lokáln´ı optimum urˇceno poˇcáteˇcn´ım rozdˇelen´ım, je vhodné algoritmus spustit v´ıcekrát s jiným poˇcáteˇcn´ım rozdˇelen´ım a brát v úvahu pouze ten výsledek, který mˇel nejmenˇs´ı souˇcet vˇsech kvadrát˚u vzdálenost´ı. T´ımto opakován´ım lze naj´ıt takové lokáln´ı optimum, které je nejlepˇs´ı moˇzné pro daný poˇcet opakován´ı (vhodné jsou des´ıtky aˇz stovky).

3.3.3 Algoritmus PCA

PCA¹⁵, neboli analýza hlavn´ıch komponent, je statistická procedura pouˇz´ıvaj´ıc´ı ortogonáln´ı transformaci k dekorelaci dat. Pouˇz´ıvá se ke sn´ıˇzen´ı dimenze dat s co nejmenˇs´ı ztrátou informace [31].

PCA je matematicky definováno jako ortogonáln´ı lineárn´ı transformace, která transformuje data do nového souˇradnicového systému [31]. Hlavn´ı komponenty (principal components) dávaj´ı nekorelované faktory, které jsou uspoˇrádány sestupnˇe dle rozptylu (variance) [32]. Nejvˇetˇs´ı komponenta leˇz´ı na prvn´ı ose nového souˇradnicového systému, druhá komponenta na druhé atd. [31]. K z´ıskán´ı redukovaných dat se pouˇz´ıvá SVD¹⁶ rozklad:

A=U SV^T (3.6)

kde A ∈ R^m,n je p˚uvodn´ı matice ˇcetnost´ı (vhodnˇejˇs´ı je analyzovat matici transfor- movanou pomoc´ı TF-IDF), S ∈R^m,n je diagonáln´ı matice obsahuj´ıc´ı singulárn´ı ˇc´ısla seˇrazená sestupnˇe,U ∈R^m,m aV ∈R^n,n jsou ortogonáln´ı matice [26, kapitola 7]. Pro redukci dimenze jsou vhodné ta singulárn´ıˇc´ısla, která jsou vˇetˇs´ı neˇz 1 [21]. Poˇzadovaná dimenze je z´ıskána tak, ˇze se v matici S nechá pouze tolik singulárn´ıch ˇc´ısel, kolik je poˇzadovaná dimenze (ostatn´ı se vynuluj´ı), a zpˇetnˇe se vynásob´ı matice následovnˇe:

15Principal Component Analysis.

16Singular Value Decomposition.

(29)

A_R=U S_RV^T (3.7) kde SR ⊆ S a AR ∈ R^m,r, kde r je poˇzadovaná dimenze, protoˇze vzniknou nulové sloupeˇcky, které je vhodné odstranit.

T´ımto lze z´ıskat matici A_R redukované (poˇzadované) dimenze, která by mˇela m´ıt co nejmenˇs´ı ztrátu informace oproti p˚uvodn´ı matici A.

3.3.4 Algoritmus LSA

S vyuˇzit´ım znalost´ı o SVD (viz sekce 3.3.3) na ˇradu pˇricház´ı LSA¹⁷. Jedná se o techniku zpracován´ı pˇrirozeného jazyka [30], která dokáˇze analyzovat vztahy mezi dokumenty (uˇzivateli) a slovy (URL) [29]. Tato metoda má pomoci potlaˇcit neˇzádouc´ı d˚usledky synonymie. Je zaloˇzena na algebraickém SVD rozkladu, kde m˚uˇzeme dras- ticky sn´ıˇzit dimenzi, a t´ım z´ıskat efektivnˇejˇs´ı výpoˇcty a nalezen´ı významných podobnost´ı mezi dokumenty a slovy. SVD je puˇstˇeno nad matic´ı ˇcetnost´ı (viz ˇcást 3.3.1), která m˚uˇze být transformována pomoc´ı TF-IDF.

U ·S·V^T =svd(A)'A (3.8)

neboli













| u₁

|





 . . .







| u_r

|











·







s₁ . . . 0 ... . .. ...

0 . . . s_r







·







− v₁ − ...

− v_r −





 '







a_1,1 . . . a_1,n ... . .. ... a_m,1 . . . a_m,n







(3.9) kdeA ∈R^m,n je matice ˇcetnost´ı a S∈R^r,r je diagon´aln´ı matice obsahuj´ıc´ı singul´arn´ı ˇ

c´ısla, kde r je oznaˇcen´ı pro redukovanou dimenzi. Pokud budeme uvaˇzovat matici ˇ

cetnost´ı ve tvaru takovém, ˇze na sloupeˇcc´ıch jsou jednotlivá slova (URL) a ˇrádky jsou jednotlivé dokumenty (uˇzivatelé), tak maticeU ∈R^m,r reprezentuje vztah mezi dokumenty a nˇejakými“ kategoriemi, které jsou vytvoˇreny podobnostmi mezi slovy a ma-

(30)

je myˇsleno to, ˇze výsledné kategorie nelze pˇredem odhadnout. Jsou vytvoˇreny shlu- kován´ım podobnost´ı mezi jednotlivými dokumenty ˇci slovy.

Matice U, V (singulárn´ı vektory) prom´ıtaj´ı p˚uvodn´ı data do nových prostor˚u, ve kterých vynikne povaha dat.

3.3.5 Algoritmus pLSA

pLSA¹⁹ je statistická technika ideovˇe vycházej´ıc´ı z LSA, avˇsak stoj´ıc´ı na jiných podkladech. Zat´ımco LSA (potaˇzmo SVD) vyuˇz´ıvá L2 nebo Frobeniovu normu [26, kapitola 7.3], tak pLSA maximalizuje vˇerohodnost (likelihood) [6]. Jedná se o pravdˇepodobnostn´ı topic-model systém, snaˇz´ıc´ı se nalézt skryté (latentn´ı)

”topics“ (témata) shlukuj´ıc´ı dokumenty (uˇzivatele) nebo slova (URL) [7, 22]. Startovn´ım bodem pLSA je statistický model zvaný aspect model [9]. Tento aspect model zo- hledˇnuje spoleˇcné výskyty dat nad asociovanými tˇr´ıdami promˇennéz ={z₁, . . . , z_k}, neboli tématy [7]. Algoritmus se uˇc´ı pomoc´ı EM²⁰ algoritmu [3]. Prvn´ı fáze algoritmu (E - expectation) poˇc´ıtá posteriorn´ı pravdˇepodobnosti pro latentn´ı promˇenné a druhá fáze (M - maximization) aktualizuje parametry.

E-krok:

P(z_k|d_i, w_j) = P(w_j|z_k)P(z_k|d_i) PK

k⁰=1P(w_j|z_k⁰)P(z_k⁰|d_i) (3.10) M-krok:

P(w_j|z_k) =

PM

i=1n(d_i, w_j)P(z_k|d_i, w_j) PM

i=1

PN

j⁰=1n(d_i, w_j⁰)P(z_k|d_i, w_j⁰) (3.11a) P(z_k|d_i) =

PN

j=1n(di, wj)P(zk|di, wj) PN

j=1n(d_i, w_j) (3.11b)

kde z = {z₁, . . . , z_k} jsou latentn´ı t´emata, d = {d₁, . . . , d_m} jsou dokumenty (uˇzivatel´e), w = {w1, . . . , wn} jsou slova (URL) a n(d, w) je hodnota z matice ˇ

cetnost´ı [2]. P(w|z) znázorˇnuje distribuci slov pˇres jednotlivá témata a P(z|d) znázorˇnuje distribuci témat pˇres jednotlivé uˇzivatele.

Kaˇzdou iterac´ı pLSA algoritmus maximalizuje vˇerohodnost (loglikelihood) n´asledovnˇe:

logL=

M

X

i=1 N

X

j=1

n(d_i, w_j) log ^K

X

k=1

P(z_j|d_i)P(w_j|z_k)

(3.12)

19Probabilistic Latent Semantic Analysis.

20Expectation–Maximization.

(31)

D˚uleˇzit´ymi omezen´ımi jsou n´asleduj´ıc´ı omezuj´ıc´ı podm´ınky:

N

X

j=1

P(w_j|z_k) = 1 (3.13a)

K

X

k=1

P(zk|di) = 1 (3.13b)

kter´e zajist´ı spr´avnou normalizaci.

Výsledkem tohoto postupu je z´ıskán´ı distribuc´ı slov (URL) nad jednotlivými tématy. Tyto distribuce (pravdˇepodobnostn´ı rozdˇelen´ı) významnˇe definuj´ı jednot- livá témata, jeˇz nen´ı lehké jednotnou formou popsat, protoˇze se jedná o modely smˇes´ı (mixture model), které ve své podstatˇe v˚ubec nemusej´ı reflektovat jednotný popisný systém. V sekci 4.3 je tato problematika rozebrána podrobnˇeji. Dalˇs´ım výsledkem pLSA je distribuce témat pˇres jednotlivé uˇzivatele. Tedy pro kaˇzdého uˇzivatele (z trénovac´ı sady) je známo jeho pravdˇepodobnostn´ı rozdˇelen´ı do nale- zených témat. Tato informace je vhodná k tomu, abychom zjistili v´ıce informac´ı o stávaj´ıc´ıch uˇzivatel´ıch. Pro pˇr´ıpad, ˇze budeme potˇrebovat zaˇradit nového uˇzivatele d do natrénovaného modelu, je moˇzné vyuˇz´ıt procedurufolding-in [8], která je inkre- mentovanou variantou EM algoritmu, pˇriˇcemˇz v M-kroku se nemˇen´ı jiˇz natrénovaná P(w|z). T´ımto dostaneme distribuci témat pro nové uˇzivatele, neboli jejich um´ıstˇen´ı do prostoru témat.

(32)

3.4 Nevydaˇ ren´ e experimenty

V této ˇcásti práce jsou shrnuty nˇekteré postupy, které nakonec nebyly pouˇzity k fináln´ımu zpracován´ı, protoˇze jejich výsledky nebyly dostateˇcnˇe uspokojivé. Pˇresto je vhodné tyto experimenty zm´ınit, protoˇze jejich výsledky byly velmi nápomocné v hledán´ı vhodnˇejˇs´ı cesty pˇri analýze dat.

3.4.1 Shlukovac´ı algoritmy, PCA, LSA

Prvn´ım nápadem pˇri hledán´ı kategori´ı jsou metody shlukován´ı (clusterován´ı).

Jedná se o statistické metody slouˇz´ıc´ı ke klasifikaci objekt˚u. Shlukovac´ı metody rozdˇeluj´ı vzorky do skupin, ve kterých jsou si tyto vzorky nejpodobnˇejˇs´ı z hlediska zvolené metriky. Jedn´ım z významných shlukovac´ıch algoritm˚u je K-means popsaný v ˇcásti 3.3.2.

Aby algoritmus K-means dával rozumné výsledky bylo nutné nejprve data transformovat pomoc´ı TF-IDF algoritmu. T´ım data mˇela zároveˇn znormalizované ˇrádky. C´ılem bylo nalezen´ı shluk˚u webových stránek. Vzhledem k velikosti matice nebylo moˇzné spuˇstˇen´ı klasické K-means implementace [18] na plné velikosti matice.

Následovala ˇcásteˇcná redukce této matice a vyuˇzit´ı rychlejˇs´ı implementace Mini- BatchKmeans [19, 20]. Nyn´ı jiˇz bylo moˇzné puˇstˇen´ı K-means nad daty, výsledky nebyly nijak pˇresvˇedˇcivé. Hlavn´ım problémem bylo urˇcen´ı k (poˇctu shluk˚u) a to, ˇ

ze nˇekteré vytvoˇrené shluky byly obrovské v porovnán´ı s jinými. Tyto problémy um´ı ˇreˇsit algoritmy jako jsou Afinn´ı propagace [25] ˇci DBSCAN [5], které dokáˇz´ı odhadnout k a zároveˇn ˇreˇsit hustotu nalezených shluk˚u, ale jsou výpoˇcetnˇe mnohem nároˇcnˇejˇs´ı.

Pˇri prozkoumán´ı výsledk˚u z´ıskaných pomoc´ı výˇse zm´ınˇených shlukovac´ıch algoritm˚u jsme naráˇzeli stále na ten samý problém, a tedy velmi husté um´ıstˇen´ı bod˚u (domén) okolo poˇcátku. Proto vhodnˇejˇs´ım ˇreˇsen´ım bylo prom´ıtnut´ı daného prostoru do jiné dimenze, kde souˇradné osy budou korelovat s hlavn´ımi komponentami prostoru dat. Problém prom´ıtnut´ı dat do nového prostoru reflektuj´ıc´ıho hlavn´ı komponenty systému ˇreˇs´ı napˇr´ıklad algoritmus PCA bl´ıˇze popsaný v sekci 3.3.3. Pomoc´ı tohoto algoritmu bylo moˇzné sn´ıˇzit dimenzi prostoru se zachován´ım maximáln´ı in- formaˇcn´ı hodnoty. Zpˇetnˇe rekonstruovaná matice niˇzˇs´ı dimenze byla opˇet pomoc´ı shlukovac´ıch algoritm˚u (primárnˇe K-means) zpracována, ale mnohem lepˇs´ı výsledky jsme dostali pˇri pouˇzit´ı LSA, odkud jsme zpracovali pouze matici V z SVD rozkladu. Pˇri porovnán´ı výstup˚u vycházej´ıc´ıch z TF-IDF matice a binárn´ı matice²¹byly

21Binárn´ı matice je taková, která má m´ısto nenulových hodnot ˇc´ıslo 1 a jinde 0.

(33)

zaznamenány výraznˇe lepˇs´ı výsledky právˇe pˇri pouˇzit´ı binárn´ı matice, a tedy tato matice byla pouˇzita v následuj´ıc´ıch výpoˇctech. Shlukovac´ı algoritmy vrátily mnoho shluk˚u (cluster˚u), které byly rozprostˇrené po celém prostoru, ale naˇsly také velmi

´

uzce zamˇeˇrené clustery. Pˇri odfiltrován´ı cluster˚u s ˇsirˇs´ım zábˇerem²² z˚ustaly pouze ty clustery, které splˇnovali následuj´ıc´ı podm´ınky v konjuknci:

• Nejnavˇstˇevovanˇejˇs´ı stránka z clusteru byla navˇstˇevována alespoˇn 10 % uˇzivateli z daného tématu.

• Tuto nejnavˇstˇevovanˇejˇs´ı str´anku navˇst´ıvilo alespoˇn 10 uˇzivatel˚u.

• Celkov´y poˇcet uˇzivatel˚u v clusteru je alespoˇn 15.

Výstupem byly pouze takové shluky webových stránek, které svým obsahem byly velmi úzce specializovány. N´ıˇze v tabulce je ukázka dvou náhodnˇe vybraných cluster˚u, které maj´ı velmi úzké zamˇeˇren´ı:

Tabulka 3.1: Velmi ´uzce specializovan´e clustery

Cluster 1 Cluster 2

getdogsex.com cooks.com 3animalsextube.com allrecipes.com

pornsocket.com yummly.com zootube365.com bettycrocker.com animalsexfun.com myrecipes.com

petsex.com epicurious.com homeanimaltube.com kraftrecipes.com

Cluster 2 zobrazuje stránky zabývaj´ıc´ı se pouze vaˇren´ım. Tedy bychom mohli jásat, ˇ

ze pˇresnˇe takové specializace hledáme. Bohuˇzel zbylých cca 70 % cluster˚u se zabývaj´ı sexuáln´ım obsahem a kv˚uli velmi úzké specializaci byly nalezeny i tak nechutné clustery podobné Clusteru 1, které se zabývaj´ı sexuáln´ımi stránkami zamˇeˇrenými na zoofilii. Nutno podotknout, ˇze takto úzce specializované clustery obsahovaly pouze pˇribliˇznˇe 2 % ze vˇsech webových stránek v dostupném korpusu, a právˇe tyto stránky byly tak moc úzce specializovány, ˇze nemˇely vypov´ıdaj´ıc´ı hodnotu pro celý dataset.

Z tˇechto d˚uvod˚u byla pozornost dalˇs´ıho v´yzkumu upˇrena na postupy s jin´ymi pˇr´ıstupy,

(34)

3.4.2 S´ eriov´ e pLSA

Bohuˇzel v pouˇzitých knihovnách (scikit-learn a ScpiPy) nen´ı algoritmus pLSA implementován, a tedy bylo nutné pouˇz´ıt jinou implementaci. Jako vhodné ˇreˇsen´ı byla zvolena implementace kódu [13], který je v následuj´ıc´ı ˇcásti popsán.

Zdrojový kód 3.1: Implementace serializovaného pLSA

1 i m p o r t n u m p y as np 2 ...

3 def p l s a ( t e r m _ d o c _ m a t r i x ):

4 p _ z _ d = np . z e r o s ([ n u m b e r _ o f _ d o c u m e n t s ,

5 n u m b e r _ o f _ t o p i c s ])

6 p _ w _ z = np . z e r o s ([ n u m b e r _ o f _ t o p i c s ,

7 n u m b e r _ o f _ w o r d s )])

8 p _ z _ d _ w = np . z e r o s ([ n u m b e r _ o f _ d o c u m e n t s ,

9 n u m b e r _ o f _ w o r d s ,

10 n u m b e r _ o f _ t o p i c s ])

11 for i in r a n g e( m a x _ i t e r ):

12 # E - s t e p

13 for d _ i n d e x in r a n g e( n u m b e r _ o f _ d o c u m e n t s ):

14 for w _ i n d e x in r a n g e( n u m b e r _ o f _ w o r d s ):

15 p r o b = p _ z _ d [ d_index , :] * p _ w _ z [: , w _ i n d e x ]

16 n o r m a l i z e ( p r o b )

17 p _ z _ d _ w [ d _ i n d e x ][ w _ i n d e x ] = p r o b

18 # M - s t e p

19 for z in r a n g e( n u m b e r _ o f _ t o p i c s ):

21 s = 0

23 c o u n t = t e r m _ d o c _ m a t r i x [ d _ i n d e x ][ w _ i n d e x ]

24 s = s + c o u n t * p _ z _ d _ w [ d_index ,

25 w_index ,

26 z ]

27 p _ w _ z [ z ][ w _ i n d e x ] = s

28 n o r m a l i z e ( p _ w _ z [ z ])

30 for z in r a n g e( n u m b e r _ o f _ t o p i c s ):

31 s = 0

33 c o u n t = t e r m _ d o c _ m a t r i x [ d _ i n d e x ][ w _ i n d e x ]

34 s = s + c o u n t * p _ z _ d _ w [ d_index ,

35 w_index ,

36 z ]

37 p _ z _ d [ d _ i n d e x ][ z ] = s

38 n o r m a l i z e ( p _ z _ d [ d _ i n d e x ])

(35)

Kód na pˇredchoz´ı stránce (viz algoritmus 3.1) je jednoduchou implementac´ı EM a pLSA algoritmu. Vstupem je matice ˇcetnost´ıterm_doc_matrix a výstupem jsou matice p_z_d (znaˇc´ıc´ı podm´ınˇené pravdˇepodobnosti tématu a dokumentu P(z|d)) a matice p_w_z (znaˇc´ıc´ı podm´ınˇené pravdˇepodobnosti slova a tématu P(w|z)). N´ıˇze jsou ukázány sloˇzitosti²⁴:

Tabulka 3.2: Sloˇzitosti serializovan´eho algoritmu pLSA ˇ

casová sloˇzitost pamˇet’ová nároˇcnost

Ω(I·D·W ·(1 + 2Z)) Ω(Z·(D+W +D·W) +D·W)

kde I je poˇcet iterac´ı, D je poˇcet dokument˚u (uˇzivatel˚u), W je poˇcet slov (URL) aZ je poˇzadovaný poˇcet témat. S tˇemito parametry tato implementace nen´ı vhodná pro vˇetˇs´ı matice. V pˇr´ıpadˇe pouˇzit´ı této implementace naraz´ıme jak na ˇcasový, tak i na pamˇet’ový problém. Jiˇz pˇri menˇs´ım datasetu výpoˇcetn´ı ˇcas neúmˇernˇe rychle roste a algoritmus si zbyteˇcnˇe udrˇzuje informace v matici p_z_d_w (znaˇc´ıc´ı posteriorn´ı pravdˇepodobnost P(z|d, w)), jej´ıˇz rozmˇery náleˇz´ıR^D,W,Z.

Abychom zrychlili výpoˇcet, je vhodné uvaˇzovat o jeho paralelizaci. V origináln´ım kódu [13] je i paraleln´ı implementace téhoˇz algoritmu, ovˇsem kv˚uli nˇekolika

”drob- nostem“ nesm´ırnˇe pamˇet’ovˇe nároˇcná. Data (vˇsechny matice se kterými se poˇc´ıtá) jsou kop´ırována ke kaˇzdému procesu. Tedy pamˇet’ová nároˇcnost t´ımto vzroste na Ω(P ·Z·(D+W +D·W) +P ·D·W), kdeP znaˇc´ı poˇcet proces˚u a pro doplnˇen´ı posledn´ıD·W je matice ˇcetnost´ı, ale v dense²⁵ formátu, protoˇze p˚uvodn´ı algoritmus nikterak nepracuje s CSR formátem matice ˇcetnost´ı.

(36)

Kapitola 4

Fin´ aln´ı zpracov´ an´ı

Tato kapitola práce pojednává o postupech, které vedly k nejlepˇs´ım výsledk˚um, a tedy kroky popsané v této ˇcásti jsou nazvány fináln´ımi v zájmu c´ıl˚u této práce.

Kroky jsou provedeny postupnˇe ve stejném poˇrad´ı, jako jsou ˇc´ıslovány sekce v této kapitole.

4.1 Redukce dat

Redukc´ı dat se pomˇernˇe obsáhle zabývá ˇcást 3.2. Pˇresto jsou v této sekci zopa- kovány postupy vedouc´ı ke sn´ıˇzeni dimenze dat jak u URL, tak u uˇzivatel˚u.

Prvnˇe je provedena redukce poˇctu URL stránek, tedy odstranˇen´ı pˇr´ıliˇs velkých a pˇr´ıliˇs malých domén. Velikost´ı domény je zde myˇslena jej´ı popularita, tedy poˇcet unikátn´ıch návˇstˇevn´ık˚u. Po oˇrezu z˚ustanou pouze ty domény, které jsou navˇstˇevovány maximálnˇe 10 % populace a minimálnˇe 10 unikátn´ımi návˇstˇevn´ıky. Vyjádˇreno pomoc´ı matematiky:

W⁰ ={w∈W; 10≤ |w| ≤10 %} (4.1)

kdeW jsou vˇsechny domény,W⁰ jsou domény, které z˚ustaly po oˇrezu a|w|znaˇc´ı poˇcet unikátn´ıch uˇzivatel˚u pro konkrétn´ıw jakoˇzto URL. Pro pˇripom´ınku 10 % populace je pˇribliˇznˇe 22 000 uˇzivatel˚u.

(37)

Dalˇs´ı odstraˇnován´ı je provedeno na uˇzivatel´ıch. Jak jiˇz bylo zm´ınˇeno v ˇcásti 3.2.2, tak je vhodné ponechat pouze ty uˇzivatele, kteˇr´ı chod´ı na 10 aˇz 150 r˚uzných domén.

U⁰ ={u∈U; 10≤ |u| ≤150} (4.2)

kdeU jsou vˇsichni uˇzivatel´e, U⁰ jsou jen ti uˇzivatel´e, kteˇr´ı z˚ustali po odstranˇen´ı a|u|

je poˇcet navˇst´ıvených r˚uzných domén pro konkrétn´ıho uˇzivatele u.

Posledn´ım krokem je ponechán´ı pouze významných domén, a tedy odstranˇen´ı tˇech

”ménˇe“ významných. Hranice mezi nimi byla urˇcena na 10 % (viz druhá ˇcást sekce 3.2.1). Tedy významnou doménou je taková stránka, která tvoˇr´ı alespoˇn 10 % návˇstˇevnosti pro alespoˇn jednoho uˇzivatele.

W⁰⁰ ={w∈W⁰; ∃u∈U⁰ :V(u, w)≥10 %} (4.3) kde U⁰ jsou uˇzivatelé z pˇredeˇslého odstavce, W⁰ jsou domény z pˇredeˇslého odstavce a W⁰⁰ je koneˇcný poˇcet významných domén. Ve výrazu 4.3 se ˇr´ıká, ˇze mnoˇzinu koneˇcných webových stránek tvoˇr´ı takové domény u nichˇz existuje alespoˇn jeden uˇzivatelu, pro kterého je významnost (funkceV(u, w) vrac´ı procentuáln´ı významnost dané domény w pro konkrétn´ıho uˇzivatele u) vˇetˇs´ı neˇz 10 %.

Po dokonˇcen´ı vˇsech operac´ı redukce dat je v´ysledn´a velikost matice

191 676 uˇzivatel˚u×37 441 URL z p˚uvodn´ı velikosti 224 679 uˇzivatel˚u×586 624 URL.

4.2 Paraleln´ı pLSA

Vzhledem k tomu, ˇze se topic-model algoritmus pLSA osvˇedˇcil jako velmi relevantn´ı pro danou problematiku, tak jeho vyuˇzit´ı bylo v´ıceménˇe jisté. Funkˇcnost algoritmu je popsána v ˇcásti 3.3.5.

4.2.1 Popis paraleln´ıho algoritmu pLSA

(38)

nutné jejich zkop´ırován´ı k procesu. Proto bylo nutné pˇrij´ıt s jiným ˇreˇsen´ım. T´ımto ˇreˇsen´ım je ukládán´ı dat do sd´ılené pamˇeti. Vzhledem k tomu, ˇze v MetaCentru puˇstˇené úlohy pracuj´ı na nˇekolika r˚uzných procesorech, je vyuˇz´ıván´ı sd´ılené pamˇeti ponˇekud obt´ıˇznˇejˇs´ı. Je nutné sd´ılet pamˇet’ pˇres diskové úloˇziˇstˇe, ke kterému maj´ı pˇr´ıstup vˇsechny procesy na vˇsech procesorech. Bylo tedy nutné vyuˇz´ıtmemmap¹. D´ıky tomu bylo moˇzné pracovat s mnohem vˇetˇs´ı pamˇet´ı, neˇz byla velikost operaˇcn´ı pamˇeti (RAM) pˇri zachován´ı relativnˇe rychlého pˇr´ıstupu pˇri sekvenˇcn´ıch operac´ıch. N´ıˇze následuje ukázka zdrojového kódu ukazuj´ıc´ı inicializaci sd´ılené pamˇeti:

Zdrojový kód 4.1: Inicializace sd´ılené pamˇeti v paraleln´ım pLSA

1 i m p o r t n u m p y as np

2 g l o b a l p_z_d , p_w_z , p _ w _ z _ t e m p _ a r r a y , p _ z _ w _ d i _ a r r a y 3 p _ z _ d = np . m e m m a p (" p _ z _ d . mm ", s h a p e =( n u m b e r _ o f _ d o c u m e n t s ,

4 n u m b e r _ o f _ t o p i c ))

5 p _ w _ z = np . m e m m a p (" p _ w _ z . mm ", s h a p e =( n u m b e r _ o f _ t o p i c ,

6 n u m b e r _ o f _ w o r d s ))

7 p _ w _ z _ t e m p _ a r r a y = np . m e m m a p (" p _ w _ z _ t e m p _ a r r a y . mm ",

8 s h a p e =( n u m b e r _ o f _ c h u n k s ,

9 n u m b e r _ o f _ t o p i c ,

10 n u m b e r _ o f _ w o r d s ))

11 p _ z _ w _ d i _ a r r a y = np . m e m m a p (" p _ z _ w _ d i _ a r r a y . mm ",

12 s h a p e =( n u m b e r _ o f _ c h u n k s ,

13 n u m b e r _ o f _ t o p i c ,

14 n u m b e r _ o f _ w o r d s ))

kde matice p_z_d ∈ R^D,Z je P(z|d) a p_w_z ∈ R^Z,W je P(w|z), kde W je poˇcet slov (URL), D je poˇcet dokument˚u (uˇzivatel˚u) a Z je poˇcet témat. Ma- tice p_w_z_temp_array ∈ R^C,Z,W slouˇz´ı pro doˇcasné ukládán´ı výsledk˚u matice P(w|z) z EM algoritmu a p_z_w_di_array ∈ R^C,Z,W obstarává pozici P(z|w, d).

PromˇennáCznaˇc´ı poˇcet ˇcást´ı (chunk˚u), které jsou paralelnˇe rozdˇeleny mezi jednotlivé procesory. T´ımto bychom mˇeli m´ıt vyˇreˇsený problém se sd´ılenou pamˇet´ı.

Dalˇs´ım úkolem bylo rozdˇelen´ı výpoˇcetn´ıch ˇcást´ı v kódu tak, aby jednotlivé ˇcásti (chunky) byly na sobˇe nezávislé, a tedy paralelizace byla v˚ubec moˇzná.

Hlavn´ı idea paralelizace pLSA Kaˇzdý procesor dostane na starost ˇcást dokument˚u (pˇr. rozsah 1. aˇz 30. dokument), které zpracuje a vrát´ı výslednou matici P(w|z) pro dané dokumenty (1. aˇz 30.). Po dokonˇcen´ı výpoˇctu vˇsech ˇcást´ı se tyto matice P(w|z) uloˇzené v p_w_z_temp_array seˇctou a výsledkem je nová maticeP(w|z) pro dalˇs´ı iteraci algoritmu.

1Mapov´an´ı diskov´e pamˇeti jakoˇzto operaˇcn´ı pamˇeti RAM.

(39)

Pro lepˇs´ı pochopen´ı souvislost´ı je n´ıˇze bliˇzˇs´ı popis postupu:

1. Alokace sd´ılen´ych matic. Vytvoˇren´ı matic mapovan´ych na disk.

2. Výpoˇcet interval˚u mezi dokumenty (chunk˚uC), které se pozdˇeji pˇredaj´ı jednot- livým proces˚um.

3. Pro kaˇzdou iteraci:

(a) Vytvoˇren´ıC proces˚u.

(b) Kaˇzdému z proces˚u se pˇredá jedna ˇcást (chunk C).

(c) Pro kaˇzdou ˇcást (chunk), kde i náleˇz´ı indexu dokumentu z intervalu pˇriˇrazeného dané ˇcásti:

i. E-krok:

P(z|w, d_i) = P(z|d_i) · P(w|z) + 10⁻⁸







x1,1 . . . x1,W

... . .. ... x_Z,1 . . . x_Z,W







=





 a1

... a_Z







·







b1,1 . . . b1,W

... . .. ... b_Z,1 . . . b_Z,W







+ 10⁻⁸

(4.4) kde konstanta 10⁻⁸ je

”renormalizaˇcn´ı“ faktor (matice pln´a tˇechto ˇ

c´ısel), kter´y odstran´ı nulu vzniklou pˇri souˇcinu P(z|d_i) · P(w|z).

Vznikl´a nula by se totiˇz propagovala do dalˇs´ıch krok˚u a pˇri normalizaci by se dˇelilo nulou.

ii. Normalizace sloupeˇck˚uP(z|w, d_i) dle L1 normy.

iii. M-krok, ˇc´ast prvn´ı:

Y_n(w,d^P^(z|w,dⁱ⁾

i) = n(w|d_i) · P(z|w, d_i)







y_1,1 . . . y_1,W ... . .. ... y_Z,1 . . . y_Z,W







=

n_D_i_,1 . . . n_D_i_,W ·







x_1,1 . . . x_1,W ... . .. ... x_Z,1 . . . x_Z,W







(4.5)