Oponentura70095_danj01.pdf, 57.4 kB Stáhnout

(1)

Posudek oponenta diplomové práce

Studijní program:Kvantitativní metody v ekonomice Studijní obor:Statistika

Akademický rok:2020/2021

Název práce:Hodnocení úspěšnosti metod při shlukové analýze Řešitel:Bc. Gabriela Wustingerová

Vedoucí práce:Ing. Tomáš Löster, Ph.D.

Oponent:Ing. Jakub Danko, Ph.D.

Hlediska Stupeň

hodnocení

1. Jasnost a srozumitelnost formulace tématu a cíle práce 1

2. Rozsah a relevance popisu současného poznání 1

3. Náročnost řešeného tématu práce 1

4. Adekvátnost metod k řešení stanoveného problému, správnost jejich výběru a použití 1

5. Rozsah, hloubka a preciznost popisu výsledku 1

6. Relevance a správnost diskuse výsledku 1

7. Věcný přínos výsledku dosaženého v práci 1

8. Relevance informačních zdrojů a korektnost jejich citování 2

9. Logická stavba práce a vzájemná konzistence jednotlivých částí 1 10. Gramatika, jazykový styl, terminologie a celková úprava práce 1

Konkrétní připomínky a dotazy k práci:

Autorka sa v práci venuje hodnoteniu úspešnosti jednotlivých metód z pohľadu určenia optimálneho priradenia pri zhlukovej analýze. Ako veľkú pridanú hodnotu vidím to, že okrem podrobného spracovania 25 súborov vykonala predtým ešte korektným spôsobom prieskumovú analýzu dát a v prípade, ak boli premenné vzájomne lineárne závislé, uvažovala namiesto o pôvodných premenných vstupujúcich do zhlukovej analýzy, o tzv. zhlukovaní komponentov vychádzajúcich z metódy hlavných komponentov, ktoré sa v literatúre v tomto prípade odporúča.

Práca je písaná veľmi vhodným spôsobom, stručne, jasne a hlavne je veľmi praktická. Stručnosť spracovania platí najmä pre teoretickú časť práce, kde študentka naozaj iba spracovala základné informácie o metódach využívaných v analytickej časti práce. Negatívnom teoretickej časti je, že často autorka vychádza z toho istého zdroja literatúry a celkovo zoznam použitej literatúry je na záverečnú prácu tohto typu veľmi stručný a málo ambiciózny neobsahujúci žiadne zahraničné zdroje.

V práci sa nachádza niekoľko malých gramatických a štylistických chýb, ktoré však kvalitu práce nijako neznižujú. Našiel som v nej však aj niektoré výroky a výstupy, s ktorými nemôžem súhlasiť. Napríklad na strane 32 autorka tvrdí, že “P-hodnota Bartlettova testu je menší než 0,000 a tedy zamítáme nulovou hypotézu.“, čo samozrejme z logiky veci nemôže byť pravda, keďže P-hodnota štatistického testu je pravdepodobnosť, ktorá nedosahuje záporné hodnoty. Na strane 19 pri uvedení ďalších druhoch vzdialeností medzi objektami sú tieto vzdialenosti iba vymenované bez toho aby boli nejako hlbšie diskutované, alebo aspoň aby bol pri každej z nich uvedený postup ich výpočtu (vzorec na výpočet konkrétnej vzdialenosti). Z tohto dôvodu nemá zmysel konštatovanie u Minkowského vzdialenosti o tom, že: „Minkowského vzdálenost, která by při n=1 znamenala Manhattanskou vzdálenost a při n=2

euklidovskou vzádelnost“. Vzhľadom k tomu, že tam nie je uvedený žiaden vzorec na výpočet Minkowského vzdialenosti, čitateľ nevie čo je n.

Čo však musím pochváliť je štatisticky precízne a veľmi presné vyjadrovanie sa a porovnávanie

úspešnosti jednotlivých metód. Porovnávajú sa relatívne ukazovatele prostredníctvom podielu úspešnosti priradenia a autorka veľmi správne odlišuje medzi pojmami „percento“ a „percentuálny bod“. Bohužiaľ často sa stále stretávame s nekorektnými interpretáciami tohto typu v iných záverečných prácach alebo aj v médiách a podobne. Samotná analytická časť je spracovaná podrobne a precízne, výsledky sú

diskutované vhodným spôsobom a rovnako aj na konci sú uvedené korektné závery.

(2)

Čo sa týka technickej realizácie a spracovania tak oceňujem, že to určite nebolo jednoduché všetko dať dokopy a vypočítať, najmä voľbou z môjho pohľadu neefektívneho nástroja na analýzu. Predpokladám, že každý jeden z 25 datasetov musel byť analyzovaný osobitne a postupne bolo jednotlivé kroky potrebné vyklikávať. Ak by sa úspešnosť jednotlivých metód mala porovnávať napríklad na 1000 rôznych

datasetoch, vidím tam obrovské limity použitia softvéru IBM SPSS Statistics. V prípade ak by sa autorka chcela téme ešte ďalej venovať, odporúčam podobné analýzy realizovať v prostredí open source štatistického programovacieho jazyka R, ktorý umožňuje výpočty automatizovať a celkovo je oveľa flexibilnejší a má oveľa viac možností ako komerčný a spoplatnený nástroj IBM SPSS Statistics. Okrem toho v tejto časti musím povedať aj to, že exporty výstupov z tohto softvéru vo forme screenshotov pôsobia v práci veľmi neprofesionálnym dojmom.

Aj napriek uvedeným pripomienkam považujem prácu za veľmi kvalitnú a odporúčam ju k obhajobe.

Na študentku mám nasledujúce otázky:

Dospeli ste k zaujímavému záveru, že aj napriek odporúčaniu literatúry v prípade korelácie premenných nie je vôbec potrebné používať metódu hlavných komponent a až potom zhlukovať. Podobné odporúčanie v literatúre nájdeme aj čo sa týka faktorovej analýzy, ktorá sa odporúča aplikovať tiež pred realizáciou zhlukovej analýzy v prípade ak sú dáta vzájomne korelované a do zhlukovej analýzy majú namiesto pôvodných premenných vstupovať tzv. faktorové skóre. Na základe vlastnej skúsenosti a výpočtov aj v prípade faktorovej analýzy, rovnako ako Vy, nesúhlasím s odporúčaním literatúry neaplikovať zhlukovú analýzu na vzájomne lineárne závislé premenné. Skúšali ste redukciu počtu dimenzií aj prostredníctvom faktorovej analýzy? Ak áno aké ste dosiahli výsledky?

V práci uvažujete iba o jednom druhu vzdialenosti, čo je správne, lebo inak by tam vzniklo oveľa viac možných kombinácií (metrika vzdialenosti x metóda zhlukovania x štandardizované/neštandardizované dáta). Nie je mi však jasné kedy dáta štandardizujete a kedy nie. Z toho čo tam máte napísané sa mi zdá, že štandardizáciu realizujete iba v prípade, ak údaje nie sú v rovnakých merných jednotkách. Iba vtedy má podľa Vás zmysel štandardizácia údajov? Nebolo by v tomto prípade lepšie spraviť pre všetky datasety výsledky so štandardizáciou aj bez štandardizácie a porovnať to?

Čím si vysvetľujete výsledok v kapitole 2.19 kedy pri všetkých metódach zhlukovania či na pôvodných dátach alebo na komponentoch stále vyšla úspešnosť priradenia na úrovni 56 %. Nemohli ste do analýzy náhodným výberom 5000 objektov zaniesť nejakú chybu?

V kapitole 2.22 uvádzate, že dataset obsahuje 10 peremenných, z toho 9 je číselne spojitých a jedna premenná je kategorická (pohlavie). Ako ste u tohto datasetu počítali vzdialenosti medzi jednotlivými objektami? Zohľadnili ste nejako aj kategorickú premennú alebo ste maticu vzdialenosti počítali iba na tých 9 číselne spojitých premenných?

Závěr: Diplomovou práci doporučuji k obhajobě.

Navrhovaná výsledná klasifikace práce: 1

Datum: 24. 5. 2021 Ing. Jakub Danko, Ph.D.

oponent práce