Posudek vedoucího bakalářské práce
Studijní program:Aplikovaná informatika Studijní obor:Aplikovaná informatika Akademický rok:2020/2021
Název práce:Predikce golfových výsledků užitím metody lineární regrese Řešitel:Luboš Vocásek
Vedoucí práce:Mgr. Vladimír Holý, Ph.D.
Oponent:Ing. Jakub Hanousek
Hlediska Stupeň
hodnocení
1. Jasnost a srozumitelnost formulace tématu a cíle práce 3
2. Rozsah a relevance popisu současného poznání 3
3. Náročnost řešeného tématu práce 2
4. Adekvátnost metod k řešení stanoveného problému, správnost jejich výběru a použití 2
5. Rozsah, hloubka a preciznost popisu výsledku 3
6. Relevance a správnost diskuse výsledku 3
7. Věcný přínos výsledku dosaženého v práci 3
8. Relevance informačních zdrojů a korektnost jejich citování 3
9. Logická stavba práce a vzájemná konzistence jednotlivých částí 3 10. Gramatika, jazykový styl, terminologie a celková úprava práce 3
11. Iniciativnost studenta a spolupráce s vedoucím práce 3
12. Využití analytických metod a metod zpracování dat 3
13. Naplnění zásad etiky a udržitelnosti 1
14. Schopnost kritického a tvůrčího myšlení 3
Konkrétní připomínky a dotazy k práci:
Cílem práce je určit závislost výsledného skóre kola golfu na základě 3 dílčích statistik. Tento cíl ovšem není ze začátku práce dostatečně patrný a chybí zde i diskuze o smysluplnosti tohoto přístupu. Celá práce je replikace modelu popsaného v nevědeckém článku [Vrahas, 2020,
https://towardsdatascience.com/scikit-learn-linear-regression-for-predicting-golf-performance- c92f31b69f92] na jiná
data.
Jako nástroj pro určení závislosti byla zvolena lineární regrese. Popis této základní metodologie je značně zmatený, protože autor používá velmi nestandardní terminologii a skoro v každém vzorci jiné značení.
Empirická část je podobně jako zbytek práce špatně srozumitelná. Každá sekce používá jiná data a není jasné proč. Model byl odhadnut na datech ze sezóny 2018. V textu není uveden počet pozorování, data jsou ale přiložena, a tak čtenáři nezbývá než počítat řádky tabulky přes několik stran. V sekci 6 je pak model testován na 10 náhodných výsledcích z 2019. Proč není použit celý vzorek? Sekce 7 pak srovnává odhadnuté koeficienty z původního modelu Vrahas s koeficienty odhadnutými autorem. Zde jsou využito 190 pozorování z roku 2017; opět není jasné proč byl teď použit zrovna tenhle vzorek a ne jiný. Autor nepostupuje systematicky, ale značně nahodile. Vzhledem k tomu, že použití jiných dat než v původním modelu Vrahas je hlavním přínosem práce, čekal bych zde preciznější přístup.
Z formálního hlediska je práce značně odbytá. Vzorcům často chybí interpunkce. V seznamu literatury je každá položka psaná v jiném stylu. Práce obsahuje gramatické chyby. Některé věty nedávají smysl; jedna věta např. nemá ani začátek.
Polehčující okolností může částečně být, že se autor s metodologií lineární regrese seznamoval až při psaní práce, což není ideální. Navíc se jedná o téma mimo studijní obor autora. Velkou část z mých výše uvedených připomínek už jsem autorovi psal dopředu; rozhodl se je ale nezapracovat.
Práci doporučuji k obhajobě se známkou 3.
Závěr: Bakalářskou práci doporučuji k obhajobě.
Navrhovaná výsledná klasifikace práce: 3
Datum: 13. 8. 2021 Mgr. Vladimír Holý, Ph.D.
vedoucí práce