Posudek oponenta bakalářské práce
Studijní program:Kvantitativní metody v ekonomice Studijní obor:Statistické metody v ekonomii
Akademický rok:2021/2022
Název práce:Očekávané branky ve fotbalových zápasech Řešitel:Jakub Peroutka
Vedoucí práce:Ing. Adam Čabla, Ph.D.
Oponent:doc. RNDr. Ivana Malá, CSc.
Hlediska Stupeň
hodnocení
1. Jasnost a srozumitelnost formulace tématu a cíle práce 1
2. Rozsah a relevance popisu současného poznání 1
3. Náročnost řešeného tématu práce 1
4. Adekvátnost metod k řešení stanoveného problému, správnost jejich výběru a použití 1
5. Rozsah, hloubka a preciznost popisu výsledku 2
6. Relevance a správnost diskuse výsledku 1
7. Věcný přínos výsledku dosaženého v práci 1
8. Relevance informačních zdrojů a korektnost jejich citování 1
9. Logická stavba práce a vzájemná konzistence jednotlivých částí 2 10. Gramatika, jazykový styl, terminologie a celková úprava práce 3
Konkrétní připomínky a dotazy k práci:
Práce se zabývá aktuálním tématem analytických postupů týkajících se sportovních dat. Statistika a datové vědy obecně poskytují možnosti posunů dopředu ve sportu, vycházejících ze sofistikovaných postupů analýzy dat. Výsledky mají široké použití od tvorby tréninkových postupů přes oceňování hráčů až po prediktivní sázkařské modely. Autor práce si vybral fotbal a základní charakteristiku používanou pro hodnocení výkonu hráčů i týmů představující očekávaný počet branek v zápase.
Autor prokazuje silný a hluboký zájem o problematiku a také potřebné znalosti prostředí a problému. Na studenta bakalářského stupně studia velmi dobře cítí potřeby analýzy dat a prokazuje všechny vlastnosti budoucího úspěšného analytika. Statistické metody jsou odpovídající problému, jsou dobře zvolené a velmi pokročilé (regrese, regresní stromy a lesy nebo neuronová síť). Provedená simulace je pěkná, i když stále je třeba si domyslet hodně kroků.
Vzhledem k obtížnosti metod a délce textu se autor nevyhnul problémům, chybám a nepřesnostem.
Projevují se zvláště ve chvílích, kdy se autor snaží postupy formalizovat. Čtenáři situaci neusnadňuje fakt, že autor nerozlišuje odhad a teoretickou hodnotu a pro všechny proměnné (v podstatě) používá jeden symbol X. Při definice Z skore autor nerozlišuje proměnnou, výběr a výběrové charakteristiky. POdle mého názoru jsou v práci naprosto zbytečně uvedeny teoretické části (2.2.1-2.2.3, 2.2.5), v části 2.2.6 by měl být zmíněn GLM model. Některé vzorce se opakují (např. str. 12 a pak teoretická kapitola), často nejsou úplně správně, i když pak v příkladu autor počítá dobře.
Práce je napsaná pečlivě a srozumitelně, jen občas autor vybočí do sportovních či uvolněných výrazů – např. přechytračit metriku.
Celkově by patrně kvalitě práce pomohlo použití menšího množství postupů, které by byly použity přesněji a podrobněji vysvtěleny a prozkoumány. Nicméně nadšení autora pro moderní metody a jejich možnosti je třeba pochopit a akceptovat jeho volbu.
Práce je vysoce nadprůměrná, velmi obtížná a má jasný praktický dopad do zkoumané oblasti. Přes všechny problémy kvalita převažuje a výsledek je třeba ocenit jako velmi zdařilý. Proto práci doporučuji k obhajobě a navrhuji hodnotit ji výborně.
Otázky k diskusi: 1.Jak jste postupoval při výběru proměnných v Poissonově regresním modelu? Jaké
problémy má výběr proměnných obecně a jak k nim přistupujeme? 2. Proč u metody regresních lesů necháváte tak velkou rezervu při volbě počtu stromů (obr. 4.2)? Jaký vliv má tato volba na odhady, případně časovou náročnost? Proč při metodě k-nejbližších sousedů roste s RMSE s volbou k? Jak se projevuje počet zápasů (bylo by dobré přidat do tab. 4.6.)? 3. Jakého poznání si nejvíce ceníte Vy na svých výsledcích? Co by nejvíce ocenili uživatelé?
Závěr: Bakalářskou práci doporučuji k obhajobě.
Navrhovaná výsledná klasifikace práce: 1
Datum: 11. 1. 2022 doc. RNDr. Ivana Malá, CSc.
oponent práce