Posudek oponenta bakalářské práce
Student: Michal Štefánik
Název práce: Nástroj pro odhalování plagiátů v esejích Vedoucí: RNDr. Vít Suchomel
Oponent: Mgr. et Mgr. Vít Baisa
Cílem práce byla implementace dvou metod pro odhalování plagiátů v esejích a jejich vyhodnocení a aplikace na dvou datových množinách.
Práce je psaná slovensky, takže nemohu posoudit její jazykovou správnost. Obsahuje pouze málo překlepů. Po formální stránce obsahuje zbytečné typografické chyby, jde však spíše o detaily. Je přehledně členěna na teoretickou a praktickou část.
Autor implementoval dvě metody detekce pomocí shody na n-gramech a kosinové vzdálenosti na vektorech termů. Oceňuji zejména jazykovou nezávislost obou metod. Rychlost dle mého nehraje velkou roli, protože aplikace na detekci plagiátů se bude spouštět pravděpodobně spíš jednou za čas hromadně. Zpracování v řádů několika dní je ještě únosné.
Vizualizace plagiátů je jistě užitečná, ale šla by vylepšit, například zarovnáním shodných vět / segmentů vedle sebe.
Chybí mi srovnání s nějakou „baseline" metodou, například počet totožných vět (nebo jiných struktur podle granularity) mezi dvěma dokumenty.
Vzhledem k úrovni práce ji doporučuji k obhajobě s hodnocením známkou A . Otázky k obhajobě:
1. Existují nástroje pro odhalování plagiátů využívající word2vec nebo doc2vec modely?
2. Jak se zajistí správný zápis do sdíleného textového dokumentu při paralelním běhu několika instancí (str. 34).
3. Čím lze vysvětlit nejlepší výsledky n-gramové metody pro 7-gramy (tabulka 6.3)?
4. Jak lze algoritmus upravit tak, aby hledal nejméně podobné dokumenty? Takové by mohly potenciálně být ty nej originálnější, obsahující neobvyklé obraty, snad i nejbohatší slovní zásobu.
5. Jak by bylo možné upravit nástroj, aby automaticky, na základě malého vzorku ručně anotovaných párů dokumentů, nastavil své parametry tak, aby maximalizoval f-skóre na tomto vzorku?
6. Proč nejsou některé plagiované věty ve vizualizaci (příloha B) zvýrazněny?