• Nebyly nalezeny žádné výsledky

Dolovanieznalostízodpovedníkov }w  !"#$%&'()+,-./012345<yA|

N/A
N/A
Protected

Academic year: 2022

Podíl "Dolovanieznalostízodpovedníkov }w  !"#$%&'()+,-./012345<yA|"

Copied!
34
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

MASARYKOVA UNIVERZITA

FAKULTA INFORMATIKY

}w !"#$%&'()+,-./012345<yA|

Dolovanie znalostí z odpovedníkov

BAKALÁRSKA PRÁCA

Miroslav Sliacky

Brno, 2010

(2)

Prehlásenie

Prehlasujem, že táto bakalárska práca je mojím pôvodným autor- ským dielom, ktoré som vypracoval samostatne. Všetky zdroje, pra- mene a literatúru, ktoré som pri vypracovaní používal alebo z nich ˇcerpal, v práci riadne citujem s uvedením úplného odkazu na prí- slušný zdroj.

Miroslav Sliacky

Vedúci práce: doc. RNDr. Lubomír Popelínský, Ph.D.

(3)

Pod’akovanie

Chcel by som pod’akovat’ svojej rodine a priatel’ke ktorí ma podpo- rujú v štúdiu. ˇDakujem aj vedúcemu doc. RNDr. Lubomírovi Pope- línskému, Ph.D. za odborné vedenie práce a Bc. Zdenkovi Kedajovi za cenné rady.

(4)

Zhrnutie

Ciel’om práce je rozšírit’ nastroj pre analýzu odpovedníkov DŽEMUj.

(5)

Kl’úˇcové slová

RadViz 3D, java, dolovanie, vizualizácia, DŽEMUj, scatterplot, rozp- tylový diagram

(6)

Obsah

1 Úvod . . . 1

2 Dolovanie z dát . . . 2

2.1 Vizualizaˇcné techniky . . . 2

2.1.1 RadViz . . . 2

2.1.2 Rozptylový diagram (scatter plot) . . . 3

2.1.3 Matica rozptylových diagramov (scatter plot mat- rix) . . . 4

2.1.4 Spojnicový diagram . . . 4

2.1.5 Graf paralelných súradníc . . . 5

2.1.6 Kruhový diagram . . . 6

3 Systém DŽEMUj . . . 7

3.1 Vizualizaˇcné techniky použité v DŽEMUj . . . 7

3.1.1 Rozptylový diagram . . . 7

3.1.2 RadViz . . . 8

4 Analýza . . . 10

4.1 RadViz 3D . . . 10

4.1.1 SumatraTT 2.0 . . . 11

4.2 Rozptylový diagram - animácia riešenia odpovední- kov v ˇcase . . . 12

4.3 Java . . . 13

4.3.1 Použité knižnice . . . 13

4.4 Analýza aktuálneho systému . . . 14

5 Návrh a implementácia . . . 15

5.1 Rozptylový diagram . . . 15

5.1.1 Riešenie v ˇcase . . . 15

5.1.2 Animácia riešenia odpovedníkov v ˇcase . . . 15

5.2 RadViz 3D . . . 16

6 Testovacie dáta . . . 17

6.1 Príklad 1 . . . 17

6.2 Príklad 2 . . . 20

7 Záver . . . 24

A Príloha . . . 25

B Obsah CD . . . 27

(7)

1 Úvod

E-learning je vzdelávací proces, využívajúci informaˇcné a komuni- kaˇcné technológie k tvorbe kurzov, distribúcii študijného materiálu, na komunikáciu medzi študentami a pedagógmi a k riadeniu štú- dia [7]. V dnešnej dobe je už pre mnohých študentov neoddelitel’nou súˇcast’ou vzdelávacieho procesu.

Situácia nie je iná ani na Masarykovej univerzite. Študíjné mate- riály v elektronickej podobe, aplikácie ako napr. Dril, odpovedníky a pod. sú ˇcasto využívané v rámci informaˇcného systému (IS) Masa- rykovej univerzity. Okrem toho, že tieto nástroje ul’ahˇcujú štúdium, zárove ˇn poskytujú cenné dáta a spätnú väzbu vyuˇcujúcim. Aby tieto dáta boli užitoˇcné, je potrebné aby boli spracované, analyzované a zrozumitel’ne zobrazené.

Pre tieto úˇcely bol na pôde MU vyvinutý systém DŽEMUj [1], ktorého grafické rozhranie bolo vytvorené sadou apletov v rámci [3].

Ciel’om tejto bakalárskej práce je rozšírit’ toto rozhranie o nové prvky a umožnit’ tak získat’ d’alšie potencionálne užitoˇcné informácie.

Nasledujúca kapitola sa venuje dolovaniu z dát (datamining) a opisuje niektoré ˇcasto používané vizualizaˇcné techniky.

V tretej kapitole je popísaný systém DŽEMUj a vizualizaˇcné tech- niky, ktoré sú v ˇnom použité.

V štvrtej kapitole sú analyzované požiadavky na nové rozširu- júce prvky.

Piata kapitola sa sústred’uje na ich návrh a implementáciu.

Záver obsahuje zhrnutie dosiahnutých výsledkov aj s ukážkami.

(8)

2 Dolovanie z dát

Sme zaplavení obrovským množstvom dát–vedecké, zdravotné, de- mografické, finanˇcné a marketingové. No l’udia nemajú ˇcas, aby ich sledovali. L’udská pozornost’ sa stala vzácnym zdrojom. Preto mu- síme nachádzat’ možnosti, ako tieto dáta automaticky analyzovat’, klasifikovat’, sumarizovat’ a charakterizovat’ z nich vyplývajúce trendy a objavovat’ anomálie [2].

Možné riešenia týchto požiadaviek sa snaží nájst’ dolovanie z dát, ktorého úlohou je extrahovat’ implicitné, doposial’ neznáme a poten- cionálne užitoˇcné dáta [8]. Pokrýva viacero oblastí ako sú napr. data- bázy, strojové uˇcenie, štatistika, neurónové siete, umelá inteligencia a vizualizácia dát.

2.1 Vizualizaˇcné techniky

Práve vizualizácia dát je pre koncových užívatel’ov podstatná. Je dô- ležité, aby výstupné dáta boli podané formou zrozumitel’nou aj pre neodborníkov. Najˇcastejšie sú preto používané rôzne druhy prehl’ad- ných tabuliek a názorných grafov. Niektoré z nich si bližsie predsta- víme.

2.1.1 RadViz

RadViz (Radial Coordinate Visualization) je vizualizaˇcná metóda, ktorá používa Hookov zákon pre mapovanie množinyn-dimenzionálnych bodov do roviny [6]. Tieto body sú zobrazované do priestoru kruhu, ktorý má po obvode rovnomerne rozmiestnené tzv. dimenzionálne kotvy. Každá z nich je s bodom spojená pružinou, ktorá prit’ahuje bod smerom k dimenzionálnej kotve silou urˇcenou hodnotou bodu v danej dimenzii. Samotný bod sa tak zobrazí na miesto, kde všetky pôsobiace sily sú v rovnovážnom stave (obr. 2.1).

Nevýhodou RadVizu je, že na rovnaké miesto v grafe sa môže zobrazit’ viac bodov napriek tomu, že hodnoty v odpovedajúcich si dimenziách nie sú rovnaké. Riešením v takýchto situáciách môže byt’

napríklad pridanie d’alšieho atribútu, napr. farby.

(9)

2. DOLOVANIE Z DÁT

Obrázok 2.1: RadViz

2.1.2 Rozptylový diagram (scatter plot)

Rozptylový diagram slúži na odhal’ovanie vzt’ahov alebo asociácií medzi dvoma premennými. Každá z nich je nanesená na jadnu os a podl’a ich hodnôt sa zobrazí bod v grafe. Tieto vzt’ahy sa prejavujú ako akákol’vek nie náhodná štruktúra v grafe [5]. Vo výsledku môže nastat’ niektorá z nasledujúcich závislostí.

a) Bez vzt’ahu - Body v grafe su náhodne rozmiestnené (obr. A.1).

b) Lineárna (pozitívna, negatívna) - Graf má tvar rastúcej alebo kle- sajúcej priamky (obr. A.2).

c) Kvadratická - Body sú rozmiestnené v tvare paraboly (obr. A.3) . d) Exponenciálna - Výsledný tvar krivky je hyperbola v prvom kvad-

rante (obr. A.4).

e) Variácia Y závisí na X - Ide o približne lineárny graf, ale rozptyl hodnôtyzávisí od vel’kosti hodnotyx(obr. A.5).

f) Variácia Y nezávisí na X - Hodnoty y sa nachádzajú v urˇcitom konštantnom intervale (nezávisle od x) a lineárne stúpajú (obr.

A.6).

(10)

2. DOLOVANIE Z DÁT

g) Outsider - Takýto prípad nastáva ked’ jeden bod grafu výrazne vyˇcnieva spomedzi ostatných (obr. A.7).

2.1.3 Matica rozptylových diagramov (scatter plot matrix)

Majme množinu premennýchX1, X2, ...Xn, potom matica rozptylo- vých diagramov sn-riadkami an-st´lpcami, obsahuje diagramy všet- kých dvojíc. Vznikne tak n(n−1)2 rôznych grafov a na itom riadku a jtom st´lpci sa nachádza diagram Xi Xj. Na diagonále bývajú ˇcasto názvy premenných a vzhl’adom na to, že graf je symetrický, sa nie- kedy zvykne vynechat’ ˇcast’ pod (alebo nad) diagonálou.

Obrázok 2.2: scatter plot matrix

2.1.4 Spojnicový diagram

Alebo tiež polygón poˇcetností je vytváraný spojením bodov, ktorých súradnica x je hodnotou sledovaného znaku a súradnica y je jeho poˇcetnost’. Ak je viac atribútov závislých od jednej premennej, sú vzniknuté lomené ˇciary zakreslené bud’ do jedného grafu, alebo do viacerých pod seba. Patrí medzi základné a najˇcastejšie používané grafy.

(11)

2. DOLOVANIE Z DÁT

Obrázok 2.3: Príklady spojnicových diagramov

2.1.5 Graf paralelných súradníc

Táto metóda zobrazuje multidimenzionálne dáta. Jednotlivé dimen- zie sú zobrazené zvislými osami rovnakej d´lžky tak, že minimálna hodnota každej dimenzie sa nachádza na jej zaˇciatku a maximálna na jej konci.

Výsledok je zobrazený ako lomená ˇciara, ktorej zlom sa nachádza vždy v bode na osi, ktorý zodpovedá danej hodnote v danej dimen- zii.

Pri vel’kom množstve dát sa môže graf stat’ neˇcitatel’ným (obr. 2.3).

V takom prípade si môžeme napr. vybrat’ len urˇcitý interval niekto- rého z atribútov a zobrazit’ iba takto filtrované prípady (obr. 2.4).

Obrázok 2.4: graf paralelných súradníc s vel’kým množstvom dát [6]

(12)

2. DOLOVANIE Z DÁT

Obrázok 2.5: graf paralelných súradníc s filtrom [6]

2.1.6 Kruhový diagram

Tiež nazývaný koláˇcový diagram je jeden zo základných a najˇcastej- šie používaných grafov a je názorný aj pre laickú verejnost’ [4].

Základný kruhový diagram znázor ˇnuje percentuálny podiel jed- notlivých ˇcastí zo všetkých dát. Pre znázornenie jednej skupiny dát sa zvykne zodpovedajúca ˇcast’ grafu vykrojit’ a tým zvýraznit’ (obr.

2.6). Môže byt’ zobrazovaný ako v 2D, tak aj v 3D podobe. Pri troj- rozmernom zobrazení je potrebné dávat’ si pozor na sklon a hrúbku grafu, aby nestrácal na ˇcitatel’nosti.

Obrázok 2.6: Jednoduchý kruhový diagram

(13)

3 Systém DŽEMUj

IS poskytuje v súˇcasnosti študentom aj vyuˇcujúcim množstvo mož- ností na zlepšenie študíjných výsledkov, medzi ktoré, okrem iných, patria, v rámci e-learningu, aj odpovedníky. Snaha o ich ˇco najefek- tívnejšie využitie vyústila do vytvorenia systému na dolovanie zna- lostí z e-learningu - DŽEMUj, ktorý obsahuje nasledujúce analýzy [1]:

1. Jednoduchá štatistická analýza obsahuje výpoˇcet priemerného bodového zisku študentov za otázku a taktiež poˇcty správnych, chybných a nezodpovedaných odpovedí a ich vzájomný pomer.

Dalej poˇcíta pomer medzi jednotlivými chybnými možnost’amiˇ odpovedí na otázku.

2. Zhluková analýza rozdel’uje dáta do skupín na základe podob- nosti.

3. Analýza prístupov sa zameriava na prístupové siet’ové adresy, ˇcas uloženia odpovedí a bodový zisk za ne. Poukazuje na ˇcasové rozostupy študentov pristupujúcich z podobných adries.

4. Casté vzoryˇ ukazujú na opakujúce sa vzorce správania študentov v zmysle vol’by odpovedí na otázky odpovedníka.

Aby výsledky analýz boli pre uˇcitel’ov ˇco najnázornejšie a l’ahko po- chopitel’né, je potrebné, aby boli adekvátne a prehl’adne zobrazené.

3.1 Vizualizaˇcné techniky použité v DŽEMUj

Užívatel’mi systému DŽEMUj sú vyuˇcujúci, ktorí ˇcasto nie sú odbor- níkmi na dobývanie znalostí. Preto bolo dôležité aby vybrané vizu- alizaˇcné techniky boli intuitívne a dalo sa v nich jednoducho orien- tovat’.

3.1.1 Rozptylový diagram

Na zobrazenie poˇcetností odpovedí (správne, nesprávne a bez od- povede) a priemerného bodového zisku k jednotlivým otázkam ana-

(14)

3. SYSTÉM DŽEMUJ

lyzovaného odpovedníka bol použitý rozptylový diagram (obr. 3.1).

Jednotlivé jeho body sú zobrazené do dvojrozmerného priestoru s kartézskou sústavou súradníc. Na osiXsú otázky a na osiY je poˇcet odpovedí.

Graf je interaktívny. Otázky môže užívatel’ zoradit’ podl’a rôz- nych kritérií napr. poˇctu správnych alebo nesprávnych odpovedí, priemerného bodového zisku a pod. Taktiež si môže skryt’ niektoré druhy odpovedí. A po kliknutí do grafu sa zobrazia podrobné infor- mácie o otázke, ktorá je najbližšie k danému miestu.

Obrázok 3.1: Rozptylový diagram v systéme DŽEMUj

3.1.2 RadViz

RadViz je v sytéme DŽEMUj použitý dvakrát. Zobrazuje pomer me- dzi poˇctom správnych, chybných a žiadnych odpovedí na otázky v odpovedníku (obr. 3.2) a pomer medzi poˇctom chybných možností odpovedí. Poloha bodu v priestore grafu, vymedzenom dimenzi- onálnymi kotvami, vyjadruje pomer medzi hodnotami.

Druhé spomínané zobrazenie je použitel’né len v prípade, že ne- existuje príliš vel’a možností, ako nesprávne odpovedat’. Pre každú nesprávnu odpoved’ je vytvorená samostatná dimenzionálna kotva a pri vel’kom poˇcte kotiev sa graf stáva neˇcitatel’ný (obr. 3.3). Je však možné vl’avo v menu vybrat’ kotvy, ktoré majú byt’ ignorované a po-

(15)

3. SYSTÉM DŽEMUJ

nechat’ napr. iba tie, ktoré majú relevantný poˇcet výskytov.

Obrázok 3.2: RadViz v systéme DŽEMUj

Obrázok 3.3: RadViz v systéme DŽEMUj s vel’kým množstvom kotiev

(16)

4 Analýza

Bolo rozhodnuté, že by bolo vhodné ak by sa k spomenutým vizuali- záciám pridali ešte d’alšie dve. Konkrétne má íst’ o rozšírenie zobra- zenia pomocou metódy RadViz pridaním tretej dimenzie, prevzaté zo systému SumatraTT 2.0, vytvoreného v rámci [6]. A zobrazenie animácie ˇcasového priebehu zodpovedania odpovedníkov študen- tami pomocou rozptylového diagramu.

4.1 RadViz 3D

RadViz premieta pôvodné viacdimenzionálne dáta do roviny. Prob- lém pri zobrazení preto môže nastat’, ak body v pôvodnomn-dimen- zionálnom priestore ležia na priamke ktorá prechádza zaˇciatkom sú- stavy súradníc. Tieto body budú v rovine zobrazené do jedného bodu a môžu zaniknút’ niektoré informácie (obr. 4.1).

Obrázok 4.1: Strata informácií pri prevode z trojdimenzionálneho priestoru do roviny [6]

Riešenie spomenutých nežiadúcich vlastností tohoto zobrazenia sa ponúka vo forme pridania tretej dimenzie do grafu. Jej hodnota môže byt’ urˇcená napr. na základe farby, ktorú mal bod v zobrazení pomo- cou RadViz (tzv. pseudo 3D zobrazenie [6]), alebo ako vzdialenost’

bodu od zaˇciatku sústavy súradníc v pôvodnomn-dimenzionálnom priestore.

Ak v zobrazení pomocou RadViz3D systéme DŽEMUj by boli

(17)

4. ANALÝZA

dva body zobrazené do jedného bodu alebo dostatoˇcne blízko v zá- vislosti na nastavení, tak sa zmení tretia súradnica a zárove ˇn aj farba jedného z nich (obr. 4.1b).

Obrázok 4.1b: Rozlíšenie bodov zobrazených do jedného bodu v RadViz3D

4.1.1 SumatraTT 2.0

Sumatra Transformation Tool 2.0 bola vyvinutá na pôde ˇCVUT v Prahe. Jedná sa o nástroj na predspracovanie dát, uložených v rôz- nych formátoch (napr. text, databázy, XML a pod.), pred použitím pri dolovaní z dát. Obsahuje tiež niekol’ko modulov na ich vizuali- záciu, pomocou rôznych druhov grafov (histogram, koláˇcový graf, RadViz atd.), z ktorých sme využili RadViz 3D.

Dalšie informácie o SumatraTT je možné nájst’ na adreseˇ http:

//krizik.felk.cvut.cz/sumatra/index.html.

(18)

4. ANALÝZA

4.2 Rozptylový diagram - animácia riešenia odpovedníkov v ˇcase

Prvotný návrh animácie riešenia odpovedníkov predstavoval postup- né pridávanie informácií do grafu po urˇcitých ˇcasových intervaloch.

To znamená, že údaje o odpovediach študentov, ktorí vypl ˇnovali a uložili odpovedník v danom ˇcasovom úseku by sa pridal do zobra- zenia. Dáta z DŽEMUj však neposkytujú dostatoˇcné údaje pre takýto druh zobrazenia.

Nakoniec bolo rozhodnuté o implementovaní troch nových rozp- tylových diagramov. Dva z nich budú statické. Prvý bude zobrazo- vat’ poˇcet študentov, ktorí odpovedali na odpovedník v jednotlivé dni, poˇcas ktorých bol otvorený (obr. 4.2). A druhý bude mapovat’

priemerný poˇcet bodov získaných za tieto dni (obr. 4.3).

Obrázok 4.2: Poˇcet študentov za jednotlivé dni

Obrázok 4.3: Priemerný poˇcet bodov za jednotlivé dni

Na základe dát zo súborov s koncovkou _Odp (bližšie popísané v [1]) je možné zrealizovat’ animáciu priebehu riešenia odpovedníka.

Jednotlivé kroky animácie nebudú však závislé od ˇcasu, ale od po-

(19)

4. ANALÝZA

ˇctu koneˇcných uložení odpovedníka (priebežné uloženia nebudú za- poˇcítané). Dáta v súboroch _Odp sú zoradené podl’a ˇcísel jednot- livých študentov (z bezpeˇcnostných dôvodov nie je použité U ˇCO).

Toto ˇcíslo je taktiež zobrazované a dá sa tak sledovat’, ako jednotlivý študenti odpovedali. Animácia samotná bude ovládaná užívatel’om, pomocou posuvníka pod grafom. Podobne ako v pôvodných rozpty- lových digramoch, aj tu sa budú dat’ vybrat’ hodnoty, ktoré majú byt’

zobrazené (špatne, správne, bez odpovede) a po kliknutí do grafu sa zobrazí informácia o najbližšej otázke (obr. 4.4).

Obrázok 4.4: Animácia riešenia odpovedníka

4.3 Java

Java je objektovo orientovaný programovací jazyk, ktorého hlavnou výhodou je jeho nezávislost’ na operaˇcných systémoch a architektú- rach. Na správny beh programov je potrebné len aby bol nainšta- lovaný správny virtuálny stroj (JVM - Java Virtual Machine). Práve v jazyku Java boli implementované aj applety na vizualizáciu dát v rámci [3].

4.3.1 Použité knižnice

JfreeChart je vol’ne dostupná knižnica, pod licenciou GNU LGPL (Lesser General Public License), poskytujúca možnosti ako jednodu-

(20)

4. ANALÝZA

cho zobrazit’ dáta pomocou rôznych druhov grafov (kruhový dia- gram, rozptylový diagram, spojnicový diagram, atd.). Použitá bola verzia 1.0.9.

JCommonje knižnica, taktiež pod licenciou GNU LGPL, ktorá je využívaná v rámci JfreeChart a niekol’kých iných projektoch. Viac informácií o obidvoch knižniciach je možné nájst’ nahttp://www.

jfree.org/index.html

JmathTexposkytuje nástroje na zobrazovanie komplexných ma- tematických vzorcov zapísaných v TEX. Je rovnako vol’ne dostupná pod licenciou GNU GPL (General Public License). Bližšie informácie sú dostupné na adresehttp://jmathtex.sourceforge.net/

JDOMje potrebná pre prácu s knižnicou JmathTex. Slúži na zjed- nodušenie práce s XML (Extensible Markup Language) dátami v Jave.

Pre viac informácií vid’.http://www.jdom.org/index.html. Rapidminerje rozsiahly open-source systém pre dolovanie z dát, obsahujúci okrem iného aj implementáciu metódy na vizualizáciu

dát RadViz. Pre bližšie informácie vid’.http://rapid-i.com/content/

view/181/190/

4.4 Analýza aktuálneho systému

Java triedy v aktuálnom systéme DŽEMUj sú rozdelené do štyroch balíkov. Každý z nich obsahuje triedy implementujúce inú ˇcast’ vizu- alizácie dát.

cz.razor.bc.datamodels, prvý z nich, obsahuje triedy pre prácu s dátami (ako napr. triedy na uchovávanie dát o otázkach, od- povediach a pod.), potrebnými pre všetky ostatné balíky.

Druhý,cz.razor.bc.acces, slúži k analýze prístupov a obsa- huje aj triedu pre ukladanie dát o študentoch.

cz.razor.bc.radvizje tretím balíkom a obsahuje triedy po- trebné pre zobrazenie pomocou metódy RadViz, na nájdenie najbliž- šieho bodu, po kliknutí do grafu a na naˇcítanie dát.

cz.razor.bc.scatterplot, štvrtý balík obsahuje triedu, ktorá vytvára a obsluhuje rozptylový diagram.

(21)

5 Návrh a implementácia

5.1 Rozptylový diagram

Grafické užívatel’ské rozhranie pôvodného appletu bolo doplnené o dve nové záložky, ˇRešení v ˇcase a Animace ˇrešení odpovˇedník ˚u, pri- ˇcom prvá z nich obsahuje d’alšie dve, pomenované Pr ˚umˇerný poˇcet bod ˚u a Poˇcet zodpovˇezení (vid’. obr. 4.3 a 4.4).

5.1.1 Riešenie v ˇcase

Dáta pre tieto dva rozptylové grafy pochádzajú zo súboru _IPdata, ktorý je používaný pri analýze prístupov. Tento súbor obsahuje údaje o študentoch, zoskupených podl’a IP adries. Samotný záznam o štu- dentovi má tvar:meno; dátum uloženia; poˇcet bodov;

príznak skupiny.

Súbor _IPdata je predaný novému parametru fileTimeData, ktorý je použitý v upravenom konštruktore triedyExamModel, ktorá slúži na spracovanie dát pre rozptylové diagramy aj RadViz. Kon- štruktor naˇcíta dáta do kolekcie študentovArrayList<Student>

a zoradí všetky jej prvky podl’a ˇcasu.

Potom pomocou metódgetTimeAverageDataSet()a

getTimeCountDataSet(), využívajúcegetXYTimeSeries()sa z dostupných dát vytvorí vstup pre vykresl’ovanie obidvoch grafov.

5.1.2 Animácia riešenia odpovedníkov v ˇcase

Rovnako pre animáciu riešenia je potrebný d’alší súbor s dátami.

Konkrétne _Odp, ktorý obsahuje údaje o odpovedaní na jednotlivé otázky po každom uložení (vrátane priebežných). Každý záznam má tvar:študent; priechod; koneˇcné uloženie; uloženie;

ID otázky;odpoved’; hodnotenie; body; správnost’. Po- radie záznamov v tomto súbore je urˇcené na základe abecedného po- radia odpovedajúcich študentov.

Nový parameterfileAnswersDatabol vytvorený pre súbor _Odp. Po jeho naˇcítaní je predaný ako parameter pre upravený kon- štruktor triedyExamModel. Ten filtruje iba koneˇcné uloženia odpo-

(22)

5. NÁVRH A IMPLEMENTÁCIA

vedníkov a ukladá dáta do príslušnej kolekcie.

Metódy getAnswersDataSet() a getXYAnswersSeries() potom vytvoria vstup pre graf animácie. Výsledok závisý od pozí- cie posuvníka, ktorý urˇcuje kol’ko koneˇcných uložení odpovedníka je v grafe zobrazených (implicitne nastavený na 1).

5.2 RadViz 3D

Dátový typ vstupu pre pôvodný RadViz bol SimpleDataTable z knižnice rapidminer. Narozdiel od toho vstup pre RadViz 3D zo Su- matraTT 2 jeVector[]. Preto bolo v balíkucz.razor.bc.radviz v triedeDataLoadervytvorená nová statická metóda pre naˇcítanie dát loadDataFromFile2(), ktorá pracuje obdobne ako pôvodná len výstup je potrebného dátového typu.

Výsledné dáta je potrebné normalizovat’, aby hodnoty súradníc boli v intervale (0,1) a následne sú predané ako jeden z parametrov konštruktoru triedy Graph3D. Tá sa stará o vykreslovanie trojroz- merného grafu a jednotlivých bodov v ˇnom.

Pre manipuláciu s grafom ako je otáˇcanie, posúvanie alebo pribli- žovanie je vytvorené menu, implementované v triedeSetGraph3DIF. Je možné v ˇnom nastavit’ aj presnost’, s ktorou majú byt’ dva body považované za zobrazené do rovnakého miesta v grafe a následne preto odlíšené.

Dôležitou súˇcast’ou zobrazenia RadViz v systéme DŽEMUj je mož- nost’ zobrazit’ bližšie informácie o otázke po kliknutí na vybraný bod. Trojrozmerné zobrazenie v SumatraTT 2 podobnú funkciu ne- podporuje a preto bolo potrebné túto funkciu implementovat’ do nášho riešenia.

(23)

6 Testovacie dáta

Súˇcast’ou tejto bakalárskej práce, ako urˇcuje jej zadanie, je aj názorná ukážka na konkrétnom príklade. Preto si ukážeme aké výsledky po- núkajú implementované grafy na dátach, ktoré sú k dispozícii v ad- resári systému DŽEMUj na virtuálnom stroji urania.fi.muni.cz. V obi- dvoch príkladoch pôjde o odpovedníky z predmetu IB101 Úvod do logiky a logického programovania.

6.1 Príklad 1

Poˇcet odpovedaní(obr. 6.1)

Zobrazenie poˇctu odpovedajúcich za jednotlivé dni nám ukazuje, že poˇcas prvého d ˇna otvorenia odpovedníka na ˇn odpovedalo len 5 l’udí. Po kontrole vstupných dát vyšlo najavo, že tieto odpovede boli evidované tesne pred polnocou. Pravdepodobne samotný odpoved- ník bol sprístupnený práve vtedy. To spôsobilo na jednej strane málo odpovedajúcich v prvý de ˇn a na strane druhej výrazne vyšší poˇcet odpovedajúcich v de ˇn druhý, pretože sa sem zapoˇcítali aj tí, ktorí odpovedali tesne po polnoci. Okrem týchto dvoch dní bol poˇcet od- povedajúcich pomerne konštantný.

Obrázok 6.1 Priemerný poˇcet bodov(obr. 6.2)

Rovnako ako v predchádzajúcom grafe aj v tomto sú prvé dva dni pravdepodobne skreslené ˇcasom sprístupnenia odpovedníka. No od- hliadnuc od nich má priemerný bodový zisk stúpajúcu tendenciu, s

(24)

6. TESTOVACIE DÁTA

vínimkou poˇcas tretieho d ˇna, kedy je bodový zisk najvyšší v celom grafe.

Obrázok 6.2 Animácia riešenia odpovedníkov(obr. 6.3)

Nie je jednoduché názorne ukázat’ animáciu na niekol’kých ob- rázkoch. Snaha však bola zobrazit’, ako sa mení pomer správnych, nesprávnych a žiadnych odpovedí na oznaˇcenú otázku v grafe. Tento pomer sa však ustálil pomerne rýchlo a žiadne anomálie sa pri týchto dátach neobjavili.

Obrázok 6.3a

(25)

6. TESTOVACIE DÁTA

Obrázok 6.3b

Obrázok 6.3c

RadViz 3D(obr. 6.4)

V zobrazení pomocou RadViz 3D je vidiet’, že študenti ˇcasto na otázky neodpovedali. Príˇcinou može byt’, že odpovedník bol len cviˇcný, alebo ho študenti mohli otvorit’ niekol’kokrát.

(26)

6. TESTOVACIE DÁTA

Obrázok 6.4

6.2 Príklad 2

Poˇcet odpovedaní(obr. 6.5)

Dalšia množina dát nám ukazuje stúpajúci trend poˇctu odpove-ˇ daní s pribúdajúcimi d ˇnami, s vínimkou v posledný de ˇn. Potvrdzuje tým, narozdiel od predchádzajúceho príkladu, že študenti si zvyknú odkladat’ povinnosti na poslednú chvíl’u.

Obrázok 6.5

(27)

6. TESTOVACIE DÁTA

Priemerný poˇcet bodov(obr. 6.6)

Ešte lepšie nám však znázor ˇnuje nasledujúci graf, ako je toto od- kladanie povinností pre študentov nevýhodné. Priemerný poˇcet bo- dov klesá postupne s ˇcasom. Jedinou výnimkou je tretí de ˇn od otvo- renia odpovedníka.

Obrázok 6.6 Animácia riešenia odpovedníkov(obr. 6.7)

Tak isto ako v prvom príklade, ani v tomto prípade sa pri ani- mácii neprejavili žiadne anomálie. Pomery medzi jednotlivými od- poved’ami sa znovu dost’ skoro ustálil. A jedinou zaujímavost’ou je asi len nízky poˇcet niektorých otázok, ako napríklad otázka, ktorá je vyznaˇcená na obrázku.

Obrázok 6.7

(28)

6. TESTOVACIE DÁTA

RadViz 3D(obr. 6.8a, 6.8b)

Na obrázku 6.8a sú jasne viditel’né dve otázky, ktoré majú vel’ký poˇcet nesprávnych odpovedí. Može íst’ o vel’mi t’ažké otázky z uˇciva, ktoré študenti nezvládajú. V takom prípade vyuˇcujúci jednoducho zistí, na ˇco sa zamerat’ pri výuke. Alebo ako sa ukázalo v tomto prí- pade, ide o nesprávne oznaˇcenie správnej odpovede. A staˇcí jedno- ducho opravit’ odpovedník. V oboch prípadoch ide o cennú infor- máciu, relevantnú pri skvalit ˇnovaní výuky.

Obrázok 6.8b poukazuje na výhody možnosti využitia tretieho rozmeru. Otázky, na ktoré študenti väˇcšinou odpovedali správne a sú preto zobrazené takmer na rovnaké miesto, je možné rozlíšit’ na- stavením atribútu Delta. Po zmene na hodnotu 0.01 je zaujímavé, že okrem bodov pri vrchole OK vystúpi taktiež jeden bod pri vrchole NULL, ktorý je na obrázku 6.8a skrytý za druhým bodom. Táto in- formácia by pri dvojrozmernom zobrazení zostala skrytá.

Obrázok 6.8a

(29)

6. TESTOVACIE DÁTA

Obrázok 6.8b

(30)

7 Záver

Predstavili sme si rôzne základné techniky, bežne používané na vizu- alizáciu dát získaných dolovaním a oboznámili sme sa s ich využitím v systéme DŽEMUj. Applety pre vizualizáciu dát vytvorené v rámci [3] boli úspešne rozšírené o dva grafy zobrazujúce riešenie odpoved- níkov v ˇcase, o graf, ktorý pomocou užívatel’om ovládanej animácie zobrazuje priebeh riešenia odpovedníkov jednotlivými študentami a o trojdimenzionálny RadViz. Ich využitie sme si predviedli aj na kon- krétnych príkladoch. Všetky tri rozšírenia majú potenciál pomôct’ pri zlepšení kvality výuky.

Pre prípadné úpravy v budúcnosti sa naskytuje niekol’ko mož- ností. Mohol by sa v zobrazení priemerného poˇctu bodov za jed- notlivé dni pridat’ k priemeru aj medián. Pretože priemer je l’ahko ovplyvnitel’ný aj menším poˇctom extrémnych hodnôt. Alebo by sa do súboru _Odp mohli pridat’ informácie o ˇcase zodpovedania, ta- káto zmena si však vyžaduje hlbší zásah do systému DŽEMUj. Ani- mácia by potom mohla lepšie znázor ˇnovat’ zmenu pomerov jednot- livých odpovedí v ˇcase.

(31)

A Príloha

Obrázok A.1

Obrázok A.2

Obrázok A.3

Obrázok A.4

(32)

A. PRÍLOHA

Obrázok A.5

Obrázok A.6

Obrázok A.7

(33)

B Obsah CD

- text bakalárskej práce - zdrojové kódy aplikácie - použité knižnice

(34)

Literatúra

[1] M. Briatkova. Dobyvani znalosti z e-learningovych dat. Master’s thesis, Masaryk University, 2008.

[2] Jiawei Han and Micheline Kamber. Data mining: concepts and techniques. Morgan Kaufmann, 2006.

[3] Z. Kedaj. Applety pro vizualizaci dat. Master’s thesis, Masaryk University, 2008.

[4] Denis K. Lieu and Sheryl Sorby. Visualization, modeling and graphics for engineering design. CENGAGE Delmar Learning, 2009.

[5] NIST/SEMATECH. e-handbook of statistical methods. online, 2010. Dostupne na adrese:

http://www.itl.nist.gov/div898/handbook/.

[6] L. Novakova. Visualization data for data mining. Master’s thesis, Czech technical university in Prague, 2009.

[7] Wikipedia. E-learning. online, 2010. Dostupne na adrese:

http://cs.wikipedia.org/wiki/E-learning.

[8] I. H. Witten and Eibe Frank. Data mining: practical machine le- arning tools amd techniques. Amsterdam: Elsevier, 2005.

Odkazy

Související dokumenty

HathiTrust na jednej strane predstavuje medzinárodnú spoločnosť výskumných inštitúcií a kniž- níc, ktorej cieľom je zachovanie kultúrneho dedičstva pre budúce generácie,

Dal²í dva projekty, které sice nejsou k IMSLP nebo k Petrucci Music Library LLC p°idruºeny, ale sdílí shodné objekty jako IMSLP, jsou Inter- national Music Score Library Project

Jsou sbírány také plné texty s OCR (optické rozpoznávání znak ˚u) z digitálních knihoven, které sice nejsou uživateli zpˇrístupnˇeny, je však možné v nich vyhledávat

Zajímavé je, že tyto principy aplikoval Stephen Wolfram na projekt Mathematica v 80 letech a stále jsou přítomny v jeho dalších projektech včetně Wolfram|Alpha.. Obrázek

On the Sprint Review meetings, one member of the team presented the completed user stories to the Product Owner in the form of vi- sual inspection of the developed functionality.

It was compared to nfdump, which is widely used framework for network flow data manipulation, and PostgreSQL database, as relational databases are still sometimes used for flow

sme sa preto rozhodli vytvorit’ aplikáciu pre operaˇcný systém Android, ktorá bude slú- žit’ ako klient pre open source CRM-ERP systém OpenERP.. Komuni- kácia medzi

It has been argued and demonstrated on a sample data set that Web collections contain a vast amount of document pairs with an intermediate level of similarity which bring a lot