Vysokď škola báňská – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

(1)

Vysokď škola báňská – Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Katedra informatiky

Disertační práce

Adaptivní personalizovaná navigace řízená metadaty

Ing. Zdeněk Velart

Školitel: doc. RNDr. Petr Šaloun, Ph.D.

2011

(2)

V Ostravě 15. 9. 2011 . . . .

(3)

Rád bych poděkoval Petru Šalounovi za veškerou pomoc, ochotu a trpělivost. Rád bych také poděkoval všem, kteří mi byli oporou a jakýmkoliv způsobem mi pomohli. Nebudu je zde vyjmenovávat, abych omylem někoho neopoměl. Všem patří můj dík.

(4)

(5)

Abstrakt

S informacemi se setkáváme každý den a jejich množství neustále roste. S rozvojem nových technologií je množství informací, které se valí na uživatele větší, takže uživatel je doslova zavalen informacemi. Za účelem aby bylo možné množství informací omezit a vybírat pro uživatele takové informace, které pro něj jsou přínosné, vzniklo mnoho přístupů, které se problémem zabývají. Všechny tyto přístupy a technologie sdílejí jeden společný element a tím jsou metadata. Metadata představují data o informacích, jejich sémantiku takovým způ- sobem, že umožňují strojové zpracování. Sémantický web se zabývá metadaty a způsobem jak metadata definovat, přiřadit a jak s nimi pracovat. Adaptivní web využívá metadata pro vyhledávání, agregování, personalizovaní a navigování uživatele k požadovaným infor- macím. Dva hlavní přístupy k adaptaci jsou adaptivní prezentace, která představuje metody a způsob prezentování informací uživateli a adaptivní navigace, která definuje metody pro navigování uživatele informačním prostorem.

V práci prezentujeme způsob navigace uživatele založenou na metadatech. Používáme prostor konceptů, který popisuje problémovou doménu pomocí konceptů a vztahů mezi nimi. Algoritmus pro ohodnocení prostoru konceptů, který definujeme umožňuje ohodnotit každý koncept v závislosti na jeho poloze v prostoru konceptů a vazbách na další koncepty a jejich ohodnocení. Každý dokument, který je prezentován uživateli je navázán na prostor konceptů pomocí své množiny konceptů. Pro uživatele je uchovávaná množina dosažených znalostí, kde jsou zaznamenávány znalosti uživatele ve formě známých konceptů. Navigace je prováděna pro každého uživatele samostatně na základě jeho množiny dosažených znalostí a množin konceptů příslušných dokumentů. Pro vlastní výběr dokumentů a jejich setřídění do personalizovaného menu se využívají metriky, které implementují rozdílné přístupy pro setřídění dokumentů, například na základě mohutnosti množiny konceptů, na základě ohod- nocení dokumentů podle množiny konceptů a další. Dokumenty, které pro uživatele vhodné jsou mu prezentovány ve formě menu, setříděného podle vhodnosti. Uživatelovo chování a

v

(6)

byly získány experimentální výsledky podporující správnost návrhu.

Klíčová slova

metadata, sémantický web, adaptivní web, adaptace, navigace, personalizace, prostor kon- ceptů

vi

(7)

Abstract

Every day we meet with new information, news, videos, photos and many others. The ammount is so overhelming, that we can talk about information flood. In order to minimize the ammount and to pick up the information the user needs many approaches and principles were developed. All the principles and approaches share the same common element – metadata. Metadata are data about information and they describe the semantics of the information in a way, that computers can automaticly evaluate them. The area which is concerning with the metadata, how the asign and work with them is called semantic web.

Adaptive web uses the metadata to search, aggregate, personalize and navigate user to the desired information. Two main areas of adaptation are adaptive presentation which defines methods for presenting the information to the user and adaptive navigation which defines methods for navigating the user in the information space.

The work presents a scheme for navigating user based on metadata. We employ concept space that describes the problem domain by concepts and relations between them. Algorithm for concepts space evaluation was developed and is used to calculate an evaluation of a concept according its position and evaluation of its related concepts. Document which are presented to the users have defined a set of concepts which desribes them. For user an achived knowledge set is maintained where user’s actual knowledge is stored in a form of known concepts. Navigation scheme takes the user’s achived knowledge set and concepts sets of documents and chooses such documents which will be best beneficial for users in meaning of gaining new knowledge. For choosing the documents we employ numerous metrics which implement different approaches in learning of new knowledge such as choosing documents where user knows the most of the concepts and others or choosing document according concepts similarity to presented document. The chosen documents are presented to the user in a form of menu where the best suitable document in on the top. The user’s behavior and reactions to the presented documents help to shape the navigation prepared for them.

vii

(8)

Keywords

metadata, semantic web, adaptive web, adaptation, navigation, personalization, concept space

viii

(9)

Obsah

Abstrakt v

Abstract vii

1 Úvod 1

I Současný stav poznání 5

2 Adaptace, personalizace a základní pojmy 7

2.1 Základní pojmy . . . 8

3 Sémantický web 11 3.1 Architektura sémantického webu . . . 13

3.2 Metadata a ontologie . . . 14

3.3 Porovnávání a ohodnocování ontologií . . . 17

3.4 Mapování a slučování ontologií . . . 18

3.5 Topic maps . . . 21

3.6 Sociální sémantický web, folksonomie . . . 22

3.7 Vytváření prostorů konceptů . . . 22

3.8 Shrnutí . . . 23

4 Adaptivní web 25 4.1 Adaptivní techniky . . . 26

4.2 Modely adaptivních hypermédií . . . 29

4.3 Model adaptace . . . 30

4.4 Model uživatele . . . 32 ix

(10)

4.7 Adaptivní systémy a metodologie . . . 36

4.8 Shrnutí a vlastní řešení – XAPOS . . . 40

II Vlastní výzkum 43 5 Ohodnocení konceptů 45 5.1 PageRank . . . 47

5.2 Pojmy a značení . . . 47

5.3 Ohodnocení relací . . . 48

5.4 Ranking algoritmus . . . 49

5.5 Shrnutí . . . 53

6 Navigace 55 6.1 Propojení prostoru konceptů a výukových objektů . . . 56

6.2 Model uživatele . . . 57

6.3 Navigace uživatele . . . 57

6.4 Shrnutí . . . 63

7 Ověření výsledků 65 7.1 Statistiky . . . 66

7.2 Vyhodnocení stráveného času . . . 68

7.3 Vyhodnocení testů . . . 70

7.4 Vyhodnocení cest . . . 71

7.5 Vzory chování . . . 74

7.6 Shrnutí . . . 76

8 Zhodnocení a závěr 79 8.1 Budoucí práce . . . 81

9 Conclusions and future work 83

Literatura 85

x

(11)

III Přílohy 95

A Vlastní práce vztahující se k tématu disertace 97

B XAPOS 99

xi

(12)

(13)

Seznam tabulek

1 Vypočtené ohodnocení relací v prostorech konceptů . . . 49

2 Ohodnocení jednotlivých konceptů pro různý počet iterací – C prostor konceptů 51 3 Ohodnocení jednotlivých konceptů pro různý počet iterací – C++ prostor konceptů . . . 51

4 Ohodnocení jednotlivých konceptů pro různý počet iterací – Lisp prostor konceptů . . . 52

5 Počty přístupů uživatele . . . 67

6 Počty navštívení dokumentu uživatelem . . . 68

7 Vzory chování uživatelů . . . 76

xiii

(14)

(15)

Seznam obrázků

1 Propojení prostoru konceptů a obsahu . . . 10

2 Architektura sémantického webu [10] . . . 14

3 Přehled technik adaptace . . . 27

4 Prostor konceptů programovacího jazyka Lisp . . . 46

5 Součet ohodnocení konceptů v prostorech konceptů C a C++ . . . 52

6 Součet ohodnocení konceptů v prostoru konceptů Lisp . . . 53

7 Návrh uživatelského GUI . . . 57

8 Způsob navigace uživatele nad obsahem . . . 58

9 Aktualizace uživatelského modelu a logu . . . 59

10 Vyhodnocení testu a aktualizace uživatelského modelu . . . 60

11 Přizpůsobení menu za použití metrik . . . 61

12 Počty přístupů uživatelů k dokumentům v rámci experimentu . . . 67

13 Průměrné počty přístupů uživatelů k výukovým objektům . . . 68

14 Intervaly časů strávených uživateli na výukových objektech (v sekundách) . 69 15 Graf průchodů uživatelů CZ kurzem . . . 72

16 Graf průchodů uživatelů TR kurzem . . . 73

17 Vzory chování uživatelů . . . 75

18 Vícejazyčný obsah . . . 101

19 Rozvržení GUI systému . . . 103

xv

(16)

(17)

Kapitola 1

Úvod

Informační technologie se staly každodenní součástí našeho života. Přístup k Internetu je dnes již v mnoha zemích považován za jedno ze základních lidských práv. K masovému roz- šíření informačních technologií přispěla jednak jejich jednoduchost, a také jejich atraktivita.

Čím více se usnadnil přístup lidem k Internetu, tím častěji se začalo narážet na problémy s neustále se zvyšujícím množstvím dostupných informací. A čím více informací se na Inter- netu nachází, tím více lidí se k němu připojuje. Ovšem ne každý představuje „informačního experta”, který je schopen vše a bez problémů nalézt. Z tohoto důvodu se již od začátku používání Internetu začaly objevovat snahy o zjednodušení získávání informací ve formě vyhledávačů či různých nápovědných systémů.

Právě při velkém objemu zpracovávaných informací a velkém množství uživatelů se za- čalo projevovat dědictví a problémy, které si Internet sebou nese od svého počátku. Reakcí na objevující se problémy a potřeby byl jednak vývoj existujících standardů jako je HTML, tak také vytváření nových standardů a přístupů k zobrazení a nabízení informací. Jedním z těchto rozšíření, které vzniklo jednak z potřeby lépe organizovat a zpracovávat dostupné informace, a také z důvodu jejich lepší prezentace, je sémantický web. Princip sémantického webu stojí na myšlence, že informacím se má přiřadit přesně definovaný význam, který umožní jejich automatizované zpracování [9].

Ačkoliv sémantický web je odpovědí na mnoho problémů, které se vyskytly, stále se i v dnešní době objevuje mnoho nových problémů. Objevené problémy a výzvy byly různými autory řešeny odlišnými principy a postupy. Vznikla řada jazyků pro sémantický web, které si navzájem konkurovaly a u kterých se až časem hledala shoda a interoperabilita. V ruku v ruce s tímto se objevují problémy s kooperací a interoperabilitou mezi různými přístupy

(18)

a nástroji, které byly vytvořeny. Mnoho práce je proto věnováno na nástroje a postupy pro mapování, spojování či integrací existujících technologií a přístupů.

Adaptivní web představuje směr výzkumu, který se zabývá způsoby a principem jak uži- vateli prezentovat relevantní informace nebo jej navigovat informačním prostorem tak, aby se dostal k požadovanému cíli. Nejdůležitějším aspektem celého snažení je uživatel, a proto je nutné o něm získávat a uchovávat množství informací a charakteristik. Charakteristiky, které o uživatelích systémy uchovávají, se dají rozdělit podle různých kritérií například na charakteristiky statické a dynamické. Charakteristiky je možné získávat jednak od samot- ných uživatelů tak, že se jich přímo zeptáme například formou dotazníku či sledováním jejich interakcí se systémem. Ne vždy se systémy zaměřují pouze na jednotlivého uživatele, ale zaměřují se na skupinu uživatelů s podobných chováním, ke které je jednotlivý uživatel následně přiřazen.

Navigace uživatele představuje důležitý proces, kdy již získané charakteristiky uživatele a informace o jeho chování prakticky využíváme pro přizpůsobení prezentovaných informací či pro jeho navigaci informačním prostorem. Ať již navigujeme jednotlivého uživatele či skupinu uživatelů, k přípravě a provedení navigace potřebujeme mít definován algoritmus, který ze získaných charakteristik a dostupných informací připraví a nabídne uživateli takové informace, které jej budou směrovat k jeho cíli. Principy sémantického webu přinesly do navigace uživatele další možnosti pro adaptivní navigaci, kdy je možné do čistě adaptivní navigace zahrnout i dostupná metadata o obsahu, který pro uživatele adaptujeme.

Naším cílem je zlepšit orientaci a navigaci uživatele nad prezentovanými obsahem za pomoci metadat daného obsahu. Náš algoritmus navigace je postaven na myšlence, že pro navigaci nad obsahem můžeme využít metadata – prostor konceptů či ontologii – protože vazby, které lze nalézt na úrovni metadat, lze také nalézt na úrovni samotného obsahu, které tato metadata popisují. K tomuto účelu jsme navrhli algoritmus pro ohodnocení prostoru konceptů, kdy konceptu je přiřazeno ohodnocení na základě jeho pozice v prostoru konceptů a jeho vazeb na ostatní koncepty.

Takto zpracovaný a ohodnocený prostor konceptů využíváme pro navigaci uživatelů.

Pro každého uživatele uchováváme množinu dosažených znalostí, která se naplňuje koncepty z prostoru konceptů. Tímto způsobem budujeme přehled o aktuálních znalostech uživatele a na jejich základě a na základě navázání obsahu na prostor konceptů připravujeme další navigaci pro uživatele. Pojem množina chápeme v informatickém smyslu jako kolekci prvků, nikoliv striktně matematicky.

(19)

3

V rámci vytváření našeho přístupu jsme zpracovali a diskutovali dosažené výsledky v oblasti adaptivních hypermédií a v oblasti sémantického webu. Výsledky jsou prezento- vány v dalším textu. Prakticky jsme vyzkoušeli adaptivní systém AHA! [24] a to včetně experimentu, který implementuje pravidlově orientovaný přístup, kdy pravidla musí zadat autor kurzu s ohledem na jeho obsah a zamýšlenou posloupnost jednotlivých stránek pre- zentovaných uživateli. Po vytvoření a otestování dvou kurzů v adaptivním systému AHA!

jsme pravidlově orientovaný přístup opustili a zaměřili jsme se na princip navigace využíva- jící metadata, která jsou definována v prostoru konceptů popisujícím danou problémovou doménu.

Naše výsledky v této oblasti byly prezentovány a diskutovány na recenzovaných lokálních i světových konferencích. Zpětná vazba týkající se použití prostoru konceptů respektive topic maps, nám pomohla ve směrování dalšího výzkumu. Princip využití prostoru konceptů tedy metadat nás v průběhu řešení přivedl na možnost navigace nad vícejazyčným obsahem.

Koncepty v prostoru konceptů jsou uchovávány v anglickém jazyce. Navázaný obsah na prostor konceptů může být vícejazyčný, kdy „obálka” dokumentu je navázána na koncepty a jeho obsah je uložen uvnitř dokumentu ve více jazycích. Tento princip jsme vyzkoušeli na společném experimentu s kolegy z univerzity v Ankaře, Turecko.

Navržený princip navigace společně s algoritmem pro ohodnocení konceptů jsme prakticky otestovali v rámci vytvořeného adaptivního webového systému XAPOS určeného pro doménu výuky programovacích jazyků, který jsme přihlásili jako autorizovaný SW v roce 2011 za VŠB v RIV [77].

Průvodce textem

Kapitola 3 je věnována sémantickému webu a jeho architektuře a jazykům které se používají.

Krátce se zde také zabýváme principy porovnávání, ohodnocování, mapování a slučování ontologií a vytváření prostoru konceptů.

V kapitole 4 diskutujeme adaptivní web s důrazem na adaptivní techniky – adaptivní prezentaci a navigaci a modely adaptivních hypermédií. Podrobněji se zabýváme nejpou- žívanějším modelem AHAM [21] a jeho částmi modelem adaptace a modelem uživatele.

Prezentujeme různé způsoby adaptace a možné způsoby pro vytváření a prezentaci modelu uživatele. Krátce prezentujeme vybrané přístupy a systémy, které vznikly v této oblasti.

(20)

V kapitole 5 přinášíme naše původní publikované výsledky – algoritmus pro ohodno- cení prostoru konceptů, který vychází z PageRank algoritmu. Podrobně popisujeme způsob ohodnocení konceptu v závislosti na ohodnocení jeho sousedů a jeho umístění v prostoru konceptů.

V kapitole 6 představujeme náš původní princip navigace, který využívá ohodnocený prostor konceptů. Navigace nad obsahem probíhá na základě vztahů mezi metadaty obsahu a na základě uživatelovy interakce.

V kapitole 7 prezentujeme výsledky námi navrženého experimentu, který jsme provedli pro ověření výsledků z předchozích kapitol. Experiment jsme prováděli společně s kolegy z univerzity v Ankaře, čímž jsme získali možnost testování nad vícejazyčnými výukovými materiály v reálném vícejazyčném prostředí.

Příloha A obsahuje přehled publikací, které se vztahují k tématu disertace.

V příloze B popisujeme systém XAPOS, který jsme vytvořili v rámci naší práce a kde jsme implementovali uvedené principy.

(21)

Část I

Současný stav poznání

(22)

(23)

Kapitola 2

Adaptace, personalizace a základní pojmy

Množství informací se kterým se v dnešní době potkáváme je ohromné. Zpravodajské weby, sociální sítě, vyhledávací služby, weby pro sdílení videa, . . . používáme ve svém životě každý den. Nové weby a informace na nich se objevují jako houby po dešti. V podstatě by se dalo říct, že jsme zahlceni informacemi. Vzniká potřeba informace nějakým způsobem zpraco- vat, případně omezit jejich množství, které se k nám ve výsledku dostane. Většina uživatelů si postupně vytvoří seznam „svých informačních” webů, které navštěvuje v podstatě pra- videlně a čerpá z nich informace. Toto obvykle platí pro různé zpravodajské weby, weby obsahující informace, které pokrývají zájem uživatele. Pokud má uživatel zájem o nezahr- nutou oblast, případně potřebuje vyhledat nové informace obrací se obvykle na vyhledávač.

Vyhledávače vracejí na vstupní frázi velké množství setříděných výsledků. Zde se poprvé setkáváme s personalizací.

Adaptace a personalizace představují metodu nebo postup, jak uživateli vyhledávače, nebo nějakého systému nabídnout, takové informace, které pro něj budou přínosné, a které odpovídají jeho požadovanému cíli, tomu co chce nalézt, případně se naučit, vyzkoušet a po- dobně. Personalizace informací se začala nejprve rozvíjet na akademické půdě, kde v rámci informačních systémů obvykle pro nabízení kurzů, případně různých expertních či nápověd- ních systémů byla postupně uváděna v život. V dnešní době se s větší či menší personalizaci setkáváme skoro v každém systému ačkoliv to nemusí být vůbec zřejmé. Většina vyhledá- vačů nabízí personalizaci založenou například na předchozích vyhledáváních případně na tom, které z výsledků dřívějších vyhledávání stejného dotazu zvolili uživatelé před námi.

(24)

Adaptace a personalizace může být prováděna jednak pro konkrétního uživatele – obvykle je tento uživatel do systému přihlášen a může být tedy identifikován, nebo pro skupinu uživatelů – uživatel je ztotožněn se skupinou na základě své volby, nebo výsledkem vyhod- nocení dotazníku. Každý z přístupů v sobě skrývá výhody i nevýhody. Výhodou adaptace pro konkrétního uživatele může být nabízení přesnějších výsledků či informací. Nevýhodou mohou být extrémně specifičtí uživatelé, které systém nedokáže „analyzovat” a pracovat s nimi, a také anonymní uživatelé, pokud vůbec s nimi systém pracuje. Výhodou druhého přístupu adaptace nad skupinu uživatelů je větší množství informací a dat, která se o uživa- telích souhrnně získají a s nimi je pak možné lépe skupinově adaptovat – například novému uživateli mohou být po zařazení do skupiny okamžitě nabídnuty požadované informace.

Nevýhodou je, že uživatel může být do skupiny zařazen špatně, nemusí se jeho preference shodovat s preferencemi celé skupiny a tím pádem adaptace není odpovídající.

Adaptace může být prováděna několika způsoby. Můžeme adaptovat jednak dostupné množství – množství dostupných odkazů nebo adaptovat prezentaci dostupných informací.

Základy oboru adaptace informací a adaptivních hypermédií můžeme umístit do roku 1999, kdy byly v [15] a následně v [16] představeny základní architektura a techniky adaptaci informací.

Důležitým aspektem adaptace a personalizace je možnost její automatizace. Aby bylo možné informace automaticky zpracovávat je nutné informace popsat způsobem, umožňu- jícím automatické zpracování. Problémem se zabývá oblast nazvaná sémantický web, která definuje způsoby jak informacím dát přesně definovanou sémantiku, která by vyjadřovala charakteristiky a vlastnosti popisovaných informací.

2.1 Základní pojmy

Na úvod definujeme základní pojmy, tak jak je budeme používat v dalším textu.

Metadata představují doplňkové informace přidružené k informacím. Jejich cílem je zjed- nodušit a zpřesnit popis informací, které reprezentují, tak aby je bylo možné automa- tizovaně zpracovávat. Používání metadat je klíčovým aspektem sémantického webu, kde právě metadata dávají informacím sémantiku. Metadata můžeme rozdělit na ob- sahově nezávislá metadata, které uchovávají informace nezávislé na obsahu a smyslu dokumentu a obsahově závislá metadata, které se zaměřují na sémantiku a informační hodnotu dokumentu samotného [71].

(25)

2.1. ZÁKLADNÍ POJMY 9

Koncept představuje základní jednotku informace v problémové doméně. Koncepty jsou používány jednak pro popis problémové domény, tak také v navigaci uživatele, kde se pomocí nich uchovává informace o znalostech uživatele. Příkladem konceptu z oblasti programovacího jazyka Lisp je například Recursion, CloseFunction ConditionalEx- pression. Koncept bývá nazván výstižným výrazem určujícím jeho obsah, obvykle bývá popsán anotací a doplněn množinou klíčových slov.

Prostor konceptů (CS, concept space) nebo také ontologie, představuje množinu kon- ceptů s jejich definovanými vazbami. Koncept může mít jednu či více vazeb různých typů na ostatní koncepty. Prostor konceptů si můžeme představit jako multidimen- zionální graf s orientovanými hranami. Každý typ propojení mezi koncepty přidává do prostoru konceptů další rozměr, kde hrany odpovídající typu propojení jsou sou- částí tohoto rozměru. Příkladem vazby mezi koncepty může být napříkladsubClassOf, relatedTo,definedBy a jiné.

Dokument představuje základní datovou jednotku, která je popisována pomocí konceptů.

Obvykle dokumentem chápeme datový soubor jako je například HTML či PDF soubor, ale dokumentem v pojetí sémantického webu může být i více souvisejících HTML stránek společně s grafikou, styly a dalšími multimediálními soubory či naopak jen odstavec.

Výukový objekt (LO, learning object) představuje speciální případ dokumentu, který se používá v doméně výukových hypermédií. Výukový objekt se obvykle skládá z výu- kového materiálu společně s multimediálním obsahem případně příklady, které jsou prezentovány uživateli. Příkladem výukového objektu může být kapitola z kurzu Lisp Základní typy nebo Vícenásobná rekurze. Výukový objekt může být popsán pomocí existujících standardů jako je LOM¹ (datový model pro popis výukových objektů) či SCORM²(Sharable Content Object Reference Model – kolekce standardů pro webový elearning). Jejich popis ve standardizovaném formátu umožňuje sdílení výukových ob- jektů mezi více systémy.

Prostor dokumentů je množina všech dokumentů, se kterými systém či nástroj pracuje.

Dokumenty v prostoru dokumentů mohou mít definovány vazby na jiné dokumenty z prostoru.

1http://ltsc.ieee.org/wg12/

2http://www.adlnet.gov/capabilities/scorm/scorm-2004-4th

(26)

Obrázek 1: Propojení prostoru konceptů a obsahu

Propojení prostoru konceptů a prostoru dokumentů představuje definování vazeb mezi prostorem konceptů a prostorem dokumentů (viz obrázek 1). Každý dokument může mít přiřazenou množinu konceptů, které jej definují a popisují. V některých systémech či metodách tato množina bývá jen jedna v jiných bývá rozdělena na mno- žinu prerekvizit (toho co potřebujeme znát předtím) a množinu výstupů (toho co se v dokumentu dozvíme).

(27)

Kapitola 3

Sémantický web

Myšlenka sémantického webu je označována jako rozšíření webu, v němž informace mají přidělen dobře definovaný význam lépe umožňující počítačům a lidem spolupracovat. Tim Berners-Lee představil ideu sémantického webu v roce 2001 v [9]. Obvyklým způsobem, jak rozšířit stávající data o sémantické informace, je doplnění stávajících dat o metadata, která popisují charakteristiky a vlastnosti daných dat. Přidání metadat usnadňuje automatické strojové zpracování dat.

Přidání sémantiky do dokumentů přináší nejen možnost automatizovaného zpracování informací, ale také možnosti vytváření nových propojení mezi dostupnými dokumenty, au- tomatizované vytváření slovníků popisující problémové domény nebo odvozování nad metadaty. V neposlední řadě se metadata používají v sémantických vyhledávačích, které se zaměřují na zlepšení přesnosti hledání pochopením záměru uživatele s přihlédnutím k vý- znamu zadaného vyhledávacího dotazu v problémové doméně vyhledávání.

Přidání metadat v prostředí Internetu, kde se jako primární jazyk pro prezentací infor- mací používá jazyk HTML se začaly využívat tagy meta. Protože toto řešení nebylo úplně dostačující, začaly se objevovat další možnosti a specifikace jako je například „Semantic HTML”, kde se správným použitím tagů a stylů klade důraz na sémantiku dokumentu. Pro vlastní prezentaci dokumentu uživateli se pak doporučuje používat kaskádové styly (CSS).

Typickým příkladem, který je doporučován také ve specifikaci HTML je použití tagu em (zvýrazněný text) místo tagu i (text kurzívou), všude tam kde má být text zvýrazněn a formu zvýraznění definovat v CSS. Doporučením je také definovat jména tříd v HTML podle jejich významu.

(28)

Dalším příkladem rozšířením doplňujícím význam obsahu webu, které se ujalo a je pou- žíváno, jsou mikroformáty¹. Mikroformáty staví na využití existujících HTML tagů s využi- tím názvů tříd (atribut class). Mikroformáty vznikly z potřeby automatizovaně zpracovávat krátké datové bloky jako jsou například události, kontaktní informace, geografické informace a jiné. Cílem mikroformátů je datové bloky automatizovaně zpracovávat a přitom zacho- vat čitelnost pro člověka. V současné době existuje řada fakticky definovaných a funkčních mikroformátů pro definování událostí, kontaktních informací, audio a video obsahu, curricu- lum vitae, zpravodajských informací až po recepty. Každý z mikroformátů má definované názvy tříd, které se musí v HTML použít a jejich hierarchii. Příklad převodu HTML do mikroformátu můžeme vidět v následujícím příkladu.

Máme definováno:

<div>

<div>Zdenek V e l a r t</div>

<a href=” h t t p : / / example . com/ ”>h t t p : / / example . com/</a>

</div>

Po převodu do mikroformátu hcard, který slouží k definici vizitek vznikne:

. . .

</head>

. . .

<div c l a s s=” f n ”>Zdenek V e l a r t</div>

<a c l a s s=” u r l ”

href=” h t t p : / / example . com/ ”>h t t p : / / example . com/</a>

</div>

Mnoho z těchto formálních doporučení, které byly uvedeny dříve, se dostalo do specifikace HTML5², která představuje další krok ve vývoji HTML jazyka. Tato specifikace navíc obsahuje i nové tagy jako například article, footer, section a další které pomáhají s definicí

1http://microformats.org/

2http://www.w3.org/TR/html5/

(29)

3.1. ARCHITEKTURA SÉMANTICKÉHO WEBU 13

struktury dokumentu. Společně se specifikací HTML5 se vytváří specifikace Microdata³, která definuje obdobnou funkčnost jako mikroformáty.

Kromě doplnění sémantických informací do existujících HTML dokumentů na webu se pro zápis a sdílení sémantických informací využívají ontologie nebo topic maps zapsány po- mocí jazyků RDF, OWL a XTM. Jejich cílem je definovat společný standardizovaný formát pro zápis a výměnu sémantických informací mezi systémy a nástroji, které se sémantickými informace pracují.

Ačkoliv si toho vůbec nemusíme být vědomi, tak se sami také můžeme podílet na automa- tizovaném vytváření sémantiky dostupných informací. Může se například jednat o jednodu- ché ohodnocení výsledku vyhledávání. Buďto explicitně určíme, že výsledky, které jsou nám prezentovány odpovídají námi položenému dotazu, či třeba jen zvolením výsledku vyhledá- vání, označíme tento jako odpovídající, což vyhledávač může vyhodnotit. Velmi oblíbenou součástí života se staly různé sociální sítě. Jejich prostřednictvím s ostatními „přáteli” sdí- líme například své fotografie či videa, kde určujeme osoby zde přítomné, místa kde byly fotografie či videa pořízena. Tímto velmi přesně definujeme sémantiku těchto informací.

Tato oblast je označována jako sociální sémantický web či také jako folksonomie.

Pokud zůstaneme u příkladu fotografií, tak mnoho moderních fotoaparátů dnes obsahuje GPS chip, který zaznamenává do fotografie přímo polohu, kde byla vytvořena. Nástroje pro zpracování a prezentování fotografií umí s tímto údajem pracovat a mohou tedy auto- matizovaně nabídnout doplňující informace o daném místě případně nabídnout fotografie vytvořené jinými autory pro porovnání.

3.1 Architektura sémantického webu

V [10] byla představena formální architektura sémantického webu (viz obrázek 2), která slouží k transformaci stávajících zdrojů na zdroje sémantického webu a k zápisu nových zdrojů. Jednotlivé vrstvy mají předem určenou roli. Unicode vrstva představuje definici a způsob zápisu mezinárodních znakových sad. URI vrstva slouží k jednoznačné identifikaci a adresaci zdroje v prostředí webu. XML + NS + XML Schema vrstva slouží jako prostředek pro fyzický zápis metadat ve standardizovaném jazyku a umožňuje snadnější kooperaci mezi jednotlivými standardy postavenými na XML. RDF + RDFSchema vrstva slouží k zápisu

3http://www.w3.org/TR/microdata/

(30)

metadat ve formě výrazů a vytváření hierarchií z nich. Vrstva ontologického slovníku před- stavuje vyšší možnost expresivního vyjádření a umožňuje vytvářet komplexnější a složitější vztahy mezi koncepty.

Obrázek 2: Architektura sémantického webu [10]

3.2 Metadata a ontologie

Pro zápis metadat v prostředí sémantického webu se používají ontologie a jazyky pro jejich popis. Pojem ontologie pochází z filozofie. Asi nejznámější a nejpoužívanější definice ontologie z hlediska počítačového vnímání a sémantického webu je obsažena v [69], která navazuje na [30].

Ontologie je formální a explicitní specifikace sdílené konceptualizace.

Pokud rozložíme definici na jednotlivé části, tak definice říká že ontologie představuje formální – s přesně definovanou strukturou, kterou lze zpracovávat strojově – explicitní

(31)

3.2. METADATA A ONTOLOGIE 15

popis použitých konceptů a jejich vztahů, který je sdílen a představuje zjednodušený popis reálného světa, který reprezentuje.

Ontologie používají pro popis problémové domény a konceptů následující terminologii:

• Třídy (classes) – třídy objektů problémové domény, množiny, kolekce, koncepty.

• Individua (individuals) – instance objektů a objekty.

• Atributy (atributes) – vlastnost, charakteristiky které objekty mohou mít. Instance obsahují konkrétní hodnoty atributů.

• Relace (relations) – definují relace mezi třídami a instancemi.

• Funkce (functions) – komplexní struktury vytvořené z relací. Mohou být použity ve výrazech místo individuí.

• Restrikce (restrictions) – omezení, která musí být splněna, aby mohlo být tvrzení přijato jako vstup.

• Pravidla (rules) – výroky ve formě if-then vět, které popisují logické závěry, které mohou být odvozeny z tvrzení.

• Axiomy (axioms)– tvrzení (včetně pravidel) v logické formě, které tvoří popisovanou problémovou doménu.

• Události (events) – události, kdy jsou změněny hodnoty atributů nebo relací.

Doménové ontologie specifikují model konkrétní problémové domény, která představuje kousek reálného světa. Význam jednotlivých konceptů je tedy úzce svázán s konkrétní pro- blémovou doménou. To znamená, že koncepty definované v jedné doménové ontologií mohou mít v jiné doménové ontologii odlišný význam ačkoliv mají stejný název.

Naproti tomureferenční ontologie (upper ontology, top-level ontology, foundation ontology) představuje model obecných objektů, které mají stejný význam ve větším množství doménových ontologií. Představují v podstatě obecný slovník definic konceptů a jejich po- pisu. Mezi nejznámější referenční ontologie můžeme zařadit například Dublin Core⁴, General Formal Ontology (GFO)⁵ nebo Suggested Upper Merged Ontology (SUMO)⁶.

4http://www.iso.org/iso/iso catalogue/catalogue ics/

catalogue detail ics.htm?csnumber=52142

5http://www.onto-med.de/ontologies/gfo/

6http://www.ontologyportal.org/

(32)

Jazyky

K tomu, aby bylo možné ontologii sdílet a zpracovávat, je nutné ji popsat pomocí obecně známých a definovaných pravidel. Pro tento účel vzniklo několik jazyků pro popis ontologie jako jsou DOGMA, KIF, Ontolingua, DAML, DAML+OIL, RDFS, OWL. V následujícím textu popíšeme některé z nich.

• RDF⁷ představuje datový model pro popis objektů a relaci mezi nimi. RDFS před- stavuje slovník po popis vlastností a tříd RDF zdrojů. Formální model používá RDF trojice jako abstraktní syntaxi pro RDF zdroje. RDF trojice se skládá ze subjektu, predikátu a objektu, kde subjektem může být URI reference nebo prázdný uzel, pre- dikátem je URI reference na konstantu reprezentující binární predikát a objektem je opět URI reference, prázdný uzel nebo datová hodnota.

• DAML+OIL⁸ – jazyk vznikl kombinací jazyků DAML (Darpa Markup Language) společně s jazykem OIL (Ontology Inference Layer nebo Ontology Interchange Lan- guage). Jazyk OIL je tvořen pomocí vrstev, kde každá vrstva přidává funkčnost a komplexnost k té předchozí. Jednotlivé vrstvy jsou tyto:

– Core OIL – shoduje se s RDFS, s vyjímkou některých částí.

– Standard OIL – představuje jazyk určený k zachycení všech potřebných základ- ních prvků, které mají dostatečnou vyjadřovací schopnost a jsou velmi dobře pochopitelné a umožňují přesné vyjádření sémantiky a dostatečné odvozovací schopnosti.

– Instance OIL – představuje jednotlivé integrace. Instance OIL má stejné schéma jako Standard OIL. Instance jsou pak přímo popisovány pomocí RDF.

• OWL⁹ – Web Ontology Language je značkovací jazyk vytvořeny konsorciem W3C k publikování a sdílení ontologií. OWL představuje slovníkové rozšíření jazyka RDF a je odvozen od DAML+OIL.

Jazyk OWL je z hlediska implementace tvořen třemi podjazyky:

7http://www.w3.org/RDF/

8http://www.daml.org/language/

9http://www.w3.org/TR/owl-features/

(33)

3.3. POROVNÁVÁNÍ A OHODNOCOVÁNÍ ONTOLOGIÍ 17

– OWL Lite – umožňuje definování základních hierarchií s jednoduchými omeze- ními. Například OWL Lite podporuje omezení kardinality, ale pouze s hodnotami 0 a 1.

– OWL DL – je určena pro ty uživatele, kteří chtějí maximální vyjadřovací schopnosti při zachování výpočetní úplnosti (je zaručeno, že všechny závěry budou vypočteny) a rozhodnosti (všechny výpočty skončí v konečném čase). OWL DL obsahuje všechny konstrukty jazyka OWL, které ale mohou být použity pouze za určitých podmínek.

– OWL Full – je určen těm, kteří chtějí maximální vyjadřovací schopnosti a syn- taktickou volnost RDF bez zaručení vypočtení výsledků.

Jazyky DAML+OIL a OWL jsou velmi příbuzné jazykům deskripční logiky s odpo- vídající terminologií. Jsou postaveny na individuích, které mají členství ve třídách a mají vztah k jiným individuím nebo datovým hodnotám skrze vlastnosti.

Přístup pro reprezentaci znalostí ve DAML+OIL a OWL nelze přímo reprezentovat v RDFS, pro jejich zápis je nutné v RDFS používat přímo RDFS konstrukce, kde požadovaná funkčnost existuje (například rdfs:subClassOf k vyjádření vztahů mezi třídami) a specifické konstrukce tříd a vlastností které rozšiřují funkcionalitu RDFS.

3.3 Porovnávání a ohodnocování ontologií

Ontologií může být mnoho, dokonce i takových, které popisují stejnou problémovou doménu.

V ideálním případě by pro každou problémovou doménu existovala jedna všeobjímající ontologie. Protože tomu však není je nutné jednotlivé ontologie popisující stejnou či podobnou doménu porovnávat. Pro porovnání ontologií je nutné, aby bylo možné je srovnávat z hlediska stejných a rozdílných aspektů.

V [45] autoři představují množinu pravidel, pro porovnávání ontologií z hlediska lexikál- ního a konceptuálního. Výsledkem aplikování definovaných pravidel je zjištění, jakou měrou specifikace jedné ontologie odpovídá specifikaci druhé ontologii a opačně.

Autoři v [36] definují algoritmus SimRank, který porovnává podobnost objektů s ohledem na strukturální kontext ve kterém se objekt nachází a relací s ostatními objekty. Ideou algoritmu je, že „objekty jsou si podobné, když je na ně odkazováno podobnými objekty”.

(34)

Autoři v [3, 4] porovnávají ontologie na základě jejich atributů a objektů nacházejících se v instancích ontologie.

Ohodnocování ontologií slouží k snadnějšímu porovnání ontologií například z hlediska relevantnosti. Autoři v [1] ohodnocují ontologie ve smyslu párování tříd, hustoty, podobnosti nebo také srovnávání sémantické podobnost a ohodnocení ontologie jako celku. Prezento- vaná ohodnocovací metoda je využívána pro setřídění ontologií na základě jejich relevance k položenému dotazu.

3.4 Mapování a slučování ontologií

Mapování ontologií je morfismus mezi dvěmi ontologiemi [39]. Při mapování a slučování ontologií můžeme narazit na problémy a rozpory mezi ontologiemi, které by mohly zhatit celý proces. Mezi obvyklé problémy na které lze narazit jsou problémy s nejednoznačností ontologií zanesené autory, kdy v ontologii se odráží znalosti a chápání problémové domény autorem. Dalším významným problémem se může ukázat použití odlišných konvencí při psaní ontologií, odlišných ontologických jazyků a jejich sémantiky či jiný význam sémantiky v ontologii. Problémem také může být použití výrazových prvků ontologie jako jsou negace, výrazy, spojení, průniky a další či použití stejných názvů označující odlišné koncepty či naopak různé názvy pro stejný koncept.

Principy, které se využívají při mapování a slučování ontologií můžeme rozdělit:

• Společná referenční ontologie a externí zdroje – staví na principu použití referenční ontologie, která definuje společný slovník nebo společný jazyk nebo na použití exis- tujících databází terminologií a jejich definic. Příkladem je Suggested Upper Merged Ontology¹⁰(SUMO) [50], Descriptive Ontology for Linguistic and Cognitive Enginee- ring (DOLCE)¹¹, S-Match [29]¹² nebo Wordnet¹³, který bývá označován některými jako ontologie jinými jako pouze lexikální databáze.

• Lexikální informace – ontologie se upravují z lexikálního hlediska tak že se provede normalizace řetězců (malá/velká písmena, úprava prázdných znaků, diakritiky, odstra- nění stop slov), porovnání řetězců (Hammingova vzdálenost, editační vzdálenost) či

10http://www.ontologyportal.org/

11http://www.loa-cnr.it/DOLCE.html

12http://semanticmatching.org/s-match.html

13http://wordnet.princeton.edu/

(35)

3.4. MAPOVÁNÍ A SLUČOVÁNÍ ONTOLOGIÍ 19

použití thesauru. Různí autoři následně provádějí slučování ontologií analýzou názvů konceptů a jejich definic za pomoci metod analýzy přirozeného jazyka [57].

• Struktura ontologie – použití struktury ontologií, toku informací, metrik pro porovnání OWL konceptů a podobnosti ontologií. Mezi příklady můžeme zařadit Information- Flow-based method for ontology mapping (IF-MAP) [38], Quick Ontology Mapping (QOM) [27], Chimaera [46], Prompt [54] a další.

• Uživatelský vstup – uživatel provádí základní mapování ontologií, poskytuje zpět- nou vazbu navrhovaných projení, volí které akce se budou pro mapování a slučování používat a v jakém pořadí.

Vlastní metody, které provádějí mapování a slučování ontologií je možné rozdělit do následujících kategorií:

• Heuristické metody a metody založené na pravidlech – obvykle se jedná o metody pro analýzu struktury a lexikální analýzu.

V Prompt [54] autoři používají lexikální analýzu na identifikaci konceptů s podobnými názvy – provádí se například normalizace stringů, vyhledávání synonym, stejných částí řetězců apod. Takto nalezené koncepty představují první kandidáty na spojení. Pro koncepty, které jsou prohlášeny za stejné se následně provádí vyhledávání dalších vhodných kandidátů v jejich okolí.

Chimaera [46] identifikuje možné kandidáty na sloučení na základě lexikální podobnosti názvů, definic, akronymů nebo na základě stejných vlastností. Vyhledávání vhod- ných kandidátů je ovlivněno uživatelem zvolenou mírou, která určuje, do jaké hloubky a které z uvedených přístupů se použije například pro expanzi akronymů.

V metodě QOM [27] autoři možné kandidáty na spojení nacházejí pomocí výběru pev- ného počtu kandidátu; volbou kandidátů, kteří spolu sousedí v setříděném seznamu jmen; oblastí, které sousedí s již nalezenými kandidáty; propagace spojení, kdy v dal- ším kroku se volí jen takoví kandidáti jejichž sousedi byli v předchozí iteraci spojeni;

použití hierarchie, kdy se postupuje od kořenů a porovnávají se koncepty v jednotli- vých vrstvách. U nalezených kandidátů na spojení se provedou výpočty podobnosti jako například shodnost objektů, shodnost řetězců, podobnost řetězců, shodnost vlast- ností. Všechny vypočtené podobnosti jsou vloženy agregované podobnosti, na základě které se rozhodne o spojení konceptů.

(36)

Autoři v [29] definují metodu na propojení dvou ontologií vytvořením mapování mezi sémantický stejnými koncepty – autoři vytváří propojení výpočtem sémantických vazeb, které se zjišťují analýzou významu konceptu dle struktury a elementů ontologie.

• Analýza grafů – tyto metody berou ontologie jako grafy. Porovnáním stejných pod- grafů nebo cest grafem se hledají stejné části, které lze spojit. Mezi příklady můžeme zařadit metodu porovnávání grafů Similarity Flooding [47] nebo Anchor-Prompt [55], která staví na myšlence, že pokud se najdou dva páry stejných konceptů a mezi pří- slušnými koncepty v ontologii existuje cesta, tak koncepty na této cestě jsou obvykle také podobné.

• Metody strojového učení – použití metod pro strojové učení, využití statistických informací z ontologií a jejích instancí.

V metodě GLUE [26] autoři využívají strojové učení pro vytváření mapování mezi ontologiemi na základě jejich instancí, kdy podobnost dvou konceptů A a B je zalo- žena na množinách jejich instancí a použití klasifikátoru s množinou A jak trénovací množiny pro určení, zda instance množiny B jsou také instancemi množiny A. Na základě získaných výsledků se vypočte společné rozdělení pravděpodobnosti pro koncepty které určuje zda koncepty budou či nebudou označeny jako stejné.

• Pravděpodobnostní a logické přístupy – využití výsledků heuristických a statistických metod a využití logiky, odvozování a dokazování pro hledání mapování ekvivalence, generalizace a specializace.

OMEN (Ontology Mapping ENhancer) [48] představuje přístup založený na Bayesov- ských sítích. Princip je založen na vytvoření Bayesovské sítě, kde uzel představuje ma- pování mezi koncepty nebo vlastnostmi vstupních ontologií a hrany představují vlivy mezi uzly. Vytvořením pravděpodobnostní tabulek danou síť založených na mapova- ných konceptech a jejich sousedech za použití definovaných meta-pravidel se připraví základ pro odvození pravděpodobnosti pro jednotlivé uzly. Uzly jejichž vypočtená pravděpodobnost je větší než daný práh jsou vybrány pro spojení.

(37)

3.5. TOPIC MAPS 21

3.5 Topic maps

Velmi blízkým příbuzným standardem k sémantickému webu je standard Topics maps¹⁴[53], který byl standardizován ISO¹⁵. Topic map reprezentuje informace za pomoci:

• topic – reprezentuje znalost vyjádřenou ve formě konceptu,

• asociace (associations) – reprezentuje propojení mezi jednotlivými topic,

• výskyty (occurences) – reprezentují informační zdroje relevantní k danému topicu.

V rámci vývoje topic maps jako ISO standardu bylo vytvořeno několik datových for- mátu pro zápis. Mezi tyto formáty patří hojně používaný formát XTM (Topic Maps – XML Syntax), CXTM (Canonical XML Topic Maps format), CTM (Compact Topic Maps No- tation) a GTM (Graphical Topic Maps Notation). V rámci ISO standardů byly vytvořeny také příbuzné standardy s Topic maps a to TMAPI (Common Topic Maps Application Pro- gramming Integrace) jako obecné API pro práci, TMQL (Topic Maps Query Language) pro vytváření dotazů a TMCL (Topic Maps Constraint Language) pro definování nebo testování sémantické validity mapy pro příslušnou doménu.

Topic Maps a RDF jako základní jazyk sémantického web sdílejí mezi sebou mnoho stej- ných vlastností a v mnoha ohledech se liší. Mezi nejdůležitější společné vlastnosti můžeme zařadit použití XML jazyka pro zápis sémantiky (i když existují i jiné možnosti zápisu, XML je preferovanou možností); možnost odvozování; pro obě oblasti existují jazyky pro dotazování a definování omezení.

Mezi hlavní rozdíly mezi ontologiemi a topic maps patří rozdílná úroveň sémantiky, která je zaznamenána. Každý ze standardů definuje svůj vlastní a navzájem odlišný model a v neposlední řadě i základní určení. Primárním určením RDF (a OWL) je uchování a zápis velkých datových celků a jejich automatizované zpracování pomocí umělé inteligence či agentů, kdežto TM je primárně zacíleno na možnost nalezení informací a znalostí člověkem.

14http://www.topicmaps.org/

15http://www.iso.org/iso/iso catalogue/catalogue tc/

catalogue detail.htm?csnumber=38068

(38)

3.6 Sociální sémantický web, folksonomie

Jedním z rozšíření a nadstaveb sémantického webu je sociální sémantický web (social- semantic web, s2w) [13, 49], který využívá sociální interakce mezi uživateli webu pro vy- tvoření sémanticky bohatých znalostí. Principem je kolektivní znalost, která je založena na příspěvcích uživatelů jejichž kvalita se odvíjí od počtu uživatelů – čím větší počet uživatelů spolupracuje, tím kvalitnější znalost.

V dnešní době se s tímto pojetím sémantického webu setkáváme stále častěji v různých sociálních službách jako jsou Facebook, Google+, MySpace, LinkedIn, Flickr a jiné. V oblasti sociálního sémantického webu se uplatňují ontologie (ve smyslu semi-formální ontologie), taxonomie a folksonomie. Hlavní důraz klade sociální sémantický web na uživatelem vytvořenou sémantiku.

Folksonomie jsou jednou z možností, jak získávat základ pro sémantiku pro sociální sé- mantický web. Folksonomie představuje sociální tagování (social tagging) a podle autora v [81] představuje osobní neomezené tagování stránek a objektů pro vlastní vyhledávání informací, které splňuje následující charakteristiky – probíhá v sociálním prostředí; je vyko- náváno člověkem; přidanou hodnotou je, že tagování přidává kontext a perspektivu a jsou zdrojem pro chybějící metadata; při tagování využívají lidé vlastní slovník.

3.7 Vytváření prostorů konceptů

Vytvořit prostor konceptů je možné několika možnými způsoby. Můžeme si pozvat experta na problémovou doménu, který bude schopen prostor konceptů vytvořit ručně, což je vět- šinou časově (i finančně) náročné a v prostoru konceptů se odrážejí zkušenosti a preference experta. Případně můžeme zvolit některý z (polo)automatizovaných postupů. Druhý z pří- stupů sice úplně nevylučuje přítomnost experta v procesu vytváření prostoru konceptů, minimalizuje se však jeho preference při tvorbě prostoru konceptů a potřebný čas. Expert zde spíše působí jako „korektor” vytvořeného prostoru konceptů.

Autoři v [25] představují dva přístupy na vytváření prostoru konceptů. Prvním přístup je založen na automatickém vytvoření draftu prostoru konceptů, se kterou je následně možné pracovat. Tento přístup je založen použití heuristického přístupu pro získávání sémantických informací z HTML dokumentů se znalostí jejich struktury. Druhý přístup se zaměřuje na pomoc autorům při procesu vytváření prostoru konceptů dolováním dostupných znalostí z Wikipedie – autorům jsou navrhovány názvy pro nové koncepty společně s množinou

(39)

3.8. SHRNUTÍ 23

souvisejících konceptů z dané oblasti.

Autoři v [28] představují techniku poloautomatizovaného vytváření prostoru konceptů za pomoci technik pro vytěžování dat z dokumentů. V prezentovaném systému autoři používají techniky Latent Semantic Indexing pro získávání znalostí z textových dokumentů a K-mean shlukování pro rozdělení dokumentů na shluky, které obsahují pouze podobné koncepty dle použité metriky. Vlastní prostor konceptů následně vytváří autor, kde tyto techniky jsou využívány jako nápověda pro nové koncepty a pro automatické přiřazení dokumentů ke konceptům.

V [65, 66] autoři představují postup pro automatické získávání metadat pro vytváření konceptů a relací mezi nimi. Metoda je založena na zpracování textových dokumentů, vy- tvoření jejich vektorové reprezentace, očištění od stop slov a úpravy vah. Z připravených vektorů autoři získávají kandidáty na koncepty – pseudokoncepty, které jsou následně zdrojem pro vytvoření ontologie a vztahů mezi jednotlivými koncepty za použití metod pro zjištění podobnosti konceptů.

Autoři v [31] se zaměřují na tvorbu prostoru konceptů s využitím existujících HTML dokumentů. Pro zpracování dokumentů používají dva přístupy. První přístup provádí le- xikální zpracování obsahu nadpisů (headings) HTML dokumentů a druhý přístup využívá strukturu HTML nadpisů pro identifikaci nových konceptů a jejich vztahů.

3.8 Shrnutí

V našem přístupu jsme jako hlavní cíl sledovali adaptivní personalizovanou navigaci posta- venou nad prostorem konceptů. Pro realizaci experimentu, kterým jsme ověřovali vlastnosti našeho navigačního principu jsme použili prostor konceptů, který byl ovšem ručně vytvořen expertem. Prostor konceptů byl vytvořen pro sadu textových dokumentů z odpovídající aplikační domény, konkrétně šlo o dokumenty z domény programovacího jazyka C++ a dokumenty z domény programovacího jazyku Lisp [61, 62]. Souběžně jsme pracovali na poloautomatizovaném vytváření prostoru konceptů z textových dat [64], tyto naše první publikované výsledky v oblasti inženýrského vytěžování dat a poloautomatizované tvorby prostoru konceptů jsou velmi příslibné.

(40)

(41)

Kapitola 4

Adaptivní web

Adaptivní hypermédia a web mají velmi blízko k sémantickému webu. Adaptivní web se zaměřuje na navigování a personalizování nabízených informací. Aby to bylo možné provádět automatizovaně, je nutné aby systémy, které budou s informacemi pracovat, je uměly také vyhodnotit – znaly jejich sémantiku.

Adaptivní hypermédia se zrodila jako oblast v 90. letech minulého století, kdy byly poprvé představeny základní myšlenky, techniky a první modely. V práci [15] a [16] se můžeme poprvé setkat a seznámit se základními přístupy a technikami pro adaptaci obsahu a adaptaci navigace.

V průběhu následujících let vzniklo mnoho přístupů, formálních metodologií a modelů definující základní součásti, které by adaptivní systém měl obsahovat. Známý a často cito- vaný model AHAM [21] definuje tři základní součásti, které by měl každý systém obsahovat – model domény, model uživatele a model adaptace. Bylo navrženo a implementováno mnoho systému experimentálních či reálně nasazených do používání. Nejširší využití si adaptivní hypermédia našla v oblasti výuky, kde se adaptivní systémy využívají pro výuku progra- mování, SQL, pro přístup k výukovým příkladům, nabízení výukových kurzů, doporučování literatury a v různých dalších směrech.

Při vytváření a implementování adaptivních systémů se největší míra věnuje modelu uživatele, který jednak uchovává informace o uživatelích a jednak představuje – společně s modelem domény – základ pro adaptaci. Protože model uživatele je velmi komplexní vzniklo mnoho způsobu jak jej definovat – překryvný model, stereotypový model či sdílený model – a jak jej reprezentovat.

Důležitým krokem celého procesu adaptace, a jak se také ukázalo krokem v podstatě

(42)

nejtěžším, je první krok procesu v situaci kdy se uživatel poprvé přihlašuje (pokud není anonymní) do systému a chce s ním začít pracovat nebo se spouští nový systém. V této chvíli nastává takzvaný cold start problém, který se řeší například formou testovacího provozu či inicializace základních charakteristik uživatele pomocí defaultních hodnot nebo pomocí hodnot získaných od podobných uživatelů.

V závěru této kapitoly přinášíme přehled některých systémů a metodologií z oblastí adaptivních hypermédií a adaptace. Zmiňujeme se také o našich zkušenost s některými adaptivními systémy, jež jsme měli možnost otestovat a popisujeme adaptivní systém XA- POS, který jsme vyvinuli pro naše účely testování.

4.1 Adaptivní techniky

Adaptivní techniky slouží k adaptaci prezentovaného obsahu nebo jeho formy uživateli [15].

Adaptivní techniky rozdělujeme podle způsobu určení na adaptivní navigaci (adaptive navigation) aadaptivní prezentaci (adaptive presentation). Jejich rozdělení můžeme vidět na obrázku 3.

Adaptivní prezentace

Tyto techniky pracují s informacemi ve formě dokumentu, případně ve formě stránky nebo její části, jako je například odstavec. Zaměřují se na přímou úpravu zobrazovaných informací uživateli a to jejich modifikací či určením, zda se budou zobrazovat a v jakém rozsahu.

V následujících technikách budeme mluvit o fragmentu (místo dokumentu) jako jednotce, se kterou techniky pracují z důvodů zachování ustálených názvů technik:

• Vkládání a odebírání fragmentů (inserting and removing fragments) – jed- notlivé fragmenty mohou být do zobrazovaného výsledku přidány na předem zvolené místo, případně mohou být odebrány pokud nesplňují podmínky pro zobrazení.

• Záměna fragmentů (altering fragments)– fragment obsahující podrobněji popis, definici, vysvětlení může být uživateli prezentován místo fragmentu, který obsahuje jen stručný popis nebo opačně. Obvykle se této techniky využívá v případech, kdy uživatel se s nějakou definicí či problémem setkává poprvé a je mu tedy prezentován rozšířený či obohacený fragment a následně již jen jeho kratší varianta.

(43)

4.1. ADAPTIVNÍ TECHNIKY 27

Adaptive techniques

Adaptive presentation

Adaptive navigation

inserting removing fragments

altering fragments

strechtext

sorting fragments

dimming fragments direct navigation

adaptive link sorting adaptive link hiding

adaptive link disabling adaptive link removal adaptive link annotation adaptive link generation map adaptation Obrázek 3: Přehled technik adaptace

(44)

• Roztahovací text (strechtext) – pouze krátká část (ukázka) nebo zástupce fragmentu je zobrazena uživateli. Uživatel má možnost obvykle pomocí kliknutí myši nebo najetím myší nad daný fragment zobrazit a prohlédnout si celou informaci daného fragmentu nebo naopak fragment schovat a zobrazovat jen jeho zástupce.

• Třídění fragmentů (sorting fragments) – fragmenty s informacemi jsou pro uži- vatele setříděny podle relevantností obsažených informací.

• Zašeďování fragmentů (dimming fragments)– informace, které jsou pro uživa- tele nedůležité mohou být vizuálně odlišeny, například formou zašedění textu.

Adaptivní navigace

Tyto techniky pracují s odkazy nebo se skupinou odkazů, kdy odkazy prezentované uživateli mohou být modifikovány či podmíněně zobrazovány. Odkazem v těchto technikách rozumíme nejen odkaz ve formě hyperlinku ale také způsob jakým může být uživatel mezi fragmenty navigován:

• Přímé navigování (direct guidance) – uživatel je přímo veden k požadovanému cíli. Obvykle jsou pro navigaci uživateli nabídnuta pouze tlačítka další a zpět.

• Třídění odkazů (adaptive link sorting) – prezentované odkazy jsou setříděny tak, aby se odkazy na relevantní informace vyskytovaly co nejvýše v seznamu. S touto technikou se můžeme běžně setkat ve vyhledávačích.

• Schovávání odkazů (adaptive link hiding)– odkazy v tomto způsobu prezentace jsou funkční, zobrazeny barvou okolního textu, tak aby na první pohled nebylo zřejmé, že se jedná o odkazy.

• Znefunkčnění odkazů (adaptive link disabling)– odkazy jsou do výsledné prezentace zahrnuty pouze jako text.

• Odstranění odkazů (adaptive link removal) – odkazy jsou zcela odstraněny z textu.

• Anotace odkazů (adaptive link annotation) – odkazy jsou vizuálně nebo tex- tově odlišně zobrazovány podle jejich relevance, například oblíbeným způsobem je zobrazovat zajímavé odkazy zelenou barvou a irelevantní červenou. Poznamenejme,

(45)

4.2. MODELY ADAPTIVNÍCH HYPERMÉDIÍ 29

že způsob anotace odkazů pouze barvou není slučitelný s WAI¹ (Web Accesibility Initiative). Proto je vhodné podle doporučení používat kombinaci textové a barvené anotace odkazů.

• Vytváření odkazů (adaptive link generation) – v rámci své práce může systém vyhodnotit zajímavé propojení mezi existujícími fragmenty a následné tuto informaci zahrnout jako odkaz do prezentace uživateli.

• Adaptace mapy odkazů (map adaptation) – grafická reprezentace problémové domény je prezentovaná uživateli. Uživatel se může navigovat přímo ke zvolenému cíli kliknutím na reprezentaci fragmentu v mapě. Uživateli může být zobrazována rozdílná mapa na základě jeho aktuálních znalostí.

4.2 Modely adaptivních hypermédií

Navigace uživatele k požadované informaci je nejdůležitějším úkolem každého systému po- staveného na principu adaptivních hypermédií. K tomuto potřebují systémy sbírat a ucho- vávat informace o svých uživatelích. Čím více a přesnější informace bude systém schopen o uživateli získat, tím přesnější navigaci bude schopen nabízet. V oblasti výukových sys- tému, sbírají systémy informace o uživatelích ve formě naučených znalostí, učebního stylu, navštívených výukových materiálů nebo jejich kombinaci.

Většina systémů sdílí stejné či podobné charakteristiky a vlastnosti. Jejich porovnáním a zkombinováním byl navržen model, který definuje obecný model a jeho části, které by měl systém implementovat. Vnitřní uspořádání systémů může být postaveno na principu konceptu jako základní jednotky informace, které systémy využívají pro sledování charakteristik uživatele, pro popis doménového prostoru a pro vlastní navigaci. Koncept v mnoha systémech hraje dvojí roli v navigaci – výstup a prerekvizita. Koncepty, které jsou poprvé představeny ve výukovém materiálu jsou označovány jako výstupy a koncepty používané ve výukovém materiálu ale představeny již dříve jsou označovány jako prerekvizity.

Nejznámějším modelem popisujícím obecnou architekturu adaptivního systému je model AHAM (Adaptive Hypermedia Abstract Model) [21]. Model definuje tři základní části:

• model domény – reprezentuje problémovou doménu nebo oblast ve které systém pracuje. Problémovou doménu tvoří její popis ve formě metadat, prostoru konceptů

1http://www.w3.org/WAI/

(46)

nebo ontologie [11], případně také samotný obsah (dokumenty), který bude prezen- tován uživatelům. Mnoho systémů využívá doménovou ontologii pro popis domény a ontologii struktury (concept structure ontology) pro popis relací mezi dokumenty.

• model uživatele– uchovává informace o uživatelích systému a jejich chování v rámci systému. Tyto informace se následně využívají k adaptaci. Obvykle je uživatel do systému přihlášen, takže jeho identifikace je jednoznačná a systém pracuje přímo s jeho profilem. Některé systémy ovšem také umožňují práci anonymních uživatelů.

• model adaptace– specifikuje způsob jak vlastní adaptace probíhá. Pracuje současně s modelem uživatele, ze kterého získává data uživatele pro adaptaci a také s modelem domény, ze kterého se vybírají dokumenty, které budou uživateli zobrazeny. Zobrazení dokumentu uživateli a jeho reakce následně zpětně ovlivňují model uživatele.

4.3 Model adaptace

Model adaptace určuje, jakým způsobem bude adaptace probíhat. Vlastní adaptace uživa- tele může probíhat jedním či více možnými způsoby nebo jejich kombinací, které předsta- vujeme v následujícím textu.

Pravidlový přístup

Adaptace je založena na pravidlech která jejichž obvyklý formát je

i f <c o n d i t i o n> then <a c t i o n>

kde podmínka condition může představovat externí akci, která musí být vykonána (jako například přístup na stránku) nebo otestování hodnoty atributu z doménového modelu či z modelu uživatele. Pokud je podmínka splněna, provede se akce action. Akce může představovat vytvoření události pro uživatele, na kterou bude moci reagovat či úpravu atributů v modelu uživatele či v modelu domény.

Pravidla mohou být definována v modelu domény jako součást dokumentů nebo sa- mostatně. Po splnění podmínek je dokument zobrazen, přičemž jeden dokument může mít definováno více pravidel. Druhou možností je mít pravidla definována jako součást adap- tačního modelu, kdy při interakci s uživatelem se vyhledávají pravidla, jejichž podmínka v aktuální chvíli může být vyhodnocena jako true a následně je vyvolána příslušná akce.

(47)

4.3. MODEL ADAPTACE 31

Prerekvizity

Každý dokument v modelu domény má definovanou množinu prerekvizit. Obvykle se jako prerekvizity používají koncepty z prostoru konceptů v modelu domény. Informace o tom, co již uživatel zná se uchovává pro každého uživatele zvlášť v jeho instanci modelu uživatele, například jako množina dosažených znalostí.

V rámci jednoho kroku adaptace se provede porovnání toho, co uživatel má ve své množině dosažených znalostí, a co tedy zná s množinami prerekvizit dokumentů. Takové dokumenty u nichž průnik množiny prerekvizit a množiny dosažených znalostí uživatele odpovídá nastavené adaptaci jsou zobrazeny uživateli. Adaptace může být nastavena tak, aby všechny koncepty z množiny prerekvizit byly obsaženy v množině dosažených znalostí nebo aby jejich procentuální poměr odpovídal nastavenému prahu. Nastavení plně závisí na autorech adaptace a může být i vícestupňové, kdy například při plném pokrytí je dokument označen jako doporučený, při 75 % jako vhodný a při nižším procentu jako nevyhovující.

Filtrování na základě obsahu

Filtrování na základě obsahu (content-based filtering) který je předkládán uživateli je jednou z možností, jak redukovat množství informací, které uživatel dostává. Autoři v [72]

vyhodnocují obsah dokumentu, který je pro uživatele zajímavý (ať rozhodnutím systému či explicitním určením uživatele). Dokumenty, které jsou vyhodnoceny na základě korelace k danému dokumenty jsou následně pro uživatele vybrány jako další vhodné. Tento přistup závisí na třech faktorech – obsah dokumentu, ohodnocení dokumentu získané od uživatele a filtrovacím algoritmu.

Kolaborativní filtrování

Kolaborativní přístup (collaborative filtering) staví na tom, že uživatelé s podobnými zájmy či zaměřením budou preferovat obdobné informace [34, 70]. Uživatelé jsou rozdělení do skupin podle svých zájmů. Adaptace se provádí pro konkrétního uživatele ale s přihlédnutím na získané ohodnocení od všech uživatelů stejné skupiny. Pro správné fungování tohoto přístupu je nutné získávat zpětnou vazbu od uživatelů. Nevýhodou tohoto přístupu je, že uživatel může být zařazen do nesprávné skupiny na základě chybných počátečních údajů nebo uživatel ačkoli má stejné zájmy, nemusí mu nabízené informace vyhovovat.