• Nebyly nalezeny žádné výsledky

Ontologie sociální role pro potřeby syntézy řeči

N/A
N/A
Protected

Academic year: 2022

Podíl "Ontologie sociální role pro potřeby syntézy řeči"

Copied!
34
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY

Ontologie sociální role pro potřeby syntézy řeči

BAKALÁŘSKÁ PRÁCE

Dita Salajková

Brno, 2016

(2)

ii

Prohlášení o autorství

Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracovala samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracování používala nebo z nich čerpala, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.

__________________________

Vedoucí práce: Mgr. Luděk Bártek, Ph.D.

(3)

iii

Poděkování

Děkuji svému vedoucímu práce Mgr. Luďkovi Bártkovi, Ph.D. za užitečné rady a vstřícnost při konzultování této práce. Dále také RNDr. Radkovi Ošlejškovi, Ph.D.

za cenné konzultace týkající se modelování ontologií.

(4)

iv

Shrnutí

Sociální role je důležitým konstruktem sociální reality, který je žádoucí blíže analyzovat a formálně popisovat na poli informačních technologií, především pak v oblasti umělé inteligence. Cílem této práce je teoretické a formální zakotvení domény sociální role pomocí sociologické teorie a nástrojů pro stanovení axiomů o třídách a atributech, které jsou klíčové pro cílovou aplikaci umožňující syntézu řeči. Praktickou součástí práce je formální ontologický model domény sociální role, a aplikace, která tohoto modelu využívá jako báze znalostí, a jejímž výstupem je dokument standardizovaný pro potřeby řečového syntetizéru.

Abstract

Social role is a key matter in forming social reality and as such it should be further analyzed and formalized in Artificial intelligence. In this thesis, sociological theory on Social role has been studied to find key concepts that can be used for the purpose of the target speech synthesis application. The practical part of this thesis includes formal ontological model of the Social role domain and an application that uses this model as a knowledge base. The output of this application is a document standardized for a speech synthesizer.

Klíčová slova

sociální role, sociální status, emoce, ontologie, řečová syntéza

Keywords

social role, social status, emotions, ontology, speech synthesis

(5)

v

Obsah

1. Úvod ... 1

2. Sociální role ... 3

2.1. Úloha sociální role v konstrukci reality ... 3

2.2. Dramaturgická perspektiva ... 4

2.3. Sociální role a sociální status ... 5

2.4. Význam sociální role v komunikaci ... 5

2.5. Sociální role a emoce ... 6

3. Umělá inteligence v oblasti simulace sociálních jevů ... 8

3.1. Dialogové systémy ... 8

3.2. Řečová syntéza ... 9

3.3. Modelování emocí ... 10

3.4. Použití řečové syntézy v praxi ... 11

4. Ontologie sociální role ... 12

4.1. Klasifikace ontologie ... 14

4.2. Třídy ... 14

4.3. Vlastnosti tříd... 16

4.4. Odvozování ... 18

4.5. Instance ... 19

4.6. Výhody použití ontologie oproti jiným datovým strukturám ... 19

5. Aplikace nad ontologií ... 21

5.1. Báze znalostí ... 21

5.2. Formulář a funkční část aplikace ... 21

5.3. XSLT šablona... 22

5.4. Výstup aplikace – SSML značkování řečového segmentu ... 23

5.5. Možné aplikace a návrhy na vylepšení ... 24

6. Závěr ... 25

Seznam použité literatury ... 26

(6)

vi

Seznam obrázků ... 28 Přílohy ... 28

(7)

1

1. Úvod

Všichni hrajeme divadlo. Český překlad názvu knihy amerického sociologa Ervinga Goffmana [1] výstižně reprezentuje dramaturgickou perspektivu na chování jedince ve společnosti. Skrze tuto perspektivu lze nahlížet na každodenní životy lidí jako na představení, ve kterém jednotlivé postavy odehrávají své role za účelem ovlivňování dojmů svého obecenstva. Role, skrze něž se jedinci prezentují, reflektují očekávání sociálního okolí. Role, kterými je jedinec charakterizován, determinují nejen jeho momentální chování, ale také jeho budoucí akce. Ve vývoji jedince je přijímání rolí důležitým stadiem socializace [2]. Role určují, co jedinec smí a nesmí, co může a co by měl, jaké jeho vlastnosti a jednání jsou klíčové pro úspěšnou komunikaci se sociálním okolím. Role jsou tedy klíčovým konceptem k pochopení konstrukce sociální reality samotnými jejími aktéry. V lidské komunikaci jsou role jevem, bez něhož bychom nevěděli, jaké reakce jsou od nás očekávány a jaké máme naopak my očekávat od druhých. Řečeno jednoduše, bez konceptu rolí by mezilidská komunikace vázla. Plynulostí komunikace je však stejně důležité se zabývat i tehdy, pokud je její součástí počítač.

Simulací lidského chování v počítačových systémech komunikujících s lidmi se informatické obory zabývají stále častěji. Vědci z oblasti umělé inteligence usilují o vytvoření inteligentní a afektivní entity, která bude k nerozeznání od té lidské.

Dokonalosti se v této oblasti pravděpodobně ještě dlouho nedočkáme, ale přesto je počítači často vdechována lidská osobnost, a například v dialogových systémech může být takováto simulace lidských vlastností součástí strategie, s jejíž pomocí lze dosáhnout kýženého záměru. Nejčastěji používanými nástroji v oblasti umělé inteligence jsou logika, pravděpodobnost, vyhledávání a optimalizace [3]. Data, s nimiž tyto nástroje pracují, jsou reprezentována skrze zformalizované popisy jevů, tedy ontologické reprezentace znalostí [4]. Koncepty, které je třeba formalizovat, v této práci čerpám ze sociologických teorií, jež se sociálními jevy zabývaly dlouho předtím, než je bylo nutné definovat pro potřeby informačních technologií. Sociologické teorie o vzniku a průběhu jevů ve společnosti nám mohou pomoci v dosažení takové počítačové simulace lidského chování, která bude na

(8)

2

uživatele působit přirozeněji. To, které faktory lidského chování je klíčové simulovat, se odvíjí od návrhu a použití aplikace.

Cílem této práce je navrhnout takový ontologický model konceptu sociální role, jehož modelované entity budou úzce souviset s označeními používanými v řečových syntetizérech pro vlastnosti řeči umělého mluvčího. Druhá kapitola je tedy věnována teoretickému zakotvení konceptu sociální role a jeho vymezení vůči klíčovým sociologickým pojmům. Třetí kapitola nastiňuje soudobý stav a možnosti v oblasti umělé inteligence a simulace sociálních jevů. Stěžejní částí práce je kapitola čtvrtá, ve které je detailně popsán návrh ontologie, od hierarchie tříd a jejích vlastností, až po naplnění množiny instancí testovacími daty. Z možností modelování vlastností ontologických tříd je zde kladen důraz na charakteristiky používané v řečové syntéze, konkrétně ve značkovacím jazyce SSML1 (Speech Synthesis Markup Language). V páté kapitole je popsána aplikace, která využívá ontologického modelu jako báze znalostí. Tato aplikace transformuje vstup od uživatele a data z ontologického modelu na dokument značkovaný pro potřeby řečového syntetizéru. Přílohou této práce je soubor obsahující ontologii, funkční část aplikace a šablonu pro transformaci.

Z pohledu softwarového vývojáře je jistě žádoucí, aby se komunikace s počítačem podobala té mezilidské, a je důležité věnovat přirozenosti projevu na straně počítače maximální pozornost. Rolové chování by proto mělo být důležitou součástí takovéhoto návrhu. Tato práce poukazuje na důležitost zavedení konceptů sociální reality do reality virtuální.

1 Viz https://www.w3.org/TR/speech-synthesis11/.

(9)

3

2. Sociální role

Sociální role je konceptem, který je zásadní pro správné fungování komunikace ve společnosti. Do rolového chování jedinec interpretuje očekávání publika, tedy společnosti. V každém momentě, který trávíme ve společnosti ostatních lidí, na sebe bereme určitou roli. Role, kterou na sebe jedinec bere, vždy přináleží k určitému statusu [5]. Někdy je v určitém momentě takových rolí více, pak mluvíme o souboru rolí. Pokud změníme osobu, která roli vykonává, na samotné provedení role tato změna nebude mít vliv. Role je tedy určitým vzorcem představujícím množinu chování, práv a povinností. To, jakou na sebe bereme roli, determinuje naše chování v konkrétních situacích.

2.1. Úloha sociální role v konstrukci reality

V sociologii vědění, tedy pojednání o tom, co víme a považujeme za reálné, je jednou ze stěžejních výkladů teorie sociálního konstruktivismu. Jejími průkopníky jsou Berger a Luckmann, kteří ve své práci Sociální konstrukce reality [6] čtenáři přibližují realitu, která je jen zdánlivě pro každého stejná a tedy není tak pevně dána jak by si mnozí mohli myslet. Klíčovou otázkou v Bergerově díle je: „Jak je možné, že subjektivní významy se stávají objektivními skutečnostmi?“ [6 str. 23]. Pro pochopení reality je důležitá metoda objektivace, neboli vytváření objektů, které umožní existenci něčeho reálného. Tyto objekty jsou všemi účastníky interakce chápány stejně, a to přestože stojí na konci subjektivních významů a záměrů. Mezi nejdůležitější objekty v interakci patří různé symbolické a znakové systémy.

Vytvořené znaky se sdružují do systémů, v mezilidské komunikaci mezi ně patří například gesta, mimika, nebo symboly reprezentující instituce. Pro komunikaci je však nejdůležitějším z těchto systémů jazyk neboli systém zvukových znaků. Pokud rozumíme jazyku svého komunikačního protějšku, můžeme pochopit jeho realitu.

Jeho subjektivní vnímání situace se stává skrze řeč naší objektivní realitou. Na počítačovou simulaci objektivní reality skrze modelování vlastností zvukového projevu jazyka bude zaměřena tato práce.

Při komunikaci vnímáme svůj protějšek skrze typizační schémata a jejich prostřednictvím s ním také zacházíme. Pokud náš komunikační protějšek vykonává činnosti, které jsou součástí objektivovaných typizací, není pojímán jako osobitý

(10)

4

jedinec, nýbrž jako „typ“. Takovému typu říkáme role. Role jsou důležité pro začlenění jedince do sociálního světa. Například veškeré chování spojené s institucemi v sobě zahrnuje role. Jedinec, vykonávající určitou roli, reprezentuje nejen tuto roli, ale zároveň také institucionální síť chování [6 str. 77]. Například učitel svým chováním reprezentuje učitele i školství zároveň. Role zprostředkovávají institucím společné zásoby vědění a umožňují tak jejich existenci. Pro vykonání již zmíněné role učitele je třeba znát institucionální normy (školní řád), ctít určité hodnoty (spravedlnost), a projevovat kýžené emoce (potlačení agrese). Jak píše Berger a Luckmann: „Aby se jedinec roli naučil, nestačí jen osvojit si povinnosti bezprostředně nutné pro její vnější provedení. Musí být také zasvěcen do nejrůznějších kognitivních a dokonce i emotivních vrstev zásoby vědění, které jsou jak přímo, tak i nepřímo pro danou roli důležité.“ [6 str. 78].

2.2. Dramaturgická perspektiva

Goffman ve své práci [1] představuje analogii, v níž jsou každodenní životy lidí zobrazeny jako představení, ve kterém jednotlivé postavy odehrávají své role za účelem ovlivňování dojmů svého obecenstva. Jednotlivec vystupuje jako účinkující, který podává herecké výkony, s nimiž se více či méně ztotožňuje. Účinkující, který se se svou rolí neztotožňuje vůbec, je nazýván cynikem, nicméně i on svou roli zastává dobrovolně, z důvodu vyvolání kýženého dojmu v publiku. Z Goffmanova pojetí je publikum zásadním prvkem v hraní rolí, veškeré aktérovo jednání je přizpůsobeno chápání a očekávání obecenstva. Bez přítomnosti obecenstva není důvod k dramatickému zachycení skutečnosti, zůstává jen činnost, kterou je potřeba vykonat, činnost, jež je přímo spojena se statusem náležícím k dané roli.

Příslušnost k roli je dána skrze statusové vlastnosti, jako je oblečení a vystupování.

Aktérova osobní fasáda slouží k vyjádření vlastností, které nejúžeji identifikujeme se samotným účinkujícím a které ho budou následovat kamkoliv, tj. odznaky úřadu či hodnosti, oblečení, pohlaví, věk a rasa, velikost a vzhled, držení těla, způsob mluvy, výraz obličeje, gestikulaci. Některé tyto vlastnosti jsou dané (rasa) a některé přechodné (výraz obličeje, hlasitost). Společenská role je však také dramatickým ztvárněním, které spočívá ve zvolení vhodných osobnostních kvalit a emocí (klidný pilot, střízlivý soudce).

(11)

5

Goffmanovo pojetí je často kritizováno pro cynický přístup [7], nicméně do dalších kapitol si z jeho teorie přeneseme důležitost publika a dramatického ztvárnění, včetně emocí.

2.3. Sociální role a sociální status

Pojmy role a status vyjadřují základní charakteristiky lidského individua jako sociální bytosti [8]. Status je podle Ralpha Lintona [5] místo, které jedinec zaujímá v určitém sociálním systému. Je to pozice, kterou člověk zastává vůči jiným lidem ve společnosti. Role je podle Lintona dynamickým aspektem statusu, jež představuje pojící článek mezi jednotlivcem a společností. Podle Mertona [9] může ke každému statusu náležet množina rolí, role v této množině se odvíjí od obecenstva, pro nějž je role hrána. Například ke studentovi náleží role studenta spolužáka, studenta jako posluchače na přednášce atd. Podle Parsonse [10] můžeme vztah statusu a role přirovnat ke vztahu struktury a funkce. To, jak daný status bude ve společnosti prezentován, je úlohou rolového chování jedinců status reprezentující. A naopak, to, jak je role používána, může způsobovat změny charakteru statusu a potažmo také sociální struktury jako takové.

2.4.Význam sociální role v komunikaci

To, že na sebe aktéři berou roli v dané situaci je klíčové pro průběh komunikace aktérů a jejího vyústění. V jednom z nejznámějších a nejkontroverznějších experimentů na poli psychologie a sociologie, Standforském vězeňském experimentu, bylo přesvědčivě dokázáno, jak zásadní jsou připsané role pro vyústění situace. Experiment, pod vedením Zimbarda [11], spočíval v přidělení rolí vězňů a dozorců dobrovolníkům v uměle vytvořeném vězení a sledování jejich chování. Přidělené role proměnily psychicky zdravé a vyrovnané jedince na straně dozorců v kruté a brutální autority, na straně vězňů pak v anonymní, uniformované jednotky bez vůle a práv. Na Zimbardově příkladu vidíme, jak role dokáží vyhrát nad genetickými predispozicemi a výchovou. Aktér při vstupu do role většinou zjistí, že pro tuto roli již byla ustanovena konkrétní sada jednání a vzhledu [1]. Je potřeba vykonat určité úkoly a udržovat určitý dojem. Vývoj komunikace můžeme názorně vidět na Hartleyho [12] modelu interpersonální komunikace (Obrázek 1). Na obrázku vidíme, že kromě identity, tedy toho jak se vidí samotný aktér, je pro správné rozklíčování situace komunikačním protějškem

(12)

6

důležitá také percepce neboli dojem, který aktér na svého oponenta vytváří. Pro vyvolání žádoucího dojmu na druhé je třeba projevit různé charakterové vlastnosti.

Některé z nich, jako například pohlaví a věk, lze jen těžko měnit. Některé jsou naopak proměnlivé a odvíjí se od konkrétní situace, mezi takové vlastnosti patří například emoce [13].

Obrázek 1 - Hartleyho model interpersonální komunikace

2.5.Sociální role a emoce

V mikrosociálním světě jsou emoce proměnné, které mají vliv na interpersonální vztahy a situace. Z hlediska psychosociálního pak emoce důležitým aspektem ve strategii zvládání a ovládání situací. Z behaviorálního hlediska emoce v komunikaci slouží k lepšímu zpracování informací, a motivaci komunikačního protějšku [13]. Pokud se optikou těchto definic podíváme na mezilidskou komunikaci, pak přidáme-li ke svému projevu emoci, můžeme v komunikaci zvýšit své šance na úspěch, nebo naopak urychlit vyústění situace ve zmar. Používání emocí v komunikaci tedy může být pro aktéra přínosné pouze za předpokladu, že své emoce dokáže ovládat.

Hochschild ve své práci [14] představuje důležitý způsob přemýšlení o emocích ze sociálního hlediska a představuje koncept „emotional labour“, tedy ovládání pocitů pro vytvoření veřejně pozorovatelného obličejového a tělesného dojmu. Je to svým

(13)

7

způsobem nový druh práce, kdy neprodáváme dovednost nebo umění, ale druh emoce (například letuška a úsměv).

(14)

8

3. Umělá inteligence v oblasti simulace sociálních jevů

Umělou inteligencí rozumíme inteligenci, která je projevována počítači. Obor Umělá inteligence se zabývá způsoby, jakými lze vytvořit inteligentně působící stroj, nazývaný také inteligentním agentem. Aby byl umělý agent úspěšný, musí být autonomní, tedy musí umět provádět zadané úlohy bez přítomnosti uživatele.

Jeho chování by mělo být přizpůsobivé, tzn. musí mít schopnost jednotlivé kroky prováděné úlohy měnit na základě potřeb uživatele. Jeho chování je řízeno cílem, který musí být jednoznačně stanoven, následná akce by měla být rozhodnuta co nejlepším způsobem. Mimo tyto základní charakteristiky je žádoucí, aby inteligentní agent vykazoval jisté lidské kvality, jako jsou empatie a emoce.

Inteligentní agent může být součástí systému, který dokáže komunikovat s uživatelem. Takovýto systém nazýváme dialogovým systémem.

3.1. Dialogové systémy

Dialogové systémy založené na inteligentním agentním chování mají několik základních charakteristik. Agenti v těchto systémech s uživatelem nejčastěji komunikují skrze řeč nebo textové a grafické rozhraní, a v posledních letech se setkáváme také s dialogovými systémy s možností komunikace gesty, mimikou, nebo prostřednictvím haptického rozhraní. Příkladem použití dialogových systémů jsou například vzdálené přístupy k informačním a rezervačním systémům, automatizace kontaktních a komunikačních center, nebo komunikace s chytrými zařízeními, které jsou dnes již součástí téměř každé domácnosti2. Součástí těchto systémů je dialogový manažer, který volí strategii komunikace. Aby tato strategie vedla k úspěchu, musí systém umět nejen rozpoznávat informace od uživatele, ale také napodobovat lidské chování. Dialogový systém, který se vyznačuje napodobováním lidského chování, nazýváme Přirozeným dialogovým systémem3. Takovýto systém je adaptivní, dokáže se přizpůsobit co největšímu množství situací, které v komunikaci mohou nastat. Dokáže také generovat výrazy, které nejsou monotónní ani opakující se. „Chování“ takovéhoto systému můžeme nazvat společenským, neboť pro komunikaci používá zdánlivě zbytné prostředky, jako

2 Viz dialogový systém Apple Siri a Google Now.

3 Přeloženo z anglického Natural Dialog System.

(15)

9

jsou pozdravy, slušnost, nebo vyjádření empatie. Pro takovéto dialogové systémy je klíčová simulace emocí. Ta je možná již modelováním základních prozodických vlastností řečového výrazu systému.

Na obrázku 2 je schéma dialogového systému. Každý přirozený dialogový systém je navržený tak, aby dokázal rozpoznávat informace od svého komunikačního partnera na straně jedné, a simulovat lidské jednání na straně druhé. Simulovat lze různé lidské charakteristiky, jako je vzhled, gesta, mimika a řeč. Na řečovou syntézu, a to především v rovině prozodických vlastností řeči, bude zaměřena aplikační část této práce. Její součástí je výstupní dokument obsahující povel nebo promluvu zadanou uživatelem. Tento povel je označkován hodnotami atributů, jako jsou rychlost promluvy, délka pauz mezi jednotlivými řečovými segmenty, hlasitost a výška hlasu. Takový dokument může být součástí dialogového systému na straně simulace, umožňuje totiž věrohodněji simulovat řeč podle zadaných charakteristik.

Obrázek 2 - Schéma dialogového systému

3.2. Řečová syntéza

Počítačovou řečovou syntézou rozumíme proces, při němž uměle vytváříme řeč [15]

pomocí počítače. Zařízení, které takovéto vytváření řeči umožňuje, nazýváme řečový syntetizér. Řečový syntetizér převádí požadovaný text na řeč. Základní jednotkou v modelování řeči je základní hlasivkový tón (25) neboli zvuk, který

(16)

10

představuje frekvenci kmitání hlasivek. Tato frekvence má například u mužů průměrnou hodnotu 132 Hz, u žen 223 Hz. Frekvence základního hlasivkového tónu se mění například v závislosti na intonaci mluvčího. Řeč ale není jen posloupností jednotlivých zvuků. Pokud opomeneme to, co mluvčí říká a zaměříme se na to, jak to říká, zaměřujeme se především na prozodické vlastnosti řeči (64).

Prozodií označujeme suprasegmentální vlastnosti řeči, tedy takové, které se projeví na úrovni slabik, slov, nebo celých vět. Kromě základního hlasivkového tónu můžeme v rámci prozodie definovat také:

 intonaci neboli změny frekvence základního hlasivkového tónu,

 hlasitost řeči neboli její intenzitu, která je často spojována zejména s emocionálním stavem mluvčího,

 rychlost řeči neboli tempo, které se vyjadřuje počtem slov nebo slabik za minutu. Rychlost řeči závisí na faktorech, jako je styl mluvení, emocionální stav řečníka nebo způsob artikulace,

 časování neboli délky pauz. Pauzy v řeči odlišují jednotlivá slova nebo celé věty. Jejich vložením do promluvy může mluvčí vyjádřit důraz na konkrétní část projevu. Modelování této vlastnosti je jedním z nejdůležitějších z hlediska přirozenosti umělé řeči [15].

3.3.Modelování emocí

Z výčtu prozodických vlastností řeči je zřejmé, jak důležité jsou pro vyjádření emocionálního stavu mluvčího. Ruku v ruce s počítačovou simulací řeči se tedy stále více rozmáhá obor zabývající se počítačovým zpracováním emocí. Zajímavé je, že emoce jsou počítačovými systémy detekovány a simulovány, přestože neexistuje jednoznačná definice emocí jako takových. Většina dostupných definic ale dává emoce do souvislosti s cítěním nebo mentálním stavem, který je provázen různými motorickými a fyziologickými projevy [13]. Z pohledu počítačové simulace jsou emoce komplexními konstrukty, které se vykazují nejednoznačnými hranicemi jednotlivých atributů a variabilitou v jejich vyjadřování a vnímání napříč kulturami a místními zvyklostmi. V řečové syntéze mohou být emoce vyjádřeny výškou a rozsahem základního hlasivkového tónu, kolísáním délky jeho základní

(17)

11

periody, které nazýváme jitter4, hlasitostí promluvy, její rychlostí a dalšími [16].

Emočně zabarvená řečová syntéza většinou vzniká buď zřetězením řečových korpusů uložených v databázi, a reprezentujících jednoznačně definované emoční stavy, nebo dynamickými změnami ve značkování jednotlivých promluv XML5 označeními, které jsou k tomu určeny [16]. Pro syntézu tohoto typu jsou většinou používány TTS (Text-To-Speech) syntetizéry, které převedou označkovaný text na umělou řeč s tím, že čím lépe a dynamičtěji je daná promluva označkována, tím přirozeněji působí umělá řeč.

3.4.Použití řečové syntézy v praxi

Systémy TTS jsou přínosem v různých odvětvích a jejich zavedení do praxe mnohým uživatelům ulehčuje každodenní komunikaci nejen s umělými systémy, ale také s dalšími uživateli. Systémy TTS například umožňují handicapovaným lidem s poruchami hlasu komunikovat mluvenou řečí, nevidomí zase mohou TTS systémů využít pro automatické čtení. V telekomunikačních službách jsou systémy TTS používány v dialogových systémech, nebo v telefonních hovorech, při kterých uživateli stačí podat informaci bez přítomnosti operátora. Používány jsou také pro výuku jazyků, kde student potřebuje vnímat mluvenou cizí řeč. TTS systémy jsou také integrovány do různých počítačových her nebo kapesních komunikačních zařízení. Z nejznámějších systémů, které konvertují text na řeč, uveďme například AT&T Natural Voices6, Verbose7, eSpeak8 nebo Ivona TTS9.

4 Jitter – střední rozdíl délek sousedních period dělený délkou periody [15].

5 Viz https://www.w3.org/XML/.

6 Viz http://wizzardsoftware.com/text-to-speech-sdk.php.

7 Viz http://www.nch.com.au/verbose/index.html.

8 Viz http://espeak.sourceforge.net/.

9 Viz https://www.ivona.com/.

(18)

12

4. Ontologie sociální role

Zjednodušeně řečeno je ontologie popisem nějaké domény prostřednictvím sémantického modelu. Mezi první ontologické modelování počítáme již pokusy předsokratovských myslitelů o vysvětlení světa pomocí jednoho základního principu a několika neredukovatelných kategorií. Později například Aristoteles přišel s první ontologickou koncepcí, která se věnovala charakteristikám, které jsou relevantní ke všemu jsoucímu [4].

V informačních technologiích rozumíme ontologií vědeckou disciplínu, která se zabývá studiem kategorií věcí, které existují nebo mohou existovat v určité doméně, a jejich explicitní konceptualizací. Aby tomuto explicitnímu popisu rozuměli veškeří komunikační agenti v dané oblasti, je potřeba ho vyjádřit ve formálním jazyce, tj. takovém jazyce, jemuž všichni členové komunity budou rozumět stejně.

Při modelování ontologických aplikací je tedy použita množina vědeckých disciplín zahrnující lingvistiku, kognitivní vědy, softwarové inženýrství a filozofii. Nejčastěji se s použitím ontologií setkáváme při tvorbě aplikací pro tzv. sémantický web. Je rozšířením webu, díky němuž počítače „rozumí“ obsahu uložených a přenášených informací. Těmto informacím je pomocí technologií sémantického webu definován význam, který umožňuje lépe spolupracovat počítačům a lidem [4]. Mezi technologie používané v sémantickém webu patří společná syntax pro identifikaci a reprezentaci zdrojů10, společná syntax pro popis dokumentů11, konstrukty pro vyjadřování sémantiky informací12, a jazyky pro dotazování nad informacemi13. Tyto technologie se nyní používají i v oblastech, které s webem přímo nesouvisí.

Jedním z takovýchto použití se zabývá i tato práce.

Ontologie jsou využívány napříč vědeckými a kulturními obory, jejich výhodou oproti relačním databázím je odvozování implicitních informací a důraz na

10 Pro identifikaci zdrojů se používá především řetězec URI (Uniform Resource Identifier) a URL (Uniform Resource Locator).

11 Pro popis dokumentů na syntaktické úrovni je používán značkovací jazyk XML (Extensible Markup Language).

12 Pro popis zdrojů se používá jazyků RDF (Resource Dexcription Framework), RDFS (RDF Schema) a OWL (Web Ontology Language).

13 Pro dotazování nad RDF informacemi je používán jazyk SPARQL.

(19)

13

reprezentaci významu, spíše než dat samotných. Proto jsou hojně používány v rezervačních a řídicích systémech, nebo v aplikacích umožňujících katalogizaci dat, anotování a následné vyhledávání [15]. Jako příklad uveďme Medical Entities Dictionary, repozitář zdravotnických konceptů, které jsou uloženy v rámcích tvořících sémantickou síť. Takto uspořádaná data slouží jako báze znalostí četných zdravotnických aplikací.

Pro formální popis ontologie je v této práci použito ontologických jazyků RDFS14 a OWL15, které umožňují formálně specifikovat axiomy o objektech, které se v naší ontologii vyskytují. RDFS je standard úžeji vymezující jazyk RDF. RDF byl navržen jako nástroj pro reprezentaci informací o zdrojích v grafové podobě. Dokument v tomto formátu je orientovaným grafem, nad množinou orientovaných trojic.

Každá z těchto trojic představuje hranu grafu a je vyjádřena jako subjekt-predikát- objekt, každý z prvků této trojice je webový zdroj identifikovaný pomocí URI16, v případě objektu může být zdrojem literál, tedy textový řetězec, číslo atd. [4]. Jazyk RDFS umožňuje vyjádřit taxonomické vztahy mezi třídami a vlastnostmi v dané doméně. Trojice vycházející z jazyka RDF jsou zde obohaceny o definice vyjadřující jejich vzájemné vztahy. Pro část trojice nazvanou predikát tak můžeme použít značení rdfs:subClassOf vyjadřující vztah nadtřída-podtřída, nebo rdf:type vyjadřující přináležitost ke třídě. Můžeme tak například vyjádřit, že třída Muž (subjekt) je podtřídou (predikát - rdfs:subClassOf) třídy Člověk (objekt), přičemž každá z těchto trojic je ve výsledném dokumentu opět vyjádřena jednoznačným identifikátorem zdroje URI.

Jazyk OWL je dalším rozšířením standardů RDF a RDFS, který umožňuje popis domény s dodatečnými rysy odrážejícími použití deskripční logiky. Jeho použitím získáme možnost bohatěji popsat danou doménu. U jednotlivých vlastností můžeme pomocí OWL specifikovat definiční obor a obor hodnot, u tříd a jejich instancí můžeme pomocí OWL vyjádřit ekvivalenci a disjunktnost.

14 Viz https://www.w3.org/TR/rdf-schema/.

15 Viz https://www.w3.org/TR/owl-features

16 URI (Uniform Resource Identificator) je textový řetězec s danou strukturou sloužící k jednoznačné identifikaci zdroje.

(20)

14

Pro dotazování v ontologiích se používá dotazovací jazyk SPARQL. Jeho syntax je podobná jazyku SQL vyvinutého pro dotazování se v relačních databázích s tím rozdílem, že umožňuje hledání v grafech popsaných v RDF [4]. I dotaz ve SPARQL se skládá množiny trojic, přičemž každým prvkem trojice může být proměnná zastupující subjekt, predikát a objekt v dotazovaném RDF modelu.

Pro modelování ontologie ve zmíněných jazycích byl použit open-source editor Protégé17, který umožňuje uživatelsky přívětivé modelování pomocí názorného grafického rozhraní, editování pravidel, souhrnného pohledu na různé entity a automatického uvažování. Protégé umožňuje výstup modelu v různých syntaxích, mimo jiné také v OWL/XML18. Výstup v tomto formátu je použit v aplikaci, která je také součástí této práce.

4.1.Klasifikace ontologie

Ontologie, která je předkládána jako součást této práce, je jednou z možností formální konceptualizace sociální role, a lze ji tedy klasifikovat jako ontologii doménovou, tj. takovou, která popisuje koncepty pro úzce vymezenou doménu. Co se týče expresivity, můžeme tuto ontologii klasifikovat jako lehkou, tedy takovou, jež se soustředí na ty oblasti v dané doméně, které jsou autorem považovány za relevantní. Konkrétně je ontologie vytvářena především za účelem použití v aplikaci, která má sloužit potřebám řečové syntézy, a tomu jsou také přizpůsobeny jednotlivé třídy, jejichž použití vychází ze sociologické teorie, a vlastnosti těchto tříd, které jsou naopak úzce spojeny s možností značkovat v řečové syntéze prozodické jevy, které byly představeny v předchozí kapitole.

4.2.Třídy

V Goffmanově pojetí se setkáváme s aspekty rolového chování, jako je oblečení, drobné předměty osobní potřeby, jeviště, gesta rukou a obličejová mimika.

V konceptualizaci role pro potřeby této ontologie se však zaměříme na aspekty, které se projevují v řeči aktéra, tedy takové vlastnosti role, které jeho obecenstvo slyší. Důležitou součástí každého rolového chování je status, ke kterému daná role přináleží. Naše ontologie proto bude obsahovat třídu status. Dynamičnost, kterou

17 Více informací o editoru Protégé lze najít na stránkách http://protege.stanford.edu/.

18 Viz https://www.w3.org/XML/.

(21)

15

se role od statusu odlišuje, bude v naší ontologii modelována prostřednictvím třídy emoce. Role jako taková bude v ontologii zastoupena třídou SocialRoleAgent.

Třídy v ontologii vyjadřují množiny instancí určitého typu. Sémantické konstrukty RDFS a OWL nám umožňují definovat tyto třídy jejich hierarchizací, a to pomocí vztahů nadtřída-podtřída. Dalšími z možností definice tříd jsou vlastnosti, jimž instance třídy spojíme s instancemi jiné třídy, nebo s hodnotami datových typů.

Vlastnosti, jimiž definujeme nadtřídu, platí vždy i pro všechny instance jejích podtříd.

Pilířem naší ontologie jsou tři základní třídy – SocialRoleAgent, Emotion a Status19. Jejich hierarchii a podtřídy můžeme vidět na obrázku 3.

Obrázek 3 - Hierarchie tříd (grafické znázornění v editoru Protégé)

Ze sociologické teorie již víme, že role je dynamickým aspektem statusu. Abychom v naší ontologii mohli tvořit jednotlivé instance typu sociální role, budeme potřebovat instance typu status. Značkovací jazyk SSML (Speech Synthesis Markup Language) nám umožňuje označkovat danou promluvu hodnotami, které vyjadřují věk a pohlaví simulovaného hlasu. Výčtové hodnoty u atributu gender jsou v SSML male, female a neutral. U atributu age jsou hodnoty typu nonNegativeInteger. V naší ontologii budou jednotlivé instance typu Status zařaditelné do podtříd podle jejich pohlaví do tříd FemaleStatus, MaleStatus a GenderNeutralStatus. Tyto třídy jsou

19 Pro univerzálnost použití jsou koncepty v ontologii pojmenovány v anglickém jazyce. Názvy tříd, vlastností a instancí nejsou v práci překládány do češtiny.

(22)

16

vzájemně disjunktní, jakákoliv instance jedné z této množiny tříd tedy nemůže zároveň instancí jiné z tříd z této množiny. Podtřídy podle věku nejsou v ontologii vytvořeny, protože v použitém editoru nebylo možné definovat třídu intervalem hodnot typu nonNegativeInteger.

Další třídou v naší ontologii je třída Emotion. Některé role jsou svými emocemi definovány [14], například k letušce patří radost a úsměv, některé role jsou emočně méně stálé, a některé, jako například Soudce, by se emocemi neměly vyznačovat vůbec. V naší aplikaci bude mít uživatel možnost vedle statusu vybrat také emoci, která bude modelované entitě přiřazena. Vlastnosti třídy Emotion budou v naší ontologii odrážet prozodické vlastnosti řeči, kterými standard SSML umožňuje značkovat jednotlivé promluvy. Z těchto vlastností můžeme podtřídami nejlépe vyjádřit hlasitost dané emoce, třída Emotion má proto dvě podtřídy – LoudEmotion a SilentEmotion.

Třída SocialRoleAgent představuje zařízení, které simuluje sociální roli jako takovou.

Výraz Agent je v názvu pro lepší představu a porozumění modelu, instance třídy SocialRoleAgent představují jedince, který je v určité roli. Aby jedinec mohl být instancí této třídy, musí splňovat jisté podmínky. Tyto podmínky tkví především ve vlastnostech s třídou pojených a budou vysvětleny v následující kapitole.

Mimoto je třída Agent v ontologiích hojně používána pro modelování komunikačních jednotek představujících osoby nebo fiktivní organizace20. Bude tomu tak i v naší ontologii.

4.3.Vlastnosti tříd

V ontologii jsou vlastnosti tříd (nazývány také atributy nebo sloty) binárními relacemi nad množinou instancí. U vlastností můžeme stanovit jejich definiční obor a obor hodnot, a také matematické vlastnosti relací, které znázorňují, jako jsou například tranzitivita, symetričnost apod.

Pokud atributy spojují instance dané třídy s instancemi třídy jiné, nazýváme je objektovými atributy. Takovéto atributy v naší ontologii nalezneme dva – hasEmotion

20 Viz například ontologie FOAF (Friend Of A Friend) a její stěžejní třídu Agent.

(23)

17

a hasStatus. Jejich doménovou třídou neboli definičním oborem, je třída SocialRoleAgent. Jejich oborem hodnot je u vlastnosti hasEmotion třída Emotion, u vlastnosti hasStatus pak třída Status. Pro obě tyto vlastnosti jsou v naší ontologii stanovena omezení typu existential, tedy každá z instancí v třídě doménové musí být spojena alespoň s jednou z instancí v třídě oboru hodnot. Pro praktické vysvětlení si vytvořme instanci třídy SocialRoleAgent a nazvěme si ji třeba Agent1.

Aby Agent1 mohl patřit do třídy SocialRoleAgent, musí být vlastnostmi hasEmotion a hasStatus spojen alespoň s jedním z objektů tříd Emotion a Status. Jednoduše řečeno, aby Agent1 mohl přináležet do třídy SocialRoleAgent, musí být určitého statusu a vyjadřovat nějakou emoci. Takto je v ontologii vyjádřena sociální role jako taková.

Atributy, které spojují instance doménové třídy s hodnotami datových typů, nazýváme datovými atributy. Takovými hodnotami mohou být například textové řetězce, čísla, nebo logické konstanty True a False. Vlastnostmi datového typu jsou v naší ontologii atributy isOfAge a isOfGender. Doménovou třídou těchto vlastností je třída Status, jejich oborem hodnot je hodnota datového typu. U isOfAge je tímto typem nonNegativeInteger, u vlastnosti isOfGender string. Tyto vlastnosti jsou také funkcionální, což znamená, že vztah instance z definičního oboru může být nejvýše k jedné instanci z oboru hodnot. Zjednodušeně řečeno, třídu Status definujeme tím, že jejím instancím připíšeme atribut vyjadřující věk a pohlaví, přičemž každá z těchto instancí může být nanejvýš jednoho věku a pohlaví.

Třída Emotion je v naší ontologii definována vlastnostmi pojícími se k prozodickým znakům řeči. V řeči jsou emoce nejčastěji vyjádřeny právě tím, že mluvčí změní například výšku hlasu nebo jeho hlasitost [13]. Definice třídy Emotion je proto vyjádřena pomocí atributů hasVoiceBreakStrength, hasVoicePitch, hasVoiceRate a hasVoiceVolume. Které značky pro hlasovou prozodii tyto vlastnosti zastupují a co znamenají, podrobněji popíšeme v následující kapitole věnující se aplikací nad ontologií. Doménovou třídou každé z těchto vlastností je třída Emotion, jejich oborem hodnot je datový typ string.

(24)

18 4.4.Odvozování

Odvozování v naší ontologii probíhá na základě axiomů o třídách. Třídy SocialRoleAgent, Status a Emotion jsou definovány vlastnostmi, které jsou pro jejich existenci dostačující a nezbytné21. Říkáme tím, že tyto třídy jsou ekvivalentní abstraktní třídě bez názvu, která je definována výčtem svých vlastností, viz obrázek 4. Takto definovaná třída dovoluje odvozování ve dvou směrech. Například všechny instance, jimž bude připsána vlastnosti isOfAge a isOfGender, budou instancemi typu Status, a naopak. Všem instancím typu Status budou automaticky připsány vlastnosti isOfAge a isOfGender. U podtříd FemaleStatus, GenderNeutralStatus a MaleStatus jsou tyto definice rozšířeny o konkrétní hodnoty vlastnosti isOfGender jako je string:male, string:female a string:neutral. U podtříd LoudEmotion a SilentEmotion je definice rozšířena o konkrétní hodnoty vlastnosti hasVoiceVolume – string:loud, string:x-loud pro LoudEmotion a string:silent, string:soft a string:x-soft pro SilentEmotion.

Obrázek 4 - Definice tříd (grafické znázornění v editoru Protégé)

21 Přeloženo z anglického „necessary and sufficient conditions“.

(25)

19 4.5.Instance

Pro možnost předvést ontologii jako bázi znalostí aplikace, jež je součástí této práce, bylo potřeba jednotlivé třídy naplnit instancemi, a těm přiřadit konkrétní hodnoty atributů. K instancím typu Status byly přiřazeny nejpravděpodobnější vlastnosti vyjadřující věk a pohlaví. Instanci Mother je tak připsána vlastnost isOfAge datového typu nonNegativeInteger hodnoty 30 a isOfGender typu string hodnoty

„female“. Dalšími instancemi typu Status jsou: Child (isOfGender:”neutral”, isOfAge:

5), Old_man (isOfGender:”male”, isOfAge:70) a Policeman (isOfGender:”male”, isOfAge:40). Konkrétní hodnoty vlastností třídy Emotion vychází z různých zdrojů na téma vnímání emočních stavů a měření jejich prozodických vlastností (například [18] a [19]). Pro instance typu Emotion je v této ontologii použito šesti emocí: Anger, Content, Fear, Joy, Sadness. Konkrétní hodnoty vlastností, které těmto instancím připisujeme, jsou:

Anger (hasVoiceBreakStrength:”weak”, hasVoiceRate:”fast”, hasVoicePitch:”high”, hasVoiceVolume:”loud”),

Content (hasVoiceBreakStrength:”medium”, hasVoiceRate:”medium”, hasVoicePitch:”medium”, hasVoiceVolume:”medium”)

Fear (hasVoiceBreakStrength:”weak”, hasVoiceRate:”fast”, hasVoicePitch:”high”, hasVoiceVolume:”soft”)

Joy (hasVoiceBreakStrength:”medium”, hasVoiceRate:”medium”, hasVoicePitch:”high”, hasVoiceVolume:”loud”)

Sadness (hasVoiceBreakStrength:”strong”, hasVoiceRate:”slow”, hasVoicePitch:”low”, hasVoiceVolume:”soft”).

4.6. Výhody použití ontologie oproti jiným datovým strukturám

Způsobů, jak navrhnout Ontologii jakékoliv domény je nespočetně mnoho. Návrh se vždy odvíjí od jeho použití a absolutní a vyčerpávající popis konceptu z této perspektivy postrádá smysl. Ontologie, jež je součástí této práce, byla navržena pro potřeby řečové syntézy, konkrétně pro možnosti značkování promluvy atributy standardu SSML. Vlastnostmi odpovídajícími těmto atributům byly definovány třídy, které odpovídají konceptům ze sociologické teorie. Pokud budou v budoucnu do ontologie zahrnuty další třídy, je možné je významově propojit s třídami již existujícími. Pokud do stávající ontologie přidáme instance, budeme vědět které vlastnosti je u nich třeba definovat tak, aby patřily do dané třídy. Možnost

(26)

20

modelování vztahů mezi jednotlivými koncepty v doméně, a možnost odvozování je výhodou oproti jiným datovým strukturám, proto byla pro návrh vybrána ontologie a ne například relační databáze. Relační databáze žádné z těchto možností neposkytuje a je zaměřena spíše na efektivní ukládání dat samotných.

(27)

21

5. Aplikace nad ontologií

Součástí této práce je aplikace, která umožňuje vstup od uživatele doplnit o značkování, které bude srozumitelné koncovému zařízení typu TTS. Vhodné značkování generuje aplikace pomocí dotazování se báze znalostí, tedy naší ontologie. Pro lepší pochopení je možné aplikaci rozdělit na čtyři části: báze znalostí, formulář pro uživatele a funkční část umožňující běh aplikace a transformaci, šablona pro transformaci a výstup.

5.1.Báze znalostí

Jako báze znalostí slouží aplikaci ontologie, ve které jsou pomocí jednoduchého dotazování nalezeny hodnoty atributů spojených s parametry, které jsou zadány v uživatelském rozhraní (Obrázek 5). Ontologie, kterou jsme detailně popsali v předchozí kapitole, formálně vyjádřena v jazycích RDFS a OWL, je součástí aplikace jako jeden ze vstupních zdrojů pro transformaci.

5.2.Formulář a funkční část aplikace

Transformace v naší aplikaci probíhá s pomocí transformační šablony, která je navržena v jazyce XSLT22 (Extensible Stylesheet Language Transformations). Tento jazyk umožňuje transformaci XML dokumentů na jiné XML dokumenty. V našem případě bude vstupním XML dokumentem ontologie ve formátu OWL/XML.

Výstupní dokument je ve formátu SSML/XML. Funkční rozhraní umožňující vstup od uživatele přetransformovat na označkovaný výstup je navrženo v Javě.

Formulář pro vstup od uživatele je navržen pomocí knihovny Swing. Ve formuláři uživatel provede následující: zadá textový vstup neboli řečový korpus, který chce simulovat (např. „Clean your room“). Dále vybere status modelované entity, přičemž na výběr má ze čtyřech statusů: Mother (Matka), Child (Dítě), Policeman (Policista) a Old_man (Stařec). Dále zvolí emoční zabarvení simulované řeči z těchto možností: Anger (Zlost), Joy (Radost), Fear (Strach), Sadness (Smutek) a Content (Spokojenost). Zadaný text a vybraný status a emoce aplikace využije k naplnění hodnot parametrů v transformační šabloně. Pro transformaci je kromě samotné šablony použito v kódu formuláře knihovny javax.xml.transform. Uživatel zde má

22 Viz https://www.w3.org/TR/xslt.

(28)

22

také možnost zvolit jazyk řeči, kterou bude simulovaný hlas mluvit (English nebo Čeština). Změna tohoto parametru ve výsledném dokumentu umožní TTS zařízení nastavit, jakou výslovností syntetizér danou promluvu přečte.

Obrázek 5 - Uživatelské rozhraní aplikace

5.3. XSLT šablona

Součástí aplikace je také šablona ve formátu XSLT, specifikující výslednou podobu SSML dokumentu. Šablona obsahuje tři parametry („input“, „status“ a „emotion“), které jsou aplikací naplněny zadanými daty od uživatele. Pokud například uživatel vybere jako status umělého mluvčího Mother, uloží se tato volba jako hodnota parametru status do šablony. Dále v šabloně jsou pak pomocí výrazu xsl:attribute name vytvořeny atributy gender a age. Pomocí XPath23 výrazu jsou tyto atributy naplněny následovně: v ontologii je u specifikace vlastností jednotlivých instancí vyhledán výraz Mother a jemu připsané vlastnosti isOfGender a isOfAge. Hodnoty těchto vlastností jsou skrze šablonu přepsány do výsledného SSML dokumentu.

Takto jsou pomocí šablony a příkazů v kódu aplikace ve výsledném SSML dokumentu vytvořeny a naplněny všechny požadované atributy. Elementy a atributy standardu SSML, které jsou v šabloně vytvořeny, budou podrobněji popsány v následující podkapitole.

23 Viz https://www.w3.org/TR/xpath/.

(29)

23

5.4.Výstup aplikace – SSML značkování řečového segmentu

Hodnoty parametrů status a emoce (např. Mother a Anger), které jsou zadány uživatelem, jsou v ontologii spojeny s věkem a pohlavím umělého mluvčího, a také s prozodickými vlastnostmi simulovaného hlasu. Pro značkování textového vstupu je v aplikaci použit značkovací jazyk SSML. Dokument, v němž jsou jednotlivé promluvy označkovány SSML, umožňuje koncovému zařízení typu TTS nastavit vlastnosti simulovaného hlasu na požadované hodnoty.

Element Speak

Z kořenového elementu Speak je v šabloně definován jmenný prostor xmlns=“http://www.w3.org/2001/10/synthesis“, atribut version, který je nastaven na hodnotu “1.1“, a také atribut xml: lang stanovující jazyk daného textu. Tento atribut říká TTS zařízení jakou výslovnost má při simulaci použít. Ve formuláři má uživatel možnost přepínat mezi jazyky English a Čeština, podle toho, v jakém jazyce zadá promluvu do textového pole. Při volbě English se tento atribut nastaví na hodnotu „en-US“, při volbě Čeština se nastaví na „cs-CZ“. V elementu Speak je také vložena promluva, která je zadána v uživatelském rozhraní.

Element Voice

Z elementu Voice jsou ve výstupu použity atributy „age“ a „gender“. Věk a pohlaví v naší ontologii stanovujeme pomocí vlastností isOfAge a isOfGender, které jsou spojeny s jedinci třídy Status (např. Mother, Child, Policeman). Vlastnost isOfAge spojuje jedince třídy Status s datovým typem nonNegativeInteger, vlastnost isOfGender s datovým typem string. Pokud tedy uživatel vybere za status simulované entity Mother, nastaví se ve značkování atributy age na 30 (nonNegativeInteger) a gender na „female“ (string).

Element Prosody a element Break

Elementy Prosody a Break jsou v naší aplikaci spojeny s ontologickou třídou Emotion.

Z elementu Prosody jsou použity atributy: „pitch“ (výška hlasu) „rate“ (rychlost promluvy) a „volume“ (hlasitost promluvy). Z elementu Break používáme atribut

„strength“ (délka pauz mezi jednotlivými řečovými segmenty). Pokud například uživatel zvolí jako emoční zabarvení zadané promluvy Anger, atributy ve

(30)

24

značkovaném dokumentu budou mít následující hodnoty: pitch=“high“, rate=“fast“, volume=“loud“, strength=“weak“.

5.5.Možné aplikace a návrhy na vylepšení

Aplikace, jejímž výstupem jsou promluvy značkované prozodickými vlastnostmi tak, že výsledný hlas umělého řečníka představuje určitou roli, může být využita v několika oblastech. Může být například součástí dialogového systému u zařízení asistujících starým a handicapovaným lidem, nebo součástí návrhu postav v počítačových hrách. Uplatnila by se také tam, kde je potřeba uměle mluvícím zařízením přidat věrohodnost proto, aby byla schopna motivovat uživatele v tísni k rychlému a efektivnímu jednání.

Výstup ve formátu SSML byl vyzkoušen na dvou volně dostupných syntetizérech – eSpeak a MaryTTS. Ani jeden z nich však nepodporuje potřebné atributy formátu SSML natolik24, aby výsledná umělá řeč přesvědčivě odpovídala značkování.

Vyhledání vhodného syntetizéru je nad rámec této práce. Její hlavní náplní byl ontologický model a jeho spojení se značkováním řečové syntézy. Dalším krokem k použitelnosti aplikace v praxi by tedy bylo nalezení vhodného syntetizéru, který má plně integrován SSML jako jeden z možných vstupů, popřípadě přizpůsobit značkování ve výstupním souboru standardu, který daný syntetizér podporuje.

Dalším vylepšením aplikace by mohlo být doplnění promluvy o značky umožňující důraz na konkrétní slova. Pro takové vylepšení by bylo nutné integrovat do systému analýzu promluvy se zaměřením na slova, na která má být kladen důraz.

Vzhledem k jednoduchosti ontologického modelu a jeho zaměření na řečovou syntézu zůstaly nedotčeny mnohé koncepty pojící se s vizuální stránkou sociální role, jako například barva pleti, délka vlasů apod. Do budoucna by proto bylo vhodné tyto koncepty do ontologie zavést, a propojit je s možnostmi značkování vizuálních vlastností modelované entity. Dále by bylo vhodné zavést do aplikace možnost měnit jednotlivé výstupy v závislosti na obecenstvu, pro nějž jsou určeny.

24 Viz espeak.sourceforge.net a https://github.com/sinlab-semester-2013/VirtualActor/wiki/Text-to- Speech:-Mary-TTS.

(31)

25

6. Závěr

Tato práce se věnovala konceptu sociální role a možnostmi jeho využití v umělé inteligenci. V navrženém ontologickém modelu a následné aplikaci tento model využívající jsme se pokoušeli o spojení formálního popisu domény sociální role s možnostmi značkování promluv v řečové syntéze. Pro popis domény sociální role bylo použito sociologické teorie zabývající se dramaturgickou perspektivou na jednání jedinců ve společnosti. Do modelu a následné aplikace tak byla integrována možnost simulovat emoce. V aplikaci a jejím uživatelském rozhraní, má uživatel možnost vybrat status a emoci, kterými se bude modelovaná řeč projevovat. Pomocí šablony pro transformaci XML souborů a vstupu od uživatele jsou data z ontologického modelu převedena na hodnoty atributů ve výstupním SSML souboru. Naplnit cíl práce se podařilo, nicméně bylo potřeba upozornit na limity aplikace související s možnostmi dostupných syntetizérů. V práci byly také nastíněny možnosti rozšíření ontologického modelu a vylepšení aplikace pro lepší použitelnost v praxi.

(32)

26

Seznam použité literatury

1. Goffman, Erving. Všichni hrajeme divadlo: sebeprezentace v každodenním životě.

Praha : Nakladatelství studia Ypsilon, 1999.

2. Mead, George Herbert. Mind, self and society: from the standpoint of a social behaviorist. Chicago : University of Chicago Press, 1967.

3. Russel, Stuart J a Norwig, Peter. Artificial Intelligence: A Modern Approach. New Jersey: Prentice Hall : Upper Saddle River, 2001.

4. Mařík, Vladimír, Štěpánková, Olga a Lažanský, Jiří. Umělá inteligence (6). Praha : Academia, 2013.

5. Linton, Ralph. The Study of Man. New York : D. Appleton-Century Company, 1936.

6. Berger, Peter L. a Luckmann, Thomas. Sociální konstrukce reality: pojednání o sociologii vědění. Brno : CDK, 1999.

7. Denzin, Norman a Keller, Charles. Frame analysis reconsidered. Contemporary Sociology. 10, 1981, 1, stránky 52-60.

8. Nakonečný, Milan. Sociální psychologie organizace. Praha : Grada Publishing, a.s., 2005.

9. Robert, Merton K. The Role-Set: Problems in Sociological Theory. The British Journal Of Sociology. 1957, Vol. 8, No. 2, pp. 106-120.

10. Parsons, Talcott. The social system. London : Routledge & Kegan Paul, 1967.

11. Zimbardo, Philip G., Maslach, Christina a Haney, Craig. Reflections on the Stanford prison experiment: Genesis, transformations, consequences. Obedience to authority: Current perspectives ont he Milgram paradigm. 2000. stránky 193-237.

12. Hartley, Peter. Interpersonal Communication. London : Routledge, 1999.

13. Nakonečný, Milan. Emoce. Praha : Triton, 2012.

14. Hochschild, Arlie. The Managed Heart. Berkeley, CA : University of California Press, 1983.

15. Psutka, Josef a a kol. Mluvíme s počítačem česky. Praha : Academia, 2006.

16. H. Gunes, B. Schuller, M. Pantic a R. Cowie. Emotion representation, analysis and synthesis in continuous space: A survey. Santa Barbara, CA : 2011 IEEE International Conference on Automatic Face & Gesture Recognition and Workshops, 2011.

stránky 827-834.

17. Allemang, Dean a Hendler, Jim. Semantic Web for the working ontologist: effective modeling in RDFS and OWL. Waltham : Elsevier Inc., 2011.

(33)

27

18. Bachorowski, Jo-Anne. Vocal Expression and Perception of Emotion. Current Directions in Psychological Science. 1999, 8, stránky 53-57.

19. Sauter, Disa A., a další. Perceptual cues in nonverbal vocal expressions of emotion. The Quarterly Journal of Experimental Psychology. 2010, 63, stránky 2251- 2272.

20. Lemert, Charles a Branaman, Ann. The Goffman reader. Malden : Blackwell Publishing Ltd, 1997.

21. Habermas, Jurgen. Technik und Wissenschaft als Ideologie. Frankfurt am Main : Suhrkamp, 1968.

(34)

28

Seznam obrázků

Obrázek 1 - Hartleyho model interpersonální komunikace ... 6

Obrázek 2 - Schéma dialogového systému... 9

Obrázek 3 - Hierarchie tříd (grafické znázornění v editoru Protégé) ... 15

Obrázek 4 - Definice tříd (grafické znázornění v editoru Protégé) ... 18

Obrázek 5 - Uživatelské rozhraní aplikace ... 22

Přílohy

Soubor AplikaceSocialniRole.zip

Odkazy

Související dokumenty

Student tvrdí že při zadávaní FTA stromu pomocí ontologie není potřeba určovat explicitně typ událostí a hradla, protože ten lze odvodit ze stromové struktury. Ve skute

V praktické části práce je provedena analýza zájmové domény (Perzistentní organické polutanty - POPs) a navržena ontologie pro popis datových zdrojů z této domény

První část práce se zabývá základními pojmy, se kterými studentka pracuje, jako jsou sociální role, dialogové systémy, syntéza řeči, emoce a jejich

Cílem této práce bylo vytvoření ontológie pro simulaci sociální role pro potřeba syntézy řeči a ověření funkčnosti tohoto konceptu pomocí jednoduché aplikace.. Jedná se

Bez vymezení toho, co jsou vlastní diplomantovi názory, analýzy, syntézy, indukce a dedukce pak práce p ů sobí vícemén ě popisným dojmem. Krom ě toho použití zkratek

Creating of websites for visually impaired users, speech synthesis systems... Petru Pexovi za její

Byla již prokázá- na účast terpenoidů na biosyntéze nanočástic stříbra za pomoci extraktů z listů pelargonie a také účast eugenolu, hlavního

Syntéza amoniaku je reakcí, která, na jedné straně, umož- ňuje uživit na Zemi vysoký počet obyvatel, protože je zá- kladem výroby průmyslových dusíkatých hnojiv, ale na