- Schéma dialogového systému - Ontologie sociální role pro potřeby syntézy řeči

3.2. Řečová syntéza

Počítačovou řečovou syntézou rozumíme proces, při němž uměle vytváříme řeč [15]

pomocí počítače. Zařízení, které takovéto vytváření řeči umožňuje, nazýváme řečový syntetizér. Řečový syntetizér převádí požadovaný text na řeč. Základní jednotkou v modelování řeči je základní hlasivkový tón (25) neboli zvuk, který

představuje frekvenci kmitání hlasivek. Tato frekvence má například u mužů průměrnou hodnotu 132 Hz, u žen 223 Hz. Frekvence základního hlasivkového tónu se mění například v závislosti na intonaci mluvčího. Řeč ale není jen posloupností jednotlivých zvuků. Pokud opomeneme to, co mluvčí říká a zaměříme se na to, jak to říká, zaměřujeme se především na prozodické vlastnosti řeči (64).

Prozodií označujeme suprasegmentální vlastnosti řeči, tedy takové, které se projeví na úrovni slabik, slov, nebo celých vět. Kromě základního hlasivkového tónu můžeme v rámci prozodie definovat také:

 intonaci neboli změny frekvence základního hlasivkového tónu,

 hlasitost řeči neboli její intenzitu, která je často spojována zejména s emocionálním stavem mluvčího,

 rychlost řeči neboli tempo, které se vyjadřuje počtem slov nebo slabik za minutu. Rychlost řeči závisí na faktorech, jako je styl mluvení, emocionální stav řečníka nebo způsob artikulace,

 časování neboli délky pauz. Pauzy v řeči odlišují jednotlivá slova nebo celé věty. Jejich vložením do promluvy může mluvčí vyjádřit důraz na konkrétní část projevu. Modelování této vlastnosti je jedním z nejdůležitějších z hlediska přirozenosti umělé řeči [15].

3.3.Modelování emocí

Z výčtu prozodických vlastností řeči je zřejmé, jak důležité jsou pro vyjádření emocionálního stavu mluvčího. Ruku v ruce s počítačovou simulací řeči se tedy stále více rozmáhá obor zabývající se počítačovým zpracováním emocí. Zajímavé je, že emoce jsou počítačovými systémy detekovány a simulovány, přestože neexistuje jednoznačná definice emocí jako takových. Většina dostupných definic ale dává emoce do souvislosti s cítěním nebo mentálním stavem, který je provázen různými motorickými a fyziologickými projevy [13]. Z pohledu počítačové simulace jsou emoce komplexními konstrukty, které se vykazují nejednoznačnými hranicemi jednotlivých atributů a variabilitou v jejich vyjadřování a vnímání napříč kulturami a místními zvyklostmi. V řečové syntéze mohou být emoce vyjádřeny výškou a rozsahem základního hlasivkového tónu, kolísáním délky jeho základní

periody, které nazýváme jitter⁴, hlasitostí promluvy, její rychlostí a dalšími [16].

Emočně zabarvená řečová syntéza většinou vzniká buď zřetězením řečových korpusů uložených v databázi, a reprezentujících jednoznačně definované emoční stavy, nebo dynamickými změnami ve značkování jednotlivých promluv XML⁵ označeními, které jsou k tomu určeny [16]. Pro syntézu tohoto typu jsou většinou používány TTS (Text-To-Speech) syntetizéry, které převedou označkovaný text na umělou řeč s tím, že čím lépe a dynamičtěji je daná promluva označkována, tím přirozeněji působí umělá řeč.

3.4.Použití řečové syntézy v praxi

Systémy TTS jsou přínosem v různých odvětvích a jejich zavedení do praxe mnohým uživatelům ulehčuje každodenní komunikaci nejen s umělými systémy, ale také s dalšími uživateli. Systémy TTS například umožňují handicapovaným lidem s poruchami hlasu komunikovat mluvenou řečí, nevidomí zase mohou TTS systémů využít pro automatické čtení. V telekomunikačních službách jsou systémy TTS používány v dialogových systémech, nebo v telefonních hovorech, při kterých uživateli stačí podat informaci bez přítomnosti operátora. Používány jsou také pro výuku jazyků, kde student potřebuje vnímat mluvenou cizí řeč. TTS systémy jsou také integrovány do různých počítačových her nebo kapesních komunikačních zařízení. Z nejznámějších systémů, které konvertují text na řeč, uveďme například AT&T Natural Voices⁶, Verbose⁷, eSpeak⁸ nebo Ivona TTS⁹.

4 Jitter – střední rozdíl délek sousedních period dělený délkou periody [15].

5 Viz https://www.w3.org/XML/.

6 Viz http://wizzardsoftware.com/text-to-speech-sdk.php.

7 Viz http://www.nch.com.au/verbose/index.html.

8 Viz http://espeak.sourceforge.net/.

9 Viz https://www.ivona.com/.

4. Ontologie sociální role

Zjednodušeně řečeno je ontologie popisem nějaké domény prostřednictvím sémantického modelu. Mezi první ontologické modelování počítáme již pokusy předsokratovských myslitelů o vysvětlení světa pomocí jednoho základního principu a několika neredukovatelných kategorií. Později například Aristoteles přišel s první ontologickou koncepcí, která se věnovala charakteristikám, které jsou relevantní ke všemu jsoucímu [4].

V informačních technologiích rozumíme ontologií vědeckou disciplínu, která se zabývá studiem kategorií věcí, které existují nebo mohou existovat v určité doméně, a jejich explicitní konceptualizací. Aby tomuto explicitnímu popisu rozuměli veškeří komunikační agenti v dané oblasti, je potřeba ho vyjádřit ve formálním jazyce, tj. takovém jazyce, jemuž všichni členové komunity budou rozumět stejně.

Při modelování ontologických aplikací je tedy použita množina vědeckých disciplín zahrnující lingvistiku, kognitivní vědy, softwarové inženýrství a filozofii. Nejčastěji se s použitím ontologií setkáváme při tvorbě aplikací pro tzv. sémantický web. Je rozšířením webu, díky němuž počítače „rozumí“ obsahu uložených a přenášených informací. Těmto informacím je pomocí technologií sémantického webu definován význam, který umožňuje lépe spolupracovat počítačům a lidem [4]. Mezi technologie používané v sémantickém webu patří společná syntax pro identifikaci a reprezentaci zdrojů¹⁰, společná syntax pro popis dokumentů¹¹, konstrukty pro vyjadřování sémantiky informací¹², a jazyky pro dotazování nad informacemi¹³. Tyto technologie se nyní používají i v oblastech, které s webem přímo nesouvisí.

Jedním z takovýchto použití se zabývá i tato práce.

Ontologie jsou využívány napříč vědeckými a kulturními obory, jejich výhodou

12 Pro popis zdrojů se používá jazyků RDF (Resource Dexcription Framework), RDFS (RDF Schema) a OWL (Web Ontology Language).

13 Pro dotazování nad RDF informacemi je používán jazyk SPARQL.

reprezentaci významu, spíše než dat samotných. Proto jsou hojně používány v rezervačních a řídicích systémech, nebo v aplikacích umožňujících katalogizaci dat, anotování a následné vyhledávání [15]. Jako příklad uveďme Medical Entities Dictionary, repozitář zdravotnických konceptů, které jsou uloženy v rámcích tvořících sémantickou síť. Takto uspořádaná data slouží jako báze znalostí četných zdravotnických aplikací.

Pro formální popis ontologie je v této práci použito ontologických jazyků RDFS¹⁴ a OWL¹⁵, které umožňují formálně specifikovat axiomy o objektech, které se v naší ontologii vyskytují. RDFS je standard úžeji vymezující jazyk RDF. RDF byl navržen jako nástroj pro reprezentaci informací o zdrojích v grafové podobě. Dokument v tomto formátu je orientovaným grafem, nad množinou orientovaných trojic.

Každá z těchto trojic představuje hranu grafu a je vyjádřena jako subjekt-predikát-objekt, každý z prvků této trojice je webový zdroj identifikovaný pomocí URI¹⁶, v případě objektu může být zdrojem literál, tedy textový řetězec, číslo atd. [4]. Jazyk RDFS umožňuje vyjádřit taxonomické vztahy mezi třídami a vlastnostmi v dané doméně. Trojice vycházející z jazyka RDF jsou zde obohaceny o definice vyjadřující jejich vzájemné vztahy. Pro část trojice nazvanou predikát tak můžeme použít značení rdfs:subClassOf vyjadřující vztah nadtřída-podtřída, nebo rdf:type vyjadřující přináležitost ke třídě. Můžeme tak například vyjádřit, že třída Muž (subjekt) je podtřídou (predikát - rdfs:subClassOf) třídy Člověk (objekt), přičemž každá z těchto trojic je ve výsledném dokumentu opět vyjádřena jednoznačným identifikátorem zdroje URI.

Jazyk OWL je dalším rozšířením standardů RDF a RDFS, který umožňuje popis domény s dodatečnými rysy odrážejícími použití deskripční logiky. Jeho použitím získáme možnost bohatěji popsat danou doménu. U jednotlivých vlastností můžeme pomocí OWL specifikovat definiční obor a obor hodnot, u tříd a jejich instancí můžeme pomocí OWL vyjádřit ekvivalenci a disjunktnost.

14 Viz https://www.w3.org/TR/rdf-schema/.

15 Viz https://www.w3.org/TR/owl-features

16 URI (Uniform Resource Identificator) je textový řetězec s danou strukturou sloužící k jednoznačné identifikaci zdroje.

Pro dotazování v ontologiích se používá dotazovací jazyk SPARQL. Jeho syntax je podobná jazyku SQL vyvinutého pro dotazování se v relačních databázích s tím rozdílem, že umožňuje hledání v grafech popsaných v RDF [4]. I dotaz ve SPARQL se skládá množiny trojic, přičemž každým prvkem trojice může být proměnná zastupující subjekt, predikát a objekt v dotazovaném RDF modelu.

Pro modelování ontologie ve zmíněných jazycích byl použit open-source editor Protégé¹⁷, který umožňuje uživatelsky přívětivé modelování pomocí názorného grafického rozhraní, editování pravidel, souhrnného pohledu na různé entity a automatického uvažování. Protégé umožňuje výstup modelu v různých syntaxích, mimo jiné také v OWL/XML¹⁸. Výstup v tomto formátu je použit v aplikaci, která je také součástí této práce.

4.1.Klasifikace ontologie

Ontologie, která je předkládána jako součást této práce, je jednou z možností formální konceptualizace sociální role, a lze ji tedy klasifikovat jako ontologii doménovou, tj. takovou, která popisuje koncepty pro úzce vymezenou doménu. Co se týče expresivity, můžeme tuto ontologii klasifikovat jako lehkou, tedy takovou, jež se soustředí na ty oblasti v dané doméně, které jsou autorem považovány za relevantní. Konkrétně je ontologie vytvářena především za účelem použití v aplikaci, která má sloužit potřebám řečové syntézy, a tomu jsou také přizpůsobeny jednotlivé třídy, jejichž použití vychází ze sociologické teorie, a vlastnosti těchto tříd, které jsou naopak úzce spojeny s možností značkovat v řečové syntéze prozodické jevy, které byly představeny v předchozí kapitole.

4.2.Třídy

V Goffmanově pojetí se setkáváme s aspekty rolového chování, jako je oblečení, drobné předměty osobní potřeby, jeviště, gesta rukou a obličejová mimika.

V konceptualizaci role pro potřeby této ontologie se však zaměříme na aspekty, které se projevují v řeči aktéra, tedy takové vlastnosti role, které jeho obecenstvo slyší. Důležitou součástí každého rolového chování je status, ke kterému daná role přináleží. Naše ontologie proto bude obsahovat třídu status. Dynamičnost, kterou

17 Více informací o editoru Protégé lze najít na stránkách http://protege.stanford.edu/.

18 Viz https://www.w3.org/XML/.

se role od statusu odlišuje, bude v naší ontologii modelována prostřednictvím třídy emoce. Role jako taková bude v ontologii zastoupena třídou SocialRoleAgent.

Třídy v ontologii vyjadřují množiny instancí určitého typu. Sémantické konstrukty RDFS a OWL nám umožňují definovat tyto třídy jejich hierarchizací, a to pomocí vztahů nadtřída-podtřída. Dalšími z možností definice tříd jsou vlastnosti, jimž instance třídy spojíme s instancemi jiné třídy, nebo s hodnotami datových typů.

Vlastnosti, jimiž definujeme nadtřídu, platí vždy i pro všechny instance jejích podtříd.

Pilířem naší ontologie jsou tři základní třídy – SocialRoleAgent, Emotion a Status¹⁹. Jejich hierarchii a podtřídy můžeme vidět na obrázku 3.

In document Ontologie sociální role pro potřeby syntézy řeči (Stránka 15-21)