5.3. XSLT šablona
Součástí aplikace je také šablona ve formátu XSLT, specifikující výslednou podobu SSML dokumentu. Šablona obsahuje tři parametry („input“, „status“ a „emotion“), které jsou aplikací naplněny zadanými daty od uživatele. Pokud například uživatel vybere jako status umělého mluvčího Mother, uloží se tato volba jako hodnota parametru status do šablony. Dále v šabloně jsou pak pomocí výrazu xsl:attribute name vytvořeny atributy gender a age. Pomocí XPath23 výrazu jsou tyto atributy naplněny následovně: v ontologii je u specifikace vlastností jednotlivých instancí vyhledán výraz Mother a jemu připsané vlastnosti isOfGender a isOfAge. Hodnoty těchto vlastností jsou skrze šablonu přepsány do výsledného SSML dokumentu.
Takto jsou pomocí šablony a příkazů v kódu aplikace ve výsledném SSML dokumentu vytvořeny a naplněny všechny požadované atributy. Elementy a atributy standardu SSML, které jsou v šabloně vytvořeny, budou podrobněji popsány v následující podkapitole.
23 Viz https://www.w3.org/TR/xpath/.
23
5.4.Výstup aplikace – SSML značkování řečového segmentu
Hodnoty parametrů status a emoce (např. Mother a Anger), které jsou zadány uživatelem, jsou v ontologii spojeny s věkem a pohlavím umělého mluvčího, a také s prozodickými vlastnostmi simulovaného hlasu. Pro značkování textového vstupu je v aplikaci použit značkovací jazyk SSML. Dokument, v němž jsou jednotlivé promluvy označkovány SSML, umožňuje koncovému zařízení typu TTS nastavit vlastnosti simulovaného hlasu na požadované hodnoty.
Element Speak
Z kořenového elementu Speak je v šabloně definován jmenný prostor xmlns=“http://www.w3.org/2001/10/synthesis“, atribut version, který je nastaven na hodnotu “1.1“, a také atribut xml: lang stanovující jazyk daného textu. Tento atribut říká TTS zařízení jakou výslovnost má při simulaci použít. Ve formuláři má uživatel možnost přepínat mezi jazyky English a Čeština, podle toho, v jakém jazyce zadá promluvu do textového pole. Při volbě English se tento atribut nastaví na hodnotu „en-US“, při volbě Čeština se nastaví na „cs-CZ“. V elementu Speak je také vložena promluva, která je zadána v uživatelském rozhraní.
Element Voice
Z elementu Voice jsou ve výstupu použity atributy „age“ a „gender“. Věk a pohlaví v naší ontologii stanovujeme pomocí vlastností isOfAge a isOfGender, které jsou spojeny s jedinci třídy Status (např. Mother, Child, Policeman). Vlastnost isOfAge spojuje jedince třídy Status s datovým typem nonNegativeInteger, vlastnost isOfGender s datovým typem string. Pokud tedy uživatel vybere za status simulované entity Mother, nastaví se ve značkování atributy age na 30 (nonNegativeInteger) a gender na „female“ (string).
Element Prosody a element Break
Elementy Prosody a Break jsou v naší aplikaci spojeny s ontologickou třídou Emotion.
Z elementu Prosody jsou použity atributy: „pitch“ (výška hlasu) „rate“ (rychlost promluvy) a „volume“ (hlasitost promluvy). Z elementu Break používáme atribut
„strength“ (délka pauz mezi jednotlivými řečovými segmenty). Pokud například uživatel zvolí jako emoční zabarvení zadané promluvy Anger, atributy ve
24
značkovaném dokumentu budou mít následující hodnoty: pitch=“high“, rate=“fast“, volume=“loud“, strength=“weak“.
5.5.Možné aplikace a návrhy na vylepšení
Aplikace, jejímž výstupem jsou promluvy značkované prozodickými vlastnostmi tak, že výsledný hlas umělého řečníka představuje určitou roli, může být využita v několika oblastech. Může být například součástí dialogového systému u zařízení asistujících starým a handicapovaným lidem, nebo součástí návrhu postav v počítačových hrách. Uplatnila by se také tam, kde je potřeba uměle mluvícím zařízením přidat věrohodnost proto, aby byla schopna motivovat uživatele v tísni k rychlému a efektivnímu jednání.
Výstup ve formátu SSML byl vyzkoušen na dvou volně dostupných syntetizérech – eSpeak a MaryTTS. Ani jeden z nich však nepodporuje potřebné atributy formátu SSML natolik24, aby výsledná umělá řeč přesvědčivě odpovídala značkování.
Vyhledání vhodného syntetizéru je nad rámec této práce. Její hlavní náplní byl ontologický model a jeho spojení se značkováním řečové syntézy. Dalším krokem k použitelnosti aplikace v praxi by tedy bylo nalezení vhodného syntetizéru, který má plně integrován SSML jako jeden z možných vstupů, popřípadě přizpůsobit značkování ve výstupním souboru standardu, který daný syntetizér podporuje.
Dalším vylepšením aplikace by mohlo být doplnění promluvy o značky umožňující důraz na konkrétní slova. Pro takové vylepšení by bylo nutné integrovat do systému analýzu promluvy se zaměřením na slova, na která má být kladen důraz.
Vzhledem k jednoduchosti ontologického modelu a jeho zaměření na řečovou syntézu zůstaly nedotčeny mnohé koncepty pojící se s vizuální stránkou sociální role, jako například barva pleti, délka vlasů apod. Do budoucna by proto bylo vhodné tyto koncepty do ontologie zavést, a propojit je s možnostmi značkování vizuálních vlastností modelované entity. Dále by bylo vhodné zavést do aplikace možnost měnit jednotlivé výstupy v závislosti na obecenstvu, pro nějž jsou určeny.
24 Viz espeak.sourceforge.net a https://github.com/sinlab-semester-2013/VirtualActor/wiki/Text-to-Speech:-Mary-TTS.
25
6. Závěr
Tato práce se věnovala konceptu sociální role a možnostmi jeho využití v umělé inteligenci. V navrženém ontologickém modelu a následné aplikaci tento model využívající jsme se pokoušeli o spojení formálního popisu domény sociální role s možnostmi značkování promluv v řečové syntéze. Pro popis domény sociální role bylo použito sociologické teorie zabývající se dramaturgickou perspektivou na jednání jedinců ve společnosti. Do modelu a následné aplikace tak byla integrována možnost simulovat emoce. V aplikaci a jejím uživatelském rozhraní, má uživatel možnost vybrat status a emoci, kterými se bude modelovaná řeč projevovat. Pomocí šablony pro transformaci XML souborů a vstupu od uživatele jsou data z ontologického modelu převedena na hodnoty atributů ve výstupním SSML souboru. Naplnit cíl práce se podařilo, nicméně bylo potřeba upozornit na limity aplikace související s možnostmi dostupných syntetizérů. V práci byly také nastíněny možnosti rozšíření ontologického modelu a vylepšení aplikace pro lepší použitelnost v praxi.
26
Seznam použité literatury
1. Goffman, Erving. Všichni hrajeme divadlo: sebeprezentace v každodenním životě.
Praha : Nakladatelství studia Ypsilon, 1999.
2. Mead, George Herbert. Mind, self and society: from the standpoint of a social behaviorist. Chicago : University of Chicago Press, 1967.
3. Russel, Stuart J a Norwig, Peter. Artificial Intelligence: A Modern Approach. New Jersey: Prentice Hall : Upper Saddle River, 2001.
4. Mařík, Vladimír, Štěpánková, Olga a Lažanský, Jiří. Umělá inteligence (6). Praha : Academia, 2013.
5. Linton, Ralph. The Study of Man. New York : D. Appleton-Century Company, 1936.
6. Berger, Peter L. a Luckmann, Thomas. Sociální konstrukce reality: pojednání o sociologii vědění. Brno : CDK, 1999.
7. Denzin, Norman a Keller, Charles. Frame analysis reconsidered. Contemporary Sociology. 10, 1981, 1, stránky 52-60.
8. Nakonečný, Milan. Sociální psychologie organizace. Praha : Grada Publishing, a.s., 2005.
9. Robert, Merton K. The Role-Set: Problems in Sociological Theory. The British Journal Of Sociology. 1957, Vol. 8, No. 2, pp. 106-120.
10. Parsons, Talcott. The social system. London : Routledge & Kegan Paul, 1967.
11. Zimbardo, Philip G., Maslach, Christina a Haney, Craig. Reflections on the Stanford prison experiment: Genesis, transformations, consequences. Obedience to authority: Current perspectives ont he Milgram paradigm. 2000. stránky 193-237.
12. Hartley, Peter. Interpersonal Communication. London : Routledge, 1999.
13. Nakonečný, Milan. Emoce. Praha : Triton, 2012.
14. Hochschild, Arlie. The Managed Heart. Berkeley, CA : University of California Press, 1983.
15. Psutka, Josef a a kol. Mluvíme s počítačem česky. Praha : Academia, 2006.
16. H. Gunes, B. Schuller, M. Pantic a R. Cowie. Emotion representation, analysis and synthesis in continuous space: A survey. Santa Barbara, CA : 2011 IEEE International Conference on Automatic Face & Gesture Recognition and Workshops, 2011.
stránky 827-834.
17. Allemang, Dean a Hendler, Jim. Semantic Web for the working ontologist: effective modeling in RDFS and OWL. Waltham : Elsevier Inc., 2011.
27
18. Bachorowski, Jo-Anne. Vocal Expression and Perception of Emotion. Current Directions in Psychological Science. 1999, 8, stránky 53-57.
19. Sauter, Disa A., a další. Perceptual cues in nonverbal vocal expressions of emotion. The Quarterly Journal of Experimental Psychology. 2010, 63, stránky 2251-2272.
20. Lemert, Charles a Branaman, Ann. The Goffman reader. Malden : Blackwell Publishing Ltd, 1997.
21. Habermas, Jurgen. Technik und Wissenschaft als Ideologie. Frankfurt am Main : Suhrkamp, 1968.
28
Seznam obrázků
Obrázek 1 - Hartleyho model interpersonální komunikace ... 6
Obrázek 2 - Schéma dialogového systému... 9
Obrázek 3 - Hierarchie tříd (grafické znázornění v editoru Protégé) ... 15
Obrázek 4 - Definice tříd (grafické znázornění v editoru Protégé) ... 18
Obrázek 5 - Uživatelské rozhraní aplikace ... 22
Přílohy
Soubor AplikaceSocialniRole.zip