Software pro rozpoznávání hlasu nebo zvětšování obrazu | edu.cz

(1)

Masarykova univerzita Fakulta informatiky

Adaptace rozhlasového vysílání pro sluchově postižené

Bakalářská práce

Brno 2014 Lubomír Hykl

(2)

Prohlášení

Prohlašuji, že tato práce je mým původním autorským dílem, které jsem vypracoval samostatně.

Všechny zdroje, prameny a literaturu, které jsem při vypracování používal nebo z nich čerpal, v práci řádně cituji s uvedením úplného odkazu na příslušný zdroj.

Vedoucí práce: Mgr. Luděk Bártek, Ph.D

(3)

Poděkování

Děkuji všem, kdo mi jako neslyšícímu studentovi Fakulty informatiky Masarykovy univerzity pro dokončení této práce vytvořili mimořádné podmínky. Můj dík patří především vedoucímu bakalářské práce, Mgr. Luďku Bártkovi, Ph.D., z Katedry počítačových systémů a komunikací FI MU, dále vedení Fakulty informatiky, jmenovitě doc. Mgr. Haně Rudové, Ph.D., proděkance pro bakalářské a magisterské studium, a pracovníkům Střediska pro pomoc studentům se specifickými nároky MU, především Mgr. Lukáši Másilkovi a řediteli střediska PhDr. Petrovi Peňázovi za jazykové korektury českého textu. Zvláštní dík patří všem členům mé rodiny, totiž mé manželce Daniele a mým dětem, Igoru Gordonovi a Regině Gordaně. Bez jejich pochopení a vstřícnosti by moje práce nebyla možná.

(4)

Shrnutí

Cílem bakalářské práce bylo analyzovat programy pro automatické rozpoznání řeči a textové procesory nebo aplikace podporující přenos textu či videa v reálném čase. Na základě získaných informací autor práce připravil návrh a implementaci vlastní webové aplikace, která umožní lidem se sluchovým postižením sledovat rozhlasové vysílání v přístupné podobě. Jedná se o novodobý model transformace mluvené řeči do textové podoby a znakového jazyka, který využívá nejnovější vyspělé technologie a umožní komunitě sluchově postižených sledovat informace vyřčené v rozhlasovém vysílání.

(5)

Klíčová slova

aplikace, reálný čas, ASR, český znakový jazyk, avatar, textový procesor

(6)

6

1. ÚVOD

2. ORGANIZACE UNIE NESLYŠÍCÍCH BRNO, O. S.

3. KOMUNIKAČNÍ SPECIFIKA OSOB SE SLUCHOVÝM POSTIŽENÍM 3.1. Pojem „osoba se sluchovým postiženým“

3.2. Slyšící čtenáři

3.3. Prelingválně neslyšící čtenáři 3.4. Nedoslýchaví čtenáři

3.5. Ohluchlí čtenáři 3.6. Hluchoslepí čtenáři

4. APLIKACE PRO AUTOMATICKOU ANALÝZU MLUVENÉ ŘEČI 4.1. Aplikace Newton Dictate a její analýza

4.2. Aplikace NovaVoice a její analýza

4.3. Aplikace Nuance Dragon NaturallySpeaking a její analýza 4.4. Aplikace Nuance Dragon Dictation a její analýza

4.5. Analýza všech argumentů k důvodu za nevyužití 4.5.1. Nepřesné rozpoznání promluvy v reálném čase 4.5.2. Rozhovor dvou a více mluvčích v reálném čase 4.5.3. Časté vyčerpání kapacity operační paměti

4.5.4. Použití hlasových příkazů při rozhlasovému vysílání 4.5.5. Adaptace mluvčích při rozhlasovému vysílání

5. APLIKACE PRO VIZUÁLNÍ ZPŘÍSTUPNĚNÍ MLUVENÉ ŘEČI V REÁLNÉM ČASE

5.1. Přenos psaného textu 5.1.1. Polygraf

5.1.2. eScribe

(7)

7

5.1.3. Transkript online s.r.o.

5.2. Přenos videa v českém znakovém jazyce 5.2.1. ooVoo - analýza

5.2.2. Microsoft Skype - analýza 5.2.3. Camfrog - analýza

5.2.4. Google Hangouts a Google Hangouts Air - analýza 5.2.5. Ustream - analýza

5.2.6. Apple FaceTime - analýza

6. APLIKACE NA AUTOMATICKÉ ROZPOZNÁNÍ MLUVENÉ ŘEČI S PŘEKLADEM DO ČESKÉHO ZNAKOVÉHO JAZYKA - AVATARA 6.1. MUSSLAP

6.2. Jiné projekty založené na motion capture 6.3. Shrnutí

7. APLIKACE S PODPOROU KOLABORACE V REÁLNÉM ČASE 7.1. Dokumenty Google - analýza

7.2. WriteURL - analýza 7.3. ZOHO Docs - analýza

7.4. Microsoft Office Web Apps - analýza 7.5. LiveNote - analýza

8. NÁVRH ROZHRANÍ APLIKACE

8.1. Univerzalita aplikace vůči webovým prohlížečům 8.2. Návrh aplikace

9. TESTOVÁNÍ MOŽNÝCH ŘEŠENÍ PROBLÉMŮ 9.1. Popis a výsledky testování dvou aplikací ASR

9.2. Testování přepisu a tlumočení rozhlasového vysílání

(8)

8

10. HODNOCENÍ APLIKACE CÍLOVÝMI UŽIVATELI

11. LITERATURA

(9)

9

1. ÚVOD

Jako neslyšící uživatel českého znakového jazyka jsem častokrát zažil situaci, kdy partneři mého jednání viditelně reagovali na zprávy, které právě v tu chvíli získávali, případně v nedávné minulosti získali, poslechem rozhlasu. Tyto zážitky mne vedly k návrhu integrovat technologii transkripce mluveného slova a technologii tlumočení mluveného slova online s technologií rozhlasového vysílání do jediné aplikace, tak aby mohli nedoslýchaví průběžně číst rozhlasové vysílání, neslyšící mohli sledovat tyto zprávy v českém znakovém jazyce, a tak se jedni i druzí mohli zorientovat v situacích, kdy slyšící na vyslechnuté zprávy reagují a vycházejí z nich.

Pracuji už déle než 6 let jako technik v občanském sdružení Unie neslyšících Brno [1].

Vedoucí této organizace Ivan Poláček mě požádal, abych předložil návrh takové webové aplikace na zpřístupnění rozhlasových zpráv pro neslyšící, přičemž hlavní podmínkou byl bezplatný provoz.

Aplikace neměla záviset na konkrétním operačním systému nebo webovém prohlížeči a neměla vyžadovat instalaci nějakého softwaru na straně koncového uživatele. Požadavkem byl jednoduchý systém, tak aby uživatel, který navštíví webovou stránku s navrženou aplikací, neměl s jejím ovládáním problém.

Bohužel jsem nenašel vhodnou aplikaci pro automatické rozpoznávání řeči (ASR, automatic speech recognition [2]) a její transkripci do textu. Hlavním důvodem je fakt, že ani jeden z dostupných ASR programů nezvládá bez chyby rozpoznat více mluvčích v jednom okamžiku. Navíc potřebuje mít uložen hlasový profil mluvčího, což v podmínkách radiového vysílání není možné. Z toho důvodu jsem se rozhodl pro zajištění technologií pro přepis mluvené řeči prostřednictvím zapisovatele a tlumočení do českého znakového jazyka.

Nejprve tedy bylo nutné vyřešit dva důležité základní úkoly. Prvním úkolem bylo vyhledat a vybrat online editor pro záznam textu v reálném čase na bázi HTML5 [3], poskytující plně duplexní komunikační kanály v průběhu jednoho nezávislého TCP spojení. Komunikace prostřednictvím TCP probíhá na portu 80, který je v nastavení firewallu vždy povolen, uživatel tak není nucen cokoliv měnit v nastavení prohlížeče či systému. I to podporuje univerzální použití webové aplikace na všech webových prohlížečích, neboť není třeba dodatečně instalovat software pro konkrétní webový prohlížeč. Důležitým požadavkem je použití aktualizované verze webových prohlížečů. Například bývá problém s webovým prohlížečem Microsoft Internet Explorer [4], který podporuje protokol WebSocket [5] pro komunikaci se serverem prostřednictvím obousměrného komunikačního kanálu až od verze 10. Dalším speciálním požadavkem programátora grafického uživatelského rozhraní je, aby bylo možné využít libovolnou šablonu.

Dalším úkolem bylo vyhledat software či webovou aplikaci umožňující streamování živého video přenosu nebo vysílání záznamu videa prostřednictvím sítě Internet, a to ve formátu HD či Full

(10)

10 HD kvůli kvalitě videa, jakou vyžadují neslyšící uživatelé pro komunikaci prostřednictvím českého znakového jazyka v reálném čase i s možnou podmínkou nízké odezvy zpoždění.

Dalším bodem bylo získat a upravit jQuery [6] knihovnu pro základní nastavení formátu písma, nastavení barvy písma a barvy pozadí, dále zobrazení kalendáře, aby bylo možné nahlížet do historie přepisu či historie vysílaných videí.

Cílem je nabídnout informace co nejširší skupině uživatelů. Návrh webové aplikace proto dává možnost vybrat informaci pouze v textové podobě, nebo v českém znakovém jazyce, nebo obě dvě možnosti najednou. Do budoucna, pokud aplikace bude mít dobrý ohlas, pokládám za vhodné nabízet takto sluchově postiženým všechny klíčové informační služby, například informace o krizových situacích v ČR a podobně. Je žádoucí, aby užívané webové aplikace pro přenos informací v textové podobě i pro streamování či záznam živého přenosu videa byly bez poplatků. Rozhlasová vysílání důležitých informací, jakými jsou informace o krizových situacích, nejsou v ČR zpoplatněna a požadavek rovných šancí znamená hledat odpovídající řešení pro neslyšící.

Po analýze dostupných technologií, která je součástí předkládané práce, byla pro online editaci textu v reálném čase zvolena aplikace WriteURL [7], protože využívá návrh standardu HTML5 a používá zavedený protokol WebSocket. Umožňuje také jednodušší sdílení dokumentů než ostatní webové procesory – pomocí URL. Nabízí zajímavé DOM [8] elementy a umožňuje naprogramovat vlastní úpravy na přizpůsobení šablony pro zobrazení na displeji. Aplikace je dostupná zdarma, technickou podporu je možné získat bezprostředně formou elektronických pošt.

Ke streamování videa byla zvolena aplikace Google Hangouts Air [9]. Nabízí řadu funkcí: je možné streamovat videa ve formátu HD, sdílet přímý odkaz na zdroj videa prostřednictvím jeho URL a zdarma poskytuje záznam videa s časovým omezením. Nabízí jednoduchý vestavěný kód i nastavení rozlišení přehrávače pro streamování videa v živém přenosu nebo vysílání záznamu videa. Je výhodou, že vše se provozuje přes kanál YouTube [10]. Není tak třeba řešit instalaci speciálního softwaru, nastavení čísla kanálu a podobně. Dále je u JQuery API řada nabídek: lze převzít modul na přizpůsobení písma, nastavení barvy pozadí, zvětšení i zmenšení písma. Všechny zmíněné aplikace jsou dostupné zdarma.

Návrh řešení je dostupný ve zkušební verzi na webové stránce http://www.hykl.cz/.

(11)

11

2. ORGANIZACE UNIE NESLYŠÍCÍCH BRNO, O. S.

Unie neslyšících Brno (dále jen UNB) jako samostatné občanské sdružení existuje od roku 1998, kdy se oddělila od České unie neslyšících [11] (dále jen ČUN) se sídlem v Praze a stala se součástí nově založené Českomoravské jednoty neslyšících [12] (dále ČMJN), jejímiž členy se dále staly organizace z Olomouce, Jihlavy a Plzně. Okolo roku 2000 už plynule fungovala ČMJN a přidávaly se další organizace jako např. APPN, o. s. [13], 365, o. p. s. [14] aj. Vedle ČMJN a ČUN existuje v ČR řada dalších zájmových organizací sluchově postižených s celostátním působením.

Posláním UNB je podporovat sluchově postižené osoby bez rozdílu. Poskytuje kromě sociálního poradenství různé praktické služby, jako například tlumočnickou službu. Cílem UNB je také vzdělávat a seznamovat neslyšící s nejrůznějšími technologiemi, které usnadní jejich komunikaci se slyšícími a začlenění je do společnosti. V centru pozornosti jsou kompenzační pomůcky včetně telekomunikačních technologií, jakým je tlumočená telefonie a tlumočnické služby online. Další z činností UNB je pořádání kurzů českého znakového jazyka pro veřejnost.

UNB od 90. let minulého století spolupracovala se SPT Telecom (pak Český Telecom, poté Telefónica O2). Vzniklo tak operátorské centrum pro sluchově postižené (fax, psací telefon, apod.).

V roce 2011 byl zahájen unikátní český projekt Telekomunikační centrum neslyšících (TKCN) – viz na <http://www.tkcn.cz/>. TKCN je po skončení projektu funkční dodnes – nabízí 10 samostatných služeb: psací telefon prostřednictvím mobilní aplikace, e-psací telefon, e-mail, tlumočení přes Microsoft Skype, tlumočení přes ooVoo, tlumočení přes Apple FaceTime, simultánní přepis, SMS, s-linka, vzkazy od slyšících lidí. Jako společná služba s O2 funguje Hovor pro neslyšící [15].

Od začátku roku 2014 UNB řeší nový projekt s názvem „Nezávislá komunikace pro sluchově postižené – dostupně a ekonomicky“ (http://www.unieneslysicichbrno.cz/projekt2014.php). Sluchově postižení mohou dostat malý mikrofon do vlastních chytrých telefonů či přenosných počítačů a mít speciální software, který rychle přenese řeč na server, kde se v reálném čase analyzuje, transformuje do textu a odešle zpět na displej.

(12)

12

3. KOMUNIKAČNÍ SPECIFIKA OSOB SE SLUCHOVÝM POSTIŽENÍM

3.1. Pojem „osoba se sluchovým postiženým“

Veřejnost běžně nevnímá rozdíl mezi osobami neslyšícími, nedoslýchavými, ohluchlými a hluchoslepými, přestože se jejich sluchové postižení, a tím i komunikační postupy, zásadně liší.

Proto se snaží řada institucí, počínaje zájmovými organizacemi sluchově postižených, o osvětu v této oblasti.

Neslyšící se nikde neschovávají. Naopak. Ukazují svou bohatou kulturu, pořádají akce, divadelní představení, účastní se nejrůznějších projektů a i přesto se stále setkávají s nedostatkem povědomí a své kultuře a s řadou předsudků.

Problém představuje už sám pojem „osoba se sluchovým postižením“ vzhledem k nedostatku společných zájmů jednotlivých dílčích skupin, které pod tento obecný pojem spadají. Není zřejmé, jaký komunikační systém používat: nedoslýchavý může užívat mluvený jazyk a odezírat, případně i částečně sluchem sledovat; nebude pro komunikaci potřebovat tlumočníka. Uživatel českého znakového jazyka, který mluvený jazyk nepoužívá, využívá tlumočnických služeb. Bude-li však při užívání českého znakového jazyka užito orálních komponentů, může si slyšící myslet, že souvisejí s mluveným jazykem, a může od neslyšícího očekávat komunikaci v mluveném jazyce. Je tedy třeba respektovat jednotlivá sluchová postižení a jejich rozdíly.

3.2. Slyšící čtenáři

Informace se ke slyšícím osobám dostávají sluchem, mluveným projevem i vizuálním vnímáním. Díky médiím se slyšící k nejrůznějším informacím dostávají poměrně pohodlnou cestou.

Ať už má slyšící jakékoliv vzdělání, má výhodu majority: je schopen vstřebávat i předávat informace, protože je většinou použit jeho komunikační systém, tedy mluvený jazyk, který se již od narození a hlavně ve škole učí.

3.3. Prelingválně neslyšící čtenáři

Osoby, jež se narodily s úplnou ztrátou sluchu (jež byla být způsobena geneticky, zdravotními problémy matky v těhotenství, vlivem nejrůznějších nemocí v raném věku dítěte apod.) získávají informace hlavně díky smyslu, který je pro ně nejdůležitější, a to zrakem. Nejdůležitější je pro neslyšícího vizuálnost – na svých očích je životně závislý. Pro komunikaci využívají český znakový jazyk. A v dnešní době již řada bariér pro neslyšící komunikující českým znakovým jazykem odpadá. Jsou zaměstnaní, mohou studovat…

Podle studijních předpokladů lze neslyšící rozdělit do dvou skupin:

(13)

13 1. Lidé s dobrými studijními předpoklady, kteří usilují alespoň o střední vzdělání, se učí mluvený, resp. psaný jazyk. Je pro ně jazykem cizím, protože se k informacím o jeho struktuře a smyslu dostávají jen nepřímo. Ačkoli se v českém jazyce zdokonalují a textu rozumí, míra porozumění není srovnatelná se slyšícím, tedy rodilým mluvčím českého jazyka. I vzdělaní prelingvální neslyšící se při čtení textu musejí hodně soustředit, přemýšlet nad významem textu v mluveném, resp. psaném jazyce a nad jeho souvislostmi.

Text si mohou číst i několikrát, než si budou jisti porozuměním. Prelingvální neslyšící, pro kterého je český jazyk jazykem cizím, nebude vnímat text tak jako slyšící uživatel českého jazyka.

2. Lidé bez vzdělání si přímo po základní škole hledají pracovní uplatnění. Je řada neslyšících, kteří jsou velmi zruční, a jelikož mají cvik ve vizuálním vnímání, jsou v praxi mnohdy přesní v porovnání se slyšícími – nejsou mentálně zaostalí, dosáhli jen nižšího vzdělání. Jejich mateřským jazykem je český znakový jazyk stejně jako u první skupiny a jazyk český je rovněž jazykem cizím. Vzhledem k nižšímu vzdělání a k tomu, že ke komunikaci používají český znakový jazyk, je jejich porozumění mluvenému či psanému jazyku velmi omezené, s čímž už v dnešní době, kdy jsou tlumočníci českého znakového jazyka, neslyšící učitelé, není tak obtížné se vypořádat, jako tomu bylo v minulosti.

A doufám, že tento trend se bude mít v budoucnu ještě zlepšovat.

Pro obě skupiny neslyšících je typické, že se při čtení textu pořád doptávají na význam. I když k porozumění dojde, zvlášť u osob s vyšším vzděláním, není míra porozumění taková jako při užití českého znakového jazyka. Proto je třeba podporovat rozvoj technologií pro neslyšící, například rozšiřování videí v českém znakovém jazyce, čímž by se neslyšící dostali bez jakýchkoliv problémů k informacím. Masová média, jako je televize, rádio, rozhlas, jsou převážně přizpůsobená slyšícím;

klasická média, jako jsou noviny a časopisy, se zase více hodí pro ohluchlé a nedoslýchavé osoby, chybí média pro neslyšící. Pro neslyšící jsou možnosti opravdu omezené. Skupina uživatelů českého znakového jazyka není malá, ovšem chybí technologie a metodika pro jeho šíření a šíření informací v českém znakovém jazyce.

3.4. Nedoslýchaví čtenáři

Je potřeba si uvědomit rozdíl mezi ohluchlými a nedoslýchavými osobami. Ohluchlá osoba se narodila bez poruchy sluchu, ta nastala v průběhu života, respektive po rozvoji centru řeči.

Nedoslýchavé osoby se již s poruchou sluchu narodily. Tuto ztrátu sluchu lze kompenzovat sluchadly, jež se nosí celý život. Samozřejmě i užívání sluchadel a vnímání sluchu díky nim je třeba procvičovat. Nedoslýchavé děti jsou převážně integrovány do běžných základních škol. Tím se více setkávají se slyšícími, mnohdy jsou uživateli mluveného jazyka a odezírají. Ač se tedy s českým jazykem setkávají denně a při čtení nejsou větší potíže s porozuměním, občas dochází k propojení

(14)

14 souvislostí v textu, ve srovnání například se slyšícími osoby, později. Musejí nad textem více přemýšlet a souvislosti hledat. V poslechu a vnímání mluveného jazyka pomáhají sluchadla.

Nejjednodušší přístup k informacím pro nedoslýchavé je díky čtení, nikoliv díky poslechu, jelikož je mnohdy potřeba mluvené slovo opakovat, mluvit zblízka. Pokud se narodí nedoslýchavé dítě v rodině neslyšících rodičů, je možné, že nebude integrováno, nýbrž bude navštěvovat školu pro sluchově postižené, kde je také kladen důraz na porozumění textu. Opět je třeba rozlišovat sluchové postižení, tedy zda se jedná o nedoslýchavou či neslyšící osobu. Jsou to dvě odlišné skupiny sluchově postižených, jež se neliší jen druhem sluchového postižení, ale také komunikačním systémem, kdy neslyšící užívají český znakový jazyk a nedoslýchavé osoby mluvený jazyk, mnohdy hlasitěji než slyšící osoby, odezírání a informace získávají hlavně čtením.

3.5. Ohluchlí čtenáři

Jsou to osoby, jež ztratily sluch po rozvoji centru řeči, tedy po třetím roku věku, ať už úrazem, nemocí či generačním problémem. Jelikož před ztrátou sluchu mluvený jazyk užívaly a ohluchly například v dětství, adolescentním věku či ve stáří, jsou zvyklé používat mluvený jazyk a mluvit.

Pokud není ztráta sluchu úplná, lze ji kompenzovat sluchadly.

Z hlediska ohluchlých je největší problém odposlech, hlavně pokud hovoří více osob, nebo při poslechu médií, kdy se hovoří rychle – nevzniká tedy problém se samotným porozuměním.

Ohluchlé osoby jsou uživateli mluveného, resp. psaného jazyka a bez problému rozumějí při čtení.

3.6. Hluchoslepí čtenáři

Postižení hluchoslepých je nejtěžší, a jde-li o prelingvální hluchoslepé, je vzdělávání velmi obtížné a omezené. U těžce zrakově postižených, kteří sekundárně přicházejí o sluch, se komunikace orientuje na přepis mluveného slova v Braillově hmatovém písmu, k čemuž slouží speciální technologie, nebo se používá například Lormova hmatová abeceda. Těžce sluchově postižené osoby, které sekundárně přicházejí o zrak, používají taktilní český znakový jazyk. Technologické prostředky, jak zajistit pro hluchoslepé osoby přístup k informacím, jsou v současnosti velmi omezené. Což nevylučuje, že vznikne technologie, která umožní předávat informaci hluchoslepým osobám i bez osobního tlumočníka, který musí být fyzicky přítomen.

(15)

15

4. APLIKACE PRO AUTOMATICKOU ANALÝZU MLUVENÉ ŘEČI

Nejdříve bych rád poděkoval za technickou podporu firmě NEWTON Technologies, která mi poskytla licenci k aplikaci NEWTON Dictate [16] v rozšířené verzi 4, a společnosti Consulting Company Novasoft za poskytnutí licence k aplikaci NovaVoice [17] ve verzi 7.0.4. Dal jsem si za cíl analyzovat oba zmíněné programy. Dle doporučení obou firem jsem je testoval na lepších a výkonnějších zařízeních, jak na osobních počítačích, tak na přenosných.

4.1. Aplikace Newton Dictate a její analýza

Pro použití aplikace Newton Dictate je výrobcem doporučen počítač s procesorem Intel i5 či vyšší verze o minimální frekvenci 1,7 GHz. Požaduje se operační paměť o kapacitě alespoň 4 GB, program samotný bude potřebovat přibližně 600 MB. Pracovat s ním mohou uživatelé operačního systému Microsoft Windows, a to od verze XP, pro správné fungování aplikace si musí nainstalovat nejnovější verzi 4.0 platformy Microsoft .NET [18].

Licence pro program se prodává ve třech různých podobách:

1. hardwarový klíč (USB), který je možné přenášet na více hardwarových zařízení a k užívání není třeba připojení k internetu;

2. jednorázová registrace přes internet, pomocí níž je licence svázána s jedním hardwarovým zařízením;

3. internetová licence jednoho hardwarového zařízení – uživatel musí být připojen k internetu při každém spuštění programu i změnách během jeho použití.

Upgrade v rámci stejné verze je zdarma, v případě přechodu na novější verzi je nutné uhradit poplatek.

Podpora pro mobilní zařízení zatím není nabízena. Při analýze této aplikace jsem se přednostně zabýval její speciální funkcí – MINI ND (pro transkripci řeči v reálném čase a jejím přepisu do dokumentu jiného textového editoru či procesoru).

Nastavení zvukového vstupu lze standardně najít v ovládacích panelech systému Microsoft Windows. Je-li uživatel schopen sloučit za pomoci směšovače dva kanály do jednoho vstupu, pak je možné rozpoznat rozhovor dvou mluvčích snímaný dvěma mikrofony a přepis vložit do dokumentu textového editoru či procesoru. Newton Dictate umožňuje rozpoznání audio nahrávky do textu, podporovány jsou následující audio formáty: MP3, WAV, WMA, AMR, AVI, MP4, MP2, MOV, 3GP, SPX, DSS a DS2.

Při zhoršených zvukových podmínkách je kvalita přepisu závislá na více faktorech. Záleží na kultuře projevu mluvčího, intenzitě okolního ruchu, kvalitě snímacího zařízení a samozřejmě na charakteru diktovaného textu. Program disponuje databází nejrůznějších ruchů a šumů, které

(16)

16 při rozpoznání dokáže ignorovat. Dochází-li v operační paměti volné místo během transformace mluvené řeči do textové podoby, dojde k jejímu zpomalení, které však nemá vliv na kvalitu rozpoznání.

Rozhraní programu nabízeného i v české lokalizaci je velmi intuitivní, má standardní podobu aplikace v operačním systému Microsoft Windows 8 [19] (styl nabídky karet, obrazovky apod.).

V nabídce programu je možné zvolit položky Šablony, Slovníky a Mini. Ze zajímavých funkcí zmíním možnost exportovat zvukovou i textovou podobu řeči do formátu TTA. Možnosti formátování rozpoznaného textu jsou omezené pouze na základní funkce. Uživatel si může spravovat svůj vlastní slovník či využívat oborové, bohužel s licencí, která mi byla poskytnuta, jsem je neměl možnost prozkoumat. Průběh diktování je možné sledovat skrze dvě ikony. Jedna z nich informuje o intenzitě snímaného zvuku, druhá indikuje obsazenost operační paměti. Není možné nastavit hlasový profil, k dispozici je však funkce automatické hlasové adaptace. Během diktování se program přizpůsobuje hlasu uživatele, takže při další příležitosti může dojít ke zvýšení kvality rozpoznání. Není-li tato funkce zapnuta, dochází pouze k jednorázové hlasové adaptaci, jejímž cílem je dosáhnout co největší kvality rozpoznání aktuální řeči, nikoliv zlepšovat hlasový profil. Z dalších zajímavých funkcí upozorním na možnost rozpoznání nahrávky z diktafonu či editaci a formátování textu za pomoci hlasových příkazů, a to i u známého textového procesoru Microsoft Office Word. Více viz na

<http://www.diktovani.cz/newton-dictate>.

4.2. Aplikace NovaVoice a její analýza

Aplikace NovaVoice je nabízena pouze uživatelům operačního systému Microsoft Windows.

Minimální konfigurace hardwarového zařízení pro použití aplikace závisí na typu licence, která je buď lokální anebo serverová. Lokální licence se dělí podle počtu slov ve slovníku:

1. malý slovník o 300.000 slovech – je vyžadován procesor, ideálně od společnosti Intel, se dvěma jádry o frekvenci 2 GHz za podmínky minimálně 1000 bodů naměřených podle CPU Benchmark. Pro plynulý běh programu je třeba disponovat operační pamětí o kapacitě alespoň 2 GB.

2. střední slovník o 500.000 slovech – je třeba dvoujádrového procesoru, ideálně od společnosti Intel, o frekvenci 2 GHz za podmínky minimálně 1500 bodů podle CPU Benchmark a operační paměti o kapacitě alespoň 3 GB.

3. velký slovník o 1.000.000 slovech – je vyžadován čtyřjádrový procesor, optimálně vyrobený společností Intel, o frekvenci 2,5 GHz za podmínky minimálně 5000 bodů podle CPU Benchmark a operační paměť o kapacitě alespoň 8 GB.

(17)

17 Lokální licence je pevně svázaná s hardwarovým zařízením. Za příplatek 1000 Kč je možné provést instalaci programu na další počítač, diktovat však může pouze ten, kdo má k dispozici zařízení s hardwarovým klíčem.

Serverová licence vyžaduje počítač s procesorem o frekvenci minimálně 1,4 GHz za podmínky 3000 bodů podle CPU Benchmark. Počet zakoupených licencí určuje, na kolika zařízeních najednou je možné program používat v rámci lokální sítě připojené k hlavnímu operačnímu serveru. Doporučená velikost operační paměti závisí na velikosti slovníků, pohybuje se od 200 MB až po 500 MB. U serverové licence se do operační paměti nenahrává celý slovník, nýbrž pouze tzv. Shadow slovník. Pokud si uživatel nezakoupí předem "údržbu" slovníku, musí si ji později přikoupit za cenu licence. Tato politika je férová vůči uživatelům, kteří mají údržbu zakoupenou od počátku používání programu. Více viz <http://www.ccnovasoft.cz/cz/novavoice/>.

Při analýze této aplikace jsem se přednostně zabýval její speciální funkcí – Interaktivní mód (pro transkripci řeči v reálném čase a jejím přepisu do dokumentu jiného textového editoru či procesoru). NovaVoice je možné použít pro rozpoznání řeči jediného mluvčího, nikoliv pro rozhovor více lidí s více mikrofony. Program umožňuje rozpoznání audio nahrávky do textu, podporovány jsou následující audio formáty: WAV, DS2, MP3, DSS, 3GP, 3GP2, AMR, FLAC, FLV, OGG, RM, WMA, M4P, ASF, AVI, MOV, MP4, MPG, MPEG, SWF, WMV, MKV a QT. Kvalitu rozpoznání zásadně ovlivňuje frekvenční rozsah (mezi 100 Hz a 15 kHz) a vzorkovací frekvence (16 kHz). Model adaptace hlasu může být buď univerzální (důsledkem je větší chybovost), nebo podle pohlaví či v závislosti na uživateli, jehož hlas byl aplikací rozpoznáván naposledy. Nevýhodou je, že druh modelu je třeba zvolit ještě před diktováním. Při zhoršených zvukových podmínkách má NovaVoice problémy. V takovém prostředí výrobce doporučuje nasadit kvalitnější sluchátka se dvěma mikrofony. První z nich snímá řeč, druhý zvukové ruchy. Hardware sluchátek od sebe oba signály odečte a programu vrací k rozpoznání kvalitní a čistý zvuk.

Je-li kapacita operační paměti vyčerpána, dochází k tzv. swapování na pevný disk, což má za následek zpomalení transformace zvuku do textové podoby. Neznamená to však ztrátu kvality rozpoznání vzhledem k dostupnosti bufferu, ve kterém se nahraný zvuk dočasně uloží a je k dispozici pro přesun do operační paměti po jejím uvolnění.

V porovnání s Newton Dictate se NovaVoice uživatelům lépe ovládá, čemuž napomáhá přívětivější grafické rozhraní aplikace. Průběh diktování je možné sledovat na dolním panelu aplikace, který nabízí informace o aktuálním stavu operační paměti, uživatelském profilu, modelu hlasové adaptace a právě využívaném vstupním a výstupním zvukovém zařízení. Uživatel si zde může nastavit i velikost písma, v němž je rozpoznaný text vypisován na obrazovku.

(18)

18 NovaVoice taktéž nabízí základní funkce pro ovládání, oproti Newton Dictate však disponuje bohatší nabídkou dalších nástrojů. Uživateli umožňuje exportovat zvukový soubor s nahrávkou řeči do formátů WAV a MP3. Program lze na rozdíl od Newton Dictate ovládat funkčními klávesami.

Další výhodou je i tzv. Korekční mód, v němž může uživatel pomocí textového editoru upravovat a formátovat rozpoznaný text či provádět jeho korektury. NovaVoice nabízí uživateli možnost editace pojmů ve slovníku a je samozřejmě přístupná i v české lokalizaci.

4.3. Aplikace Nuance Dragon Dictation a její analýza

Nuance Dragon NaturallySpeaking [20] je rychle vyvíjející se software pro rozpoznávání mluvené řeči do elektronické podoby, který je možné používat na počítačích a zařízeních s operačním systémem Microsoft Windows a Apple MacOSX. Umožňuje nejen automatické rozpoznávání řeči, ale i ovládání počítače a jeho aplikací prostřednictvím hlasových příkazů. Pro rozpoznání řeči je určen program Dragon NaturallySpeaking, který nepřenáší zpracovaný text znak po znaku, nýbrž vyčkává a analyzuje opakovaně části mluveného projevu, které pak v textové podobě najednou posílá na obrazovku. Uživatel tak vnímá určité zpoždění mezi vysloveným a napsaným. Po instalaci aplikace uživatel iniciuje svůj osobní profil, což může učinit nahráním datového souboru se svým vlastním hlasem či namluvením několika frází na místě.

Podstatnou nevýhodou Nuance Dragon NaturallySpeaking je absence podpory rozpoznání mluveného projevu v češtině. Uživatel sice může zkusit diktovat česky, výsledkem je však většinou neobvyklý překlad. Přitom se uvádí, že u nejznámějších jazyků je přesnost rozpoznání 99 %. Uživatel výsledky rozpoznání vylepšuje soustavným „tréninkem“ aplikace, čím častěji ji používá, tím více ji učí přesněji rozpoznat jeho mluvený projev. Korekce drobných chyb provádí pomocí svého hlasu, což je pomalejší, než kdyby tak činil s pomocí klávesnice.

Rozpoznání mluveného projevu diskutujících osob během rozhlasového vysílání je nepřesné.

Přepisovatel, který sleduje radiové vysílání, lépe rozpozná hlasy jednotlivých lidí a umí přesněji zapsat jejich dialog. I v případě drobných korektur je přepisovatel ve výhodě, protože uživatel aplikace Nuance Dragon NaturallySpeaking není schopen v jedné chvíli rozpoznávat text a zároveň provádět opravy.

4.4. Aplikace Nuance Dragon Dictation a její analýza

Dragon Dictation [21] je další aplikací vyvíjené společností Nuance, která tak rozšiřuje svou podporu i na mobilní zařízení postavené na operačních systémech Google Android a Apple iOS.

Slouží uživatelům, kteří ovládají počítač především hlasem s minimálním použitím klávesnice.

Při zahájení práce s aplikací je nutné nastavit profil mluvčího a určit stát, v němž žije a pracuje. Program počítá s vestavěným mikrofonem mobilního zařízení. Skrze něj probíhá nahrávání

(19)

19 komunikace a následná analýza, jejíž výsledek se v textové podobě zobrazí až po rozhodnutí uživatele, který jej může poslat v SMS zprávě, e-mailem, prostřednictvím Facebooku, Twitteru či jej zkopírovat do libovolné další aplikace. Dragon Dictation dokáže identifikovat mluvčího dle jeho hlasu, umí rozpoznat konec mluveného projevu. Umožňuje uživateli měnit jazyk, který má být rozpoznáván.

Analýza mluveného projevu a zobrazení výsledku rozpoznání je u obou mobilních operačních systémů zcela rozdílná. Zatímco v případě Google Android si uživatelé aplikace Dragon Dictation ihned přečtou výsledek analýzy na displeji svého mobilního zařízení, rozpoznání řeči osoby používající systém Apple iOS je provedeno až po ukončení promluvy, stejně tak jako její textová podoba.

Podstatným rozdílem mezi oběma aplikacemi společnosti Nuance je lepší podpora češtiny v případě Dragon Dictation. Bohužel, aplikaci pro mobilní zařízení nelze použít pro transkripci řeči v reálném čase a jejím přepisu do dokumentu jiného textového editoru či procesoru. Více viz

<http://www.nuance.com/dragon/index.htm>.

4.5. Analýza všech argumentů k důvodu za nevyužití

Nyní uvedu důvody, proč jsem se rozhodl nevyužít programy pro automatické rozpoznávání řeči (ASR, Automatic Speech Recognition) a její transkripci do textové podoby. Uvádím celkem pět hlavních argumentů, na základě nichž jsem dospěl k rozhodnutí použít technologie pro přepis mluvené řeči prostřednictvím zapisovatele a pro tlumočení do českého znakového jazyka.

4.5.1. Nepřesné rozpoznání promluvy v reálném čase

V rozhlasovém vysílání se střídají osobnosti hovořící o tématech z různých oblastí. Bude-li pro každou z probíraných oblastí k dispozici slovník s vysokým počtem pojmů, je transformace do textové podoby možná, avšak její výsledek stejně nebude stoprocentně přesný. Příkladem je prakticky ověřená skutečnost s několika osobami diskutujícími konkrétní téma. Přestože hovořili o tomtéž, výsledek rozpoznání promluvy byl u každého z nich jiný.

Přepisovatel zachytí rozmluvu na dané téma bez ohledu na počet diskutujících. Aby bylo dosaženo přesné transkripce pomocí aplikace ASR, je třeba, aby byl každý mluvčí poučen o zásadách správného diktování. Je otázkou, zda je možné, aby každá osobnost promlouvající během rozhlasového vysílání na různé téma absolvovala školení o zásadách správného diktování.

Po ukončení mluveného projevu během rozhlasového vysílání je do programu většinou zařazena hudba. Program ASR se snaží o rozpoznání skladby, což vyústí v nesmyslný obsah. Oproti tomu přepisovatel jednoduše oznámí, že momentálně dochází k hudební reprodukci.

(20)

20 Úspěšné rozpoznání svého mluveného projevu zajistí pravděpodobně lépe ten mluvčí, který pracuje se slovníkem aplikace ASR a věnuje natrénování více času. Může tak stabilizovat slovník a dodržuje zásady pro správné diktování. Bude-li za těchto podmínek řeč vedena na běžná témata prostřednictvím stereotypní rutinní češtiny, měl by program ASR zvládnout transkripci mluveného projevu do psané podoby s vyšší přesností.

Na webových stránkách NEWTON Technologies se uvádí, že: Program NEWTON Dictate zvládá rozpoznávání jednotlivých slov a větných spojení z rozsáhlých slovníků obsahujících řádově stovky tisíc slov, a to od libovolného mluvčího a v reálném čase s úspěšností více než 98%. Čeština je krásný, ale složitý jazyk. Jeho ohebnost, skloňování nebo časování často vede k dramatickému nárůstu unikátních slovních tvarů. Proto je vhodné pro diktování odborného textu používat také odborně zaměřené slovníky.

Po opakovaných pokusech o rozpoznání mluveného slova zaznívajícího v programech různých rozhlasových stanic, kdy jsem využil obě aplikace ASR (Newton Dictate, NovaVoice), jsem přesvědčen, že výsledkem transkripce je nepřesný obsah plný gramatických chyb a nesmyslných projevů různých osobností. Je-li audio nahrávka umístěna v archivu, je možné provést korekturu její textové podoby vzniklé rozpoznáním. Uživatelů se zájmem o archivní informace je však málo. Jejich podstatná část preferuje okamžitou transkripci aktuálně vysílaných informací.

4.5.2. Rozhovor dvou a více mluvčích v reálném čase

Dalším problematickým bodem je automatické rozpoznání promluvy dvou a více mluvčích během rozhlasového vysílání. Veškeré zkoumané aplikace ASR nepodporují přenos řeči více osob snímané různými mikrofony do jedné aplikace v reálném čase, počítají pouze s jedním mikrofonem.

Je možné použít směšovač, přesnost takového automatického rozpoznání je však nízká, protože aplikace při analýze mluveného projevu porovnávají aktuálně získanou promluvu s těmi předchozími.

Oproti tomu je možné, aby více přepisovatelů zachytilo komunikaci několika osob, čímž je zaručena přesnější transkripce řeči. Využívají přitom v reálném čase jedné webové aplikace. Případně může rozhovor zachytit i jeden přepisovatel, který při změně hovořící osobnosti uvede její jméno.

4.5.3. Časté vyčerpání kapacity operační paměti

Při praktickém testování obou aplikací (Newton Dictate, NovaVoice) bylo zjištěno, že automatické rozpoznávání řeči v reálném čase zapříčiňuje výrazné zpomalení transkripce do textové podoby, a to i o několik minut. Obecně je možné přijmout zpoždění do pěti sekund, testování obou aplikací však potvrdilo zpomalení o jednu minutu v případě desetiminutové promluvy během rozhlasového vysílání.

(21)

21

4.5.4. Použití hlasových příkazů při rozhlasovému vysílání

Výsledek rozpoznání mluveného projevu je u obou aplikací ASR (Newton Dictate, NovaVoice) předán uživateli v textovém editoru bez jakéhokoliv formátování. Text postrádá interpunkci a není dělen do vět, ani odstavců, je tedy obtížně čitelný a informace v něm nejsou tematický rozděleny. Obecné řešení tohoto problému neexistuje. Obě zkoumané aplikace (Newton Dictate, NovaVoice) však nabízejí uživateli ve svém slovníku i slova, jejichž vyřčením je možné přidat nový odstavec, řádek či interpunkci pro oddělení vět a jejich částí. NovaVoice navíc vyžaduje, aby uživatel po vyřčení hlasového povelu zajišťujícího formátování textu udělal ve své promluvě pauzu minimálně jednu vteřinu. Problémy mohou nastat, používá-li mluvčí ve svém projevu pojmy, které nemá zájem interpretovat jako hlasové povely. V takovém případě může v nastavení vypnout ovládání pomocí hlasových příkazů. V neposlední řadě je samozřejmé, že vyslovení hlasových povelů k zajištění formátování rozpoznaného textu není přirozenou součástí rozhlasového vysílání a bude slyšící posluchače mást a znepříjemňovat sledování řeči.

Naproti tomu přepisovatel může s pomocí klávesnice jednoduše formátovat zapsaný text během svého výkonu, a to i v situaci, kdy hovoří více osob najednou. Sluchově postižení potřebují informace v textové podobě nejen kvalitně reprodukované, ale i přehledně zapsané bez ohledu na nastavení vlastností fontu či pozadí textu, které si mohou v aplikaci měnit sami.

4.5.5. Adaptace mluvčích při rozhlasovému vysílání

Každý člověk má svůj vlastní hlas. Není však jednoduché automaticky rozpoznat už pohlaví mluvčího. Pro garanci vysoké kvality rozpoznání by bylo ideální, kdyby v průběhu rozhlasového vysílání mluvil jeden a tentýž člověk, čímž by byla zajištěna dokonalá adaptace aplikace ASR na jeho hlas. Je však logické, že takto rozhlasové vysílání nefunguje – střídají se v něm mluvčí, kteří nejen samostatně informují, ale i uskutečňují rozhovory na témata z různých oblastí. Šance na adaptaci hlasů všech mluvčích je tedy nulová.

V případě rozpoznání řeči, která je archivována v uložených audio nahrávkách, jsou programy ASR jednoznačně použitelné. Je totiž prostor pro adaptaci hlasu mluvčích a další rozpoznání do textové podoby je tak přesnější. Transkripce rozhlasového vysílání do textové podoby s pomocí aplikací ASR v reálném čase však nedosahuje kvality manuálního přepisu.

5. APLIKACE PRO VIZUÁLNÍ ZPŘÍSTUPNĚNÍ MLUVENÉ ŘEČI V REÁLNÉM ČASE

Přepis mluvené řeči v reálném čase mohou zajišťovat přepisovatelé fyzicky přítomní na místě hovoru – naslouchají mluvenému projevu a podle pravidel, která se v jednotlivých zemích pro tuto profesi teprve ustalují, simultánně převádějí text do psané podoby pomocí textového procesoru; výsledek své

(22)

22 činnosti sdílejí s koncovým uživatelem technologicky různým způsobem. Alternativou této možnosti je online přepis na dálku.

Nabídku simultánního přepisu mluvené řeči nabízejí v určité míře všechny organizace zaměřené na sluchově postižené. Každá organizace má svůj způsob a svůj systém zajišťování přepisu, ať už jde o práci přepisovatele, nebo o sledování přepisů na straně uživatele. Nejvíce využívané jsou služby, které nabízí ČUN Praha, Středisko Teiresiás [22] a UNB Brno.

Technické parametry tohoto servisu jsou stereotypně známé: přepisovatel naslouchá mluvené řeči a simultánně přepisuje text na zařízení, které je připojeno k individuálnímu displeji, k velkoplošné obrazovce nebo promítacímu plátnu mnoha různými způsoby: kabelem VGA, HDMI, pomocí bezdrátového připojení Wi-Fi k zapojení do sítě Wi-Di, nebo pomocí dataprojektoru.

Zcela odlišné řešení představuje online přepis pomocí automatického rozpoznávání řeči (ASR, automatic speech recognition), zpravidla s využitím tzv. stínového mluvčího pro eliminaci chyb vznikajících při plně automatizovaném provozu. Tuto technologii využívá např. Česká televize ve spolupráci se Západočeskou univerzitou za účelem automatického titulkování pořadů.

Část 4.1 této kapitoly bude zaměřena na analýzu technologií, které pro simultánní přepis textu používají tři české instituce, které se této činnosti profesionálně věnují.

Část 4.2 se zaměřuje na zpřístupnění mluveného textu prostřednictvím překladu, resp.

tlumočení, a věnuje se analýze aplikací pro sdílení videí s textem v českém znakovém jazyce v reálném čase – cílem této části bylo ověřit, jaký je postoj komunity sluchově postižených k existujícímu softwaru.

5.1. Přenos psaného textu

Je důležité analyzovat přenos psaného textu, protože na přenos textu mezi přepisovateli a uživateli za účelem vizualizace mluvené řeči v reálném čase existují různé způsoby. Je především velmi důležité, jak funguje získávání informací v reálném čase a komunikace mezi přepisovateli a uživateli, jaké připojení vyžaduje používaná aplikace a jakou má uživatel možnost nastavit technické parametry přenosu. Ideální je taková aplikace, která dává uživatelům, kteří sledují přepis textu, možnost měnit nastavení, tj. přizpůsobit zobrazený přepis, a dále možnost sledovat přepis v reálném čase současně s vlastním surfováním na Internetu, aniž by přitom vznikaly zvláštní nároky na typ internetového připojení nebo spojení s přepisovatelským centrem.

5.1.1. Polygraf

Polygraf [23] je jako speciální aplikace vytvořená ve Středisku pro pomoc studentům se specifickými nároky Masarykovy univerzity (dále Středisko Teiresiás). Aplikace slouží primárně

(23)

23 k distribuci přepisů mluveného slova k více uživatelům současně, případně i k jednomu uživateli bez toho, aby se sluchově postižený fyzicky vázal na přepisovatele a displej jeho stroje. V původní verzi byl Polygraf určen výhradně pro osoby se sluchovým postižením, v nynější verzi navíc zajišťuje také individuální přístup k vizuální prezentaci pro osoby se zrakovým postižením a ukazuje se jako velmi praktický během konferencí a dalších veřejných akcí, kde problém se sledováním mluveného slova či obrazu mívají i osoby, které v běžném životě postižení nepociťují.

Důležité je, že není potřeba připojení k Internetu. Uživatel má možnost měnit nastavení vizuálních parametrů pro sledování textu na displeji (míra zvětšení nebo zmenšení, barva textu a pozadí apod.). Další funkcí je oboustranná komunikace, tedy možnost sluchově postiženého oslovit přepisovatele pomocí chatu, a v případě dohody tak používat hlas přepisovatele k vlastní aktivní komunikaci se slyšícím (pokud sluchově postižený nemá možnost nebo nechce vlastní hlas na veřejnosti použít).

Díky vytvořenému vlastnímu uzavřenému bezdrátovému spojení jsou vysílána signálem data, k nimž se mohou dostat uživatelé, kteří jsou připojení k danému uzavřenému bezdrátovému kanálu prostřednictvím zařízení pro sledování přepisu (vlastní tablet či chytrý telefon). Aplikace má omezený výběr jednoho Wi-Fi připojení, což přináší určitá omezení. V dnešní době je mnoho lidí, kteří mají různá mobilní zařízení s možností přenosu dat, a pokud by aplikace Polygraf ve větší míře podporována, určitě by to pro sluchově postižené bylo ideální.

Při zkoumání podmínek na různých vysokých školách, vyšších odborných školách i v jiných organizacích byla komunita sluchově postižených příjemně překvapena, když zjistila, jak jedinečné služby aplikace Polygraf poskytuje – hodnotí ji jako nejlepší aplikaci pro distribuci přepisu. Aplikaci je možné do vlastního zařízení se systémem Android či iOS stáhnout z internetového obchodu, kde se nabízí zdarma klientská část pro uživatele sledujícího přepis. Výhodou je nezávislost vlastní bezdrátové sítě na dostupnosti Internetu, což umožňuje mnohem širší veřejnosti, aby aplikace byla využita i v méně příznivých technických podmínek. Negativum představuje vazba aplikace Polygraf na textový procesor Microsoft Word verze 2003 a novější, pod operačním systémem Microsoft Windows.

5.1.2. eScribe

Česká unie neslyšících, oblastní organizace Praha (dále ČUN Praha), realizovala projekt s názvem Simultánní přepis mluvené řeči, který podpořila Nadace Vodafone Česká republika a částečně také Ministerstvo práce a sociálních věcí. Na něj navazuje projekt eScribe, který je nadále podporován Nadací Vodafone Česká republika a částečně Magistrátem hlavního města Prahy.

(24)

24 Vlastním řešitelem projektu je České vysoké učení technické v Praze (dále ČVUT) jako partner ČUN Praha. Na webové stránce http://www.escribe.cz/ se uvádějí o projektu tyto informace [24]:

Projekt eScribe je zaměřen na odbourávání komunikačních barier neslyšících a je přímým navázáním na již podpořený projekt Simultánní přepis mluvené řeči (rychlopísaři přepisují přednášku / konferenci do textu, který je promítán na plátno, popř. monitor neslyšících). Cílem je vytvořit široce dostupné online přepisovací centrum, čímž se zlevní a zefektivní práce rychlopísařů. Ideou projektu je nahradit rychlopísaře automatem na rozpoznávání řeči, což bude náplní následného pokračování.

V rámci tohoto projektu se budou porovnávat výsledky písařů s možnostmi současných rozpoznávačů řeči. Výstupem bude online přepisovací centrum a odborná studie náročnosti přizpůsobení současných rozpoznávačů řeči potřebám neslyšících.

Aplikace umožňuje přepisovateli, aby se nevázal na místo konání akce a přepis v reálném čase zajišťoval z domu nebo z místa, kde je nižší zvukové rušení a lepší technické zázemí. Pro sledování takto vytvářeného přepisu je nutné, aby se sluchově postižený uživatel připojil k síti Internet prostřednictvím jakéhokoliv zařízení s libovolným webovým prohlížečem.

Instalace softwaru, který používá přepisovatel centra eScribe, je náročná – jde o instalaci programu X-lite [25] do operačního systému Microsoft Windows, další podmínkou je nainstalovaný textový procesor Microsoft Office Word a nastavené zabezpečení povolující spouštění maker.

Službu eScribe využívají specializované přepážky Poštovní spořitelny, některé pobočky České pošty (v případě úspěšnosti pilotního provozu by se služba rozšiřovaly na všechny pobočky), dále ERA, kamenné obchody Vodafone, kde sluchově postižení mohou komunikovat přes eScribe, pokud nemají zajištěné tlumočení českého znakového jazyka, a také v České spořitelně na vyhrazených omezených označených „online přepis“.

5.1.3. Transkript online s.r.o.

Společnost, která jako profesionální službu na českém území nabízí online přepis s využitím projektu eScribe, funguje jako podnikatelský subjekt v ČR od roku 2012. Nabízí službu nejen pro individuální klienty, pro neziskovou organizaci i pro komerční firmy, které o přepis online požádají.

O kvalitě svých přepisovatelů uvádí [26]:

Naši zkušení přepisovatelé Vám pomocí těchto aplikací, klávesnice a hbitých prstů přepíší vše doslova. Jsou to držitelé mistrovské státní zkoušky ze psaní na klávesnici, disponují několikaletými zkušenostmi v praxi. Jejich rychlost psaní při vynikající přesnosti přesahuje 500 úhozů za minutu. Jsou pochopitelně vázáni etickým kodexem a mlčenlivostí.

(25)

25 Společnost vytvořila aplikaci eScribeDroid, kterou lze použít online přepis v reálném čase na dálku v lokalitách pokrytých mobilním signálem 3G nebo bezdrátovou sítí a slouží pro osoby se sluchovým postižením. Aplikace bohužel podporuje pouze mobilním operační systém Google Android. Pro využití k osobním účelům je měsíčně zdarma až 100 minut online přepisu, bohužel jen v omezené časové době, ve všedních dnech od 9.00 do 18.00 hodin.

Aplikace eScribeDroid nabízí nejen přepis v reálném čase, ale také náhled do archivu přepisů.

5.2. Přenos videa v českém znakovém jazyce

Cílem analýzy dostupných aplikací zajišťujících multimediální komunikační služby je zjistit, jakou aplikaci a z jakého důvodu v praxi využívají právě osoby se sluchovým postižením pro přenos videohovoru v českém znakovém jazyce. Podmínkou je, aby byla možnost streamování živého vysílání videa v reálném čase a možnost archivace videa s vysílaným záznamem, obojí zdarma.

Dalším požadavkem je, aby video bylo možné co nejjednodušším způsobem sdílet mezi tlumočníkem českého znakového jazyka a koncovým uživatelem, tedy bez nutnosti náročného nastavení parametrů přenosu. Hlavní pozornost se zaměřuje na výběr rozlišení a formátu videa, v závislosti na rychlosti připojení a na individuálním požadavku na kvalitu videa, který může souviset se složitostí sdělení, s tlumočníkem apod. Video ve formátu HD je pro komunitu sluchově postižených ideálním řešením pro pochopení informací v českém znakovém jazyce.

5.2.1. ooVoo – analýza

ooVoo [27] je multimediální software, který poskytuje komunikační služby, jako je proprietární videochat a instant messaging, na platformách operačních systémů Microsoft Windows, v rozhraní Facebooku, Apple MacOSX a mobilních operačních systémů Google Android a Apple iOS.

Škála nabízených služeb je podobná jako u Microsoft Skype. Umožňuje registrovaným uživatelům (identifikovaným pomocí adres elektronických pošt) komunikovat prostřednictvím zasílání rychlých zpráv, textového chatu, telefonních hovorů, videochatu (včetně sdílení souborů a záznamu videohovoru v rozlišení HD) a videokonferencí bez jakýchkoliv poplatků. Tarif „Free“ nabízí videochat, textový chat v reálném čase, videokonference maximálně dvanáct klientů současně a internetové telefonní hovory. Placený tarif v cenové hladině okolo 30 USD ročně nebo 3 USD měsíčně nabízí komunikaci bez reklamních bannerů, lepší technickou podporu a dovoluje ukládat nahrané video maximálně do 1000 minut.

Hodnocení tohoto programu ze strany sluchově postižených je velmi pozitivní – zvláště u neslyšících, kteří se komunikují českým znakovým jazykem, jde o software velmi využívaný ve všech věkových kategoriích. Ve světovém měřítku službu používá více než 80 miliónů lidí, především proto, že nabízí velmi kvalitní aplikaci pro videohovory.

(26)

26 Unie neslyšících Brno, o. s., APPN, ASNEP¹ i další organizace, které se zaměřují na tlumočení z a do českého znakového jazyka, využívají tento software jako hlavní komunikační program.

Problém představuje přenos dat k uživateli a od uživatele s ohledem na rychlost připojení k Internetu. Pokud kolísá přenosová rychlost, pak může dojít ke ztrátě kvality obrazu. A právě ztráta kvality videa je primární problém u sluchově postižených kvůli srozumitelnosti.

5.2.2. Microsoft Skype – analýza

Microsoft Skype [28] je nejznámější a nejvyužívanější program na základě proprietární řešení.

Nabízí klientům registrovaným pomocí ID účtu Microsoftu nebo adresy elektronické pošty možnost vzájemně telefonovat zdarma. Za poplatek je možné komunikovat mezi účtem Skype a telefonními sítěmi (ať už na pevné linky, nebo do mobilních sítí). Skype ovšem nabízí nejen telefonii, ale i další speciální služby, jako je instant messaging a zasílání rychlých zpráv. Placený tarif Premium nabízí skupinový videohovor až pro 10 lidí. Nyní Microsoft začíná nabízet zlepšenou verzi Skype TX – jedná se o spojení televizního studia s komunikační službou, včetně specializovaného hardwaru.

Porovnávat Skype s programem ooVoo nelze, protože Microsoft Skype podporuje mnohem více operačních systémů, například Windows Phone a Linuxu, a také dalších speciálních vstupních zařízení, například Playstation Vita, televizních zařízení podporující Smart TV.

...negativem je, že Skype se 443 miliony uživatelů je docela vytížená síť a dochází k častým výpadkům a ztrátám paketů, což se projevilo i na videokonferenci 1:1. Pro větší počet účastníků by se tyto problémy kumulovaly. Kvalita videa je obdobná jako u ooVoo. [29]

V dnešní době je registrovaných uživatelů mnohem více, patrně více než miliarda.

Pro sluchově postižené býval Skype primárním komunikačním nástrojem pro videohovory, jenomže už několik let se objevují výpadky spojení kvůli vytíženosti sítě. V současné době získává neslyšící uživatele zpět kvůli zlepšené obrazovce formátu HD, která je nakonec lepší než u ooVoo.

Komunita sluchově postižených je přesvědčena o perspektivnosti programu Skype – Microsoft se zjevně snaží zvýšit jeho efektivitu.

5.2.3. Camfrog – analýza

Camfrog je multimediální software známý jako videokonferenční systém, který nabízí chatovací místnosti nastavené uživateli. Podporuje operační systémy Microsoft Windows, Apple MacOSX, mobilní zařízení a webové rozhraní Facebooku. Stávajících uživatelů Camfrogu je okolo 140 000

1 Asociace organizací neslyšících, nedoslýchavých a jejich přátel – více viz na <http://www.asnep.cz/>.

(27)

27 uživatelů denně [30]. Nabídka pro uživatele je pestrá: instant messaging, zasílání textových zpráv, sdílení souborů, založení multiuživatelských videokonferencí, kam se může připojit na jedné místnosti až do 1000 uživatelů současně. Je možné sdílet video na webovém rozhraní YouTube a s videem v programu Camfrog. Další speciální funkci nabízí „Super Fast Video“ – je možné sledovat a vysílat či streamovat videa ve vysoce kvalitním videu. Problém mohou mít uživatelé tohoto programu s pomalým připojením.

Placený tarif stojí okolo 45 USD za rok, po aktivaci placeného tarifu je možné v chatovací místnosti otevřít více oken současně, dále lze libovolně měnit rozměr obrazovky videa, vyhledávat uživatele v chatovací místnosti, připojit se pomocí vzdálenému přístupu a sledovat webovou kameru, ostatní funkce jsou podobné jako u ooVoo a u Microsoft Skype.

Společnost Camfrog Server se nakonec rozhodla vytvořit vestavěnou funkci pro neslyšící uživatele (Camfrog Deaf Video Chat), neboť zjistili, že neslyšící uživatelé software používají ke komunikaci prostřednictvím videochatu. Neslyšící uživatelé jsou zařazeni do seznamu TOP chatovacích místností „Deaf“. Camfrog Server této chatovací místnosti nastavil automatické výchozí nastavení, které blokuje zvuk, aby slyšící nemohli do chatovací místnosti „Deaf“ vstupovat. Camfrog poskytuje vysoce kvalitní služby pro neslyšící kvalitou obrazu a má mezi neslyšícími velký respekt.

Chatovací místnost Camfrog může být obsahově nevhodná pro nezletilé, rodiče proto musejí kontrolovat nezletilé děti, které využívají tuto službu.

Čeští neslyšící začali používat Camfrog původně jako nejlepší komunikační program, později dali přednost konkurenci, např. ooVoo a Microsoft Skype. Důvodem pro vyhledávání jiných softwarových řešení byla snaha získat sledování a vysílání webových kamer s menšími výpadky a kvalitním videem.

5.2.4. Google Hangouts a Google Hangouts Air – analýza

Google Hangouts [9] je webová aplikace nabízející služby instant messaging, video chat, videokonference či založení skupinových konverzací s více lidmi. Pro komunitu sluchově postižených je velkou novinkou. Její základní výhodou je nezávislost na platformě, uživatelé jakéhokoliv počítače či mobilního zařízení spolu mohou komunikovat, není třeba instalovat speciální software určený pro konkrétní typ operačního systému.

Nabízí jednoduché ovládání, pro pozvání člověka do konverzace stačí kliknout na fotografii v jeho profilu. Členové komunity sluchově postižených tuto webovou aplikaci vyzkoušeli a byli spokojeni. Ocenili ji jako nástroj s nejlepším video streamingem a rychlým zahájením skupinových konverzací a videokonferencí. Před zahájením prvního videohovoru je nutné jednorázově nainstalovat plugin pro zajištění podpory všech funkcí aplikace v konkrétním prohlížeči daného operačního

(28)

28 systému, zkontrolovat nastavení kamery a mikrofonu a nastavit rychlost připojení u zařízení, které bude pro komunikaci využito.

Google nedávno nabídl k použití zdarma další aplikaci Hangouts On Air [31], o kterou se lidé se sluchovým postižením začali ihned zajímat. Umožňuje video streaming z jakéhokoliv zařízení připojeného k internetu na veřejný profil u Google+ či kanál YouTube, navíc mohou uživatelé vytvořit sdílený odkaz na svých webových stránkách ve formátu embed code. Po ukončení streamování je záznam uložen na YouTube a dostupný i na sociální síti Google+, přičemž je možné jej sdílet prostřednictvím aplikace Google Hangouts On Air. Uživatelé serveru YouTube mohou sledovat video streaming komunikace lidí z celého světa, mají k dispozici program živých přenosů a díky aplikaci Google Calendar si mohou sestavit plán sledování. Google Hangouts nabízí zdarma i další užitečnou funkci Vzdálená plocha, pomocí níž může osoba sdílet plochu svého počítače jiným uživatelům. Je tak možné například vzdáleně spravovat cizí počítač.

5.2.5. Ustream – analýza

Ustream [32] je webová aplikace sloužící pro streamování videa v živém přenosu nebo pro vysílání záznamu videa prostřednictvím sítě Internet. Po přihlášení pomocí existující adresy elektronické pošty nebo založeného uživatelského účtu u této webové aplikace je možné se připojit s jakoukoliv videokamerou a vysílat se širokým výběrem typů rozlišení včetně HD i Full HD. Uživatel má možnost založit kanál plánovaného streamingu živého vysílání v reálném čase a nabízet své video v tomto kanále, případně v některém z již existujících kanálů, a tyto kanály lze dělit do různých kategorií. Uživatelé, kteří chtějí sledovat nějaký video streaming, mohou použít nejrůznější hardwarová zařízení, například všechny typy zařízení Apple a Android, televizory, přehrávače médií apod. Uživatelé mohou také o médiích diskutovat současně s tím, jak je sledují. Lze živě vysílat z jakéhokoliv počítače s použitím bezplatného softwaru pro streamování videa.

Nabízí se 3 typy tarifů. Tarif Pro Broadcasting je do 30 dnů zdarma, aby mohli uživatelé otestovat, zda jim služba vyhovuje. Po 30 dnech testování se pak mění na tarif Pro Plans ve verzi Silver, Gold nebo Platinum. U všech verzí tarifu Pro Plans lze vybrat, kolik návštěvníků může sledovat určitý kanál, další nastavení se týká různých doplňkových služeb, například vložení kódů, editace vestavěných kódů, editace a nastavení kanálu.

Funkci Pro Broadcasting využívají registrovaní uživatelé hlavně v oblasti obchodu, koncertů, konferencí a pro podobné účely, kde mohou video sledovat vysoké počty zájemců. Pro registrované uživatele jde o velmi jednoduchý a efektivní způsob přenosu videa. Další speciální funkcí je LiveAd:

uživatel může ke svému živému vysílání nebo k nahranému videu nechat přidat reklamu pro svou cílovou skupinu (např. před zahájením živého vysílání), a tak získat určitou částku na základě dohody s provozovatelem aplikace. Vývojáři mohou pracovat s rozhraním API a vytvořit svou vlastní aplikaci.

(29)

29 Pomocí JavaScript Player API lze přizpůsobit ovládací prvky a jejich rozvržení, nastavení datového spojení apod. Vestavěný kód je možné editovat (např. velikost okna, šablonu přehrávače, ochranu heslem před spuštěním), lze vytvořit vlastní stránku kanálu Ustream nebo ji propojit s rozhraním Facebooku a Twitteru.

Společnosti Panasonic, Logitech, Samsung a Teradek mají certifikované vysílání, vlastní API a vlastní aplikaci pro kamery a enkodery s přímým napojením na Ustream.

Pro všechny uživatele se nabízí ke stažení aplikace Ustream Producer, která slouží pro řízení streamingu, ať už v živém přenosu, nebo ze záznamu v počítači: je možné nastavit HD kvalitu, přepínat mezi několika kamerami, lze snímat obrazovku, přehrávat soubory ve formátech VOD.

Je podporováno spojení FireWire, HDMI a HD či SD kamer.

Aplikace Ustream na zařízeních Applu (iPhone, iPad) a zařízeních se systémem Android umožňují streamovat videa v živém přenosu kdekoli. Podporují vysílání na bázi internetového připojení 3G, 4G/LTE a Wi-Fi. Díky technologii 4G a LTE sítím vzrostly možnosti pro streaming videa v mobilním zařízení.

V komunitě sluchových postižených, zvláště těch, kteří jsou zvyklí sledovat přímý přenos sportovních vysílání, se webová aplikace Ustream běžně používá.

5.2.6. Apple FaceTime – analýza

Aplikace Apple FaceTime [33] funguje pouze na platformě operačního systému Apple MacOSX a mobilního operačního systému Apple iOS: umožňuje pomocí mikrofonu a webkamery telefonovat či navázat videohovor. Jde tedy o podobnou službu, jakou nabízí Microsoft Skype.

Funguje pouze ve všem zařízení typu Apple, tedy na počítačích Mac a na mobilních zařízeních iPod, iPad nebo iPhone. Službu FaceTime lze aktivovat buď pomocí mobilního čísla poskytovaného mobilním operátorem, nebo na základě registrovaného účtu Apple ID, a pak lze kdykoli a kdekoli připojit na jakékoliv komunikační zařízení firmy Apple. Aplikace FaceTime je kompatibilní s vestavěnou kamerou FaceTime. Při komunikaci pomocí videohovorů je logicky potřeba se připojit k síti Internet buď pomocí Wi-Fi, nebo na datovém přenosu 3G, 4G/LTE, který podporují novější mobilní zařízení.

Prozatím fungují videohovory jen pro spojení dvou účastníků pouze s maximálním rozlišením 720p, přirozeně také v širokoúhlém formátu obrazovky 16:9. Přehled technologií, které používá Apple, uvádí [34]: AAC (Advanced Audio Codec) pro hlas, populární H.264 pro video (nejsou zdarma, ale jsou standardizované, np. Skype používá vlastní proprietární řešení), SIP pro iniciaci hlasového volání, RTP a SRTP pro přenos dat a řadu technologií (STUN, TURN a ICE) pro