• Nebyly nalezeny žádné výsledky

Strojový p°eklad a um¥lá inteligence

N/A
N/A
Protected

Academic year: 2022

Podíl "Strojový p°eklad a um¥lá inteligence"

Copied!
36
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Strojový p°eklad a um¥lá inteligence

Mgr. Martin Popel, Ph.D.

Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova

source Great talkers are little doers.

Yandex Velké talkers jsou trochu £initelé.

Bing Velcí vysíla£ky jsou malí £initelé.

Google Velcí mluv£í jsou malí lidé.

TectoMT Velcí °e£níci jsou malí vrazi.

Transformer Velcí mluvkové jsou malí d°í£i.

(2)

ƒím se zabývá po£íta£ová lingvistika?

2

(3)

Kontrola p°eklep· gramatiky

3

Dívce ne²ly hodinky.

Chlapci ²ly.

Kdo kam co donesl?

Chlapec ²li do ²koly.

(4)

Kontrola p°eklep· gramatiky

3

Dívce ne²ly hodinky. Chlapci ²ly.

Kdo kam co donesl?

Chlapec ²li do ²koly.

(5)

Kontrola p°eklep· gramatiky

3

Dívce ne²ly hodinky. Chlapci ²ly.

Kdo kam co donesl? Chlapec ²li do ²koly.

(6)

Kontrola p°eklep· gramatiky

3

http://ufal.cz/korektor

(7)

Automatické generování zpráv

4

zpráv p°ibývá (FB, Twitter), noviná°· ubývá, zisky klesají,

£tená°i cht¥jí zprávy personalizované a hned

(8)

Automatické generování poezie

5

http://quest.ms.mff.cuni.cz/verse/

Byl by to rytí°, kde v plán¥ h°ích vzlet,

V¥d¥ jsem jse seheldo na p°ídoutn¥ v sv¥t¥ si nezastavá:

Ukryjemné, chv¥la, milý nás jest Kolem jsou jest vyhrávaných A svítí co plá£em, rád pravil:

Ale plná jízdo zaporodilo se, vys.

jiº dávno vás poháru a vlanných rány, v jablon¥ní je pí²e je i v kristování,

srdce v své ºenských svém

v obly p¥tky tam a vzíti,

na kó¬ku je, milý sv¥ºek.

(9)

Automatické generování poezie

5

I'll come a bit later on my own.

Sem £elist je²t¥ na své milé.

(10)

Automatické generování poezie

5

I'll come a bit later on my own.

Sem £elist je²t¥ na své milé.

(11)

Detekce korupce £i emocí v textu

6

(12)

Automatický v¥tný rozbor

7

v¥tný rozbor dostupný pro 50 jazyk·

p°esnost pro £e²tinu asi 90% (85% v£etn¥ morfologie)

http://lindat.cz/services/udpipe/

(13)

Word embeddings

8

Umíte s£ítat a od£ítat £ísla?

A co slova a obrázky?

(14)

Word embeddings

8

král - muº + ºena = ?

(15)

Word embeddings

8

král - muº + ºena = královna Tomá² Mikolov, 2012, word2vec

https://projector.tensorflow.org/

(16)

Word embeddings

8

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Country and Capital Vectors Projected by PCA

China

Japan

France Russia

Germany

Italy

Spain Greece

Turkey

Beijing

Paris Tokyo

Poland

Moscow

Portugal

Berlin

RomeAthens

Madrid Ankara

Warsaw

Lisbon

(17)

Word embeddings

8

Czech + currency Vietnam + capital German + airlines Russian + river French + actress

koruna Hanoi airline Lufthansa Moscow Juliette Binoche

Check crown Ho Chi Minh City carrier Lufthansa Volga River Vanessa Paradis Polish zolty Viet Nam flag carrier Lufthansa upriver Charlotte Gainsbourg

CTK Vietnamese Lufthansa Russia Cecile De

(18)

Word embeddings

8

(19)

Word embeddings

8

(20)

Strojový p°eklad angli£tina → £e²tina 20072018

9

2006 2008 2010 2012 2014 2016 2018

0 0 . 2 0 . 4 0 . 6 0 . 8 1

relativní kvalita

PC-Translator TectoMT

nejlep²í

nejhor²í

(21)

Strojový p°eklad angli£tina → £e²tina 20072018

9

2006 2008 2010 2012 2014 2016 2018

0 0 . 2 0 . 4 0 . 6 0 . 8 1

relativní kvalita

PC-Translator TectoMT

Moses

nejlep²í

nejhor²í

(22)

Strojový p°eklad angli£tina → £e²tina 20072018

9

2006 2008 2010 2012 2014 2016 2018

0 0 . 2 0 . 4 0 . 6 0 . 8 1

relativní kvalita

PC-Translator TectoMT

Moses Google

nejlep²í

nejhor²í

(23)

Strojový p°eklad angli£tina → £e²tina 20072018

9

2006 2008 2010 2012 2014 2016 2018

0 0 . 2 0 . 4 0 . 6 0 . 8 1

relativní kvalita

PC-Translator TectoMT

Moses Google Chimera

nejlep²í

nejhor²í

(24)

Strojový p°eklad angli£tina → £e²tina 20072018

9

2006 2008 2010 2012 2014 2016 2018

0 0 . 2 0 . 4 0 . 6 0 . 8 1

relativní kvalita

PC-Translator TectoMT

Moses Google Chimera

NMT

nejlep²í

nejhor²í

(25)

Hloubkov¥-syntaktický p°eklada£ TectoMT

10

a-tree zone=en_src

ISb PRP

'dPred MD

rather AdvRB

beObj VB

aAuxA DT

hammer PnomNN

thanAuxP IN

aAuxA DT

nailAtr NN .AuxK .

t-tree zone=en_src

#PersPron ACT n:subj I

rather MANN adv rather

be.enunc PRED v:fin 'd be

hammer PAT n:obj a hammer

nailCPR n:than+X than a nail

t-tree zone=cs_tst

#PersPron ACT n:1 spíše

MANN adv Spíše

být.enunc PRED v:fin bych byl

kladivo PAT n:1 kladivo

hřebík CPR n:než+1 než hřebík

a-tree zone=cs_tst

Spíše

!!Dg bychAuxV Vc

byl!!

VpYSXRA kladivo

!!NNNS1

nežAuxP J,

hřebík

!!NNIS1 .AuxK Z:

I'd rather be a hammer than a nail. Spí²e bych byl kladivo neºh°ebík/nehet.

& blocks

source language (English) target language (Czech) morphological layer

analytical layer tectogramatical layer

a-layer

m-layer w-layer

ANALYSIS TRANSFER SYNTHESIS

t-layer

tokenization lemmatization tagger (MorphoDiTa)

dependency parser (MST) analytical functions

mark edges to contract build t-tree

fill formems grammatemes use

HMTM query dictionary

fill morphological categories impose agreement

add functional words generate wordforms

concatenate

rule based statistical

segmentation

(26)

Strojové u£ení: rysy pouºité v p°ekladovém modelu

11

output_label=h°ebík#N

feature λ

child_formeme_n:in+X=1 1.64 is_member_of_coord=1 1.30 child_formeme_v:n=1 1.04

next_lemma=down 0.84

is_capitalized=1 0.79 +precedes_parent=0 0.75

tense_g=post 0.74

+voice_g=active 0.66

prev_lemma=drive 0.66 parent_capitalized=1 0.62 formeme=n:from+X 0.60 +prev_lemma=hammer 0.59 child_lemma_few=1 0.55 child_lemma_remove=1 0.54

sempos=n.denot 0.50

next_lemma=and 0.50

formeme_g=v:until+n 0.49 child_lemma_rusty=1 0.47 . . .

(27)

Strojové u£ení: rysy pouºité v p°ekladovém modelu

11

output_label=h°ebík#N

feature λ

child_formeme_n:in+X=1 1.64 is_member_of_coord=1 1.30 child_formeme_v:n=1 1.04

next_lemma=down 0.84

is_capitalized=1 0.79 +precedes_parent=0 0.75

tense_g=post 0.74

+voice_g=active 0.66

prev_lemma=drive 0.66 parent_capitalized=1 0.62 formeme=n:from+X 0.60 +prev_lemma=hammer 0.59 child_lemma_few=1 0.55 child_lemma_remove=1 0.54

sempos=n.denot 0.50

next_lemma=and 0.50

formeme_g=v:until+n 0.49 child_lemma_rusty=1 0.47 . . .

output_label=nehet#N

feature λ

child_formeme_n:poss=1 1.32 child_lemma_nger=1 1.07 child_formeme_n:of+X=1 0.98 precedes_parent=1 0.88 prev_lemma=black 0.77 child_lemma_broken=1 0.76 child_formeme_v:attr=1 0.70

formeme=n:at+X 0.67

formeme_g=n:attr 0.67 child_lemma_long=1 0.67

next_lemma=le 0.60

child_lemma_false=1 0.58 prev_lemma=false 0.58

+number=sg 0.56

formeme=n:obj 0.53

formeme=n:by+X 0.52

. . .

(28)

Co je to?

12

(29)

40 GPU (GeForce GTX 1080 Ti, 12 miliard tranzistor·)

12

(30)

Um¥lá inteligence a její podobory/vývoj

13

um¥lá inteligence

∼ 1950

strojové u£ení

∼ 1980 hluboké u£ení

∼ 2010

(31)

Um¥lá inteligence a její podobory/vývoj

13

um¥lá inteligence

∼ 1950

strojové u£ení

∼ 1980 hluboké u£ení

∼ 2010

(32)

Neuronový p°eklada£ Transformer

14

(33)

Neuronový p°eklada£ Transformer

14

(34)

Vyhodnocení anglicko-£eského p°ekladu (WMT 2018)

15

Ave. % System 1 84.4 Transformer 2 79.8 Edinburgh

78.6 £lov¥k

4 68.1 Google

5 59.4 Bing

6 54.1 Yandex

(35)

Rizika strojového p°ekladu

16

(36)

Ukázky p°ekladu

17

source As good be an addled egg as an idle bird.

Bing Jako dobrý být popletený vejce jako ne£inný pták.

Google Jako dobrá být v£len¥ná vejce.

T2009 Dobré je fe´ácké vejce jako £inný pták.

T2018 Dob°í bu¤te plete vejce jako ne£inný pták.

Transformer Stejn¥ dobré je být pomateným vejcem jako zahálejícím ptákem.

source A miss by an inch is a miss by a mile.

Bing Miss o palec je Miss o míli.

Yandex Sle£na tím, ºe palec je vedle o míli.

Google Chyb¥jící palcem je míle vzdálená míle.

T2009 Sle£na palec je sle£na miliónu.

T2018 Sle£na palce je sle£na míle.

Transformer Minutí o centimetr je o kilometr.

Birds of a feather ock together.

Ptáci pe°í stáda dohromady.

Vrána k vrán¥ sedá.

Vrána k vrán¥ sedá.

Ptáci v bederním hejnu spolu.

Ptáci pé°ového hejna spolu.

Vrána k vrán¥ sedá.

Zkuste si Transformer sami:

http://lindat.cz/services/translation/

Odkazy

Související dokumenty

P ro um ělce byla největší překážkou p ři vytvoření pravé a historické podoby Ježíšovy okolnost, že se narodil, žil a zem řel v Palestině, kde

Keywords: artificial intelligence, constructivism, education, ethics, Turing machine Klí č ová slova: um ě lá inteligence, konstruktivismus, pedagogika, etika, Turing ů v

Kontrola p°eklep· gramatiky 3 Dívce ne²ly hodinky..

Bing Velcí vysílačky jsou malí činitelé.. Google Velcí mluvčí jsou

Bing Velcí vysílačky jsou malí činitelé.. Google Velcí mluvčí jsou

Zdá se, že zatímco pří- rodní vědy dospívají k přesným vý- sledkům, které často slouží jako zá- klad spolehlivého předvídání budouc- nosti, vědy

Rozumnost u Aristotela není tím nejlepším řešením, ale „nejlepším možným“, je nouzovým výcho- diskem: „Bylo by lepší, kdyby člověk nemusel být rozumný a kdyby mu

1888 František Kalivoda (starosta), Karel Kalivoda, Anton Bab ů rek, V. Brunner, Anton Fremund, Daniel Mašek, Josef Špeta, V.. Pohanka, Schejbal, Dr. policejní), Václav