Možnosti zlepšení strojového překladu z angličtiny do češtiny

(1)

Prezentace k obhajobě diplomové práce

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Martin Popel

14. září 2009

(2)

●

TectoMT

●

Anotace překladových chyb

●

Jednotlivá vylepšení

●

Analýza

●

Transfer

●

Syntéza

●

Vyhodnocení

(3)

TectoMT

●

Modulární framework pro úlohy zpracování přirozeného jazyka

●

základní jednotka = blok

●

Překladový systém s transferem přes tektogramatickou rovinu

morfologická rovina

analytická rovina

tektogramatická rovina

a-layer

m-layer

ANALÝZA TRANSFER SYNTÉZA

t-layer

(4)

TectoMT

●

Modulární framework pro úlohy zpracování přirozeného jazyka

●

základní jednotka = blok

●

Překladový systém s transferem přes tektogramatickou rovinu

morfologická rovina

analytická rovina

tektogramatická rovina

a-layer

m-layer

ANALÝZA TRANSFER SYNTÉZA

tagger (Morče)

parser (McDonald MST) analytické funkce

označení hran ke kontrakci stavba t-stromu

formémy gramatémy ... HMTM ...

t-layer

(5)

Anotace překladových chyb

příklad

SRC: The vote on it will take place

at the beginning of next week.

REF: Hlasovat se o něm bude

počátkem příštího týdne.

TST: Hlas o tom vezme místo

na začátku dalšího týdne.

(6)

AIM: Hlasování o tom se bude konat

TST: Hlas o tom vezme místo

Anotace překladových chyb

příklad

(7)

AIM: Hlasování o tom se bude konat

TST: lex-trans::Hlas o tom phrase-x::vezme místo

Anotace překladových chyb

příklad

(8)



Type

lex, form, gram, phrase, order,...



Subtype

gram: gender, person, tense,...



Seriousness

serious, minor



Source

tok, lem, tagger, parser, tecto, trans, x, syn, ?



Circumstances

coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chyb

Anotace překladových chyb

vyhodnocení

ANALÝZA 30%

SYNTÉZA 3%

TRANSFER 67%

chyby způsobené neizomorfismem 8%

ostatní chyby v transferu 59%

(9)

Vylepšení

1. analýza



Drobné úpravy tokenizace a tagování



Nová (rychlejší) lemmatizace



Parsing

 parenthese se parsuje odděleně od zbytku věty

 pravidlové bloky pro opravu chyb



Přidán blok vyplňující analytické funkce



Nová implementace budování t-roviny

(10)

Vylepšení

2. transfer



Modulární strategie transferu (10 nových bloků)



Pravidla pro slovesný vid, číslovky,...



Hidden Markov Tree Model (HMTM)

 překlad lemmat a formémů současně

 zapojen target-language tree model funkce obdobná jazykovému modelu

 Tree-modified Viterbi algorithm

najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu

(11)

machine engine

translation arcade

be have

easy simple

strojový překlad

být

snadný ROOT

PE(strojový | engine) = 0.5 PE(strojový | machine) = 0.4

P_E(překlad | translation) = 0.6 P_E(překlad | arcade) = 0.7

1×10^-8

P_T(machine | translation) = 0.02 ^1×₁₀ _1×10^-8

-10

0.0001

0.002 0.001

0.01 P_E(být | be) = 0.8

P_E(být | have) = 0.01

1×10

-8

Source tree (Czech) Target tree (English)

ANALYSIS

TRANSFER

SY NTH

ES IS ROOT

Source sentence:

Strojový překlad by měl být snadný.

Target sentence:

Machine translation should be easy.

P(optimal_tree) = P_E(strojový | machine) · P_T(machine | translation)·

P_E(překlad | translation) · P_T(translation | be)·

P_E(snadný | easy) · P_T(easy | be)·

P_E(být | be) · P_T(be | ROOT)

Vylepšení

2. transfer – ilustrace HMTM

(12)

Vylepšení

3. syntéza



Upraveno dělení věty na klauze, vkládání interpunkce



Přidán morfologický model

 nalezení slovního tvaru pro dané lemma s daným omezením na tag

 některé pozice tagu po překladu neznáme,

netřeba je specifikovat, vybere se nejčastější tvar

 trénováno na korpusu SYN (500 milionů slov)

(13)

Vyhodnocení

NIST BLEU

3,974 0,066

po úpravách 4,716 0,098

baseline (WMT09)



2777 vět z WMT2009 (news-test2009)



1 referenční překlad



Hlavní podíl na zlepšení mají

1. HMTM (a související úpravy transferu)

(14)

Ukázka překladu

SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art

MT systems such as open source Moses.

TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art

MT systémy otevřených zdrojových Mojžíšů.

(15)

Připomínky oponenta

●

Intervaly spolehlivosti BLEU

●

Lemmatizace

●

víceznačnost vstupu

●

vyhodnocení

●

HMTM

●

„převěšování“ na efektivní rodiče

●

EM algoritmus

(16)

Připomínky oponenta

intervaly spolehlivosti BLEU

●

Paired Bootstrap Resampling

● Koehn, 2004: ”If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance.”

● Zhang et al, 2004: ”From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant.”

Zhang 95% ~ Koehn 97,5%

(17)

Připomínky oponenta

intervaly spolehlivosti BLEU

● 2777 vět, resampling na 1000 vzorků, α = 0.05

● 52 variant systému, z toho jen 6 nesignifikantních zlepšení:

Fix_tags_after_parse 0.0000 (-0.0000 ... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000 ... 0.0003) Fix_is_member 0.0001 (-0.0001 ... 0.0005) Impose_subjpred 0.0002 (-0.0001 ... 0.0005) Vocalize_prepositions 0.0001 (-0.0002 ... 0.0004) Concatenate_tokens 0.0001 (-0.0003 ... 0.0006)

● Ostatní zlepšení signifikantní, např.:

Translate_LF_tree_Viterbi 0.0130 (0.0107 ... 0.0156) Fix_tokenization 0.0008 (0.0005 ... 0.0013) Ascii_quotes 0.0085 (0.0072 ... 0.0098)

(18)

●

Většinu víceznačností rozhodne tag ...

● striking → {JJ=striking, VBG=strike}

● Bill → {NN=bill, NNP=Bill}

● 'd → {MD=would, VBD=have}

● found → {VB=found, VBD=find}

●

... některé ale ne (alespoň ne PennTB)

● 's → {VBZ=be, VBZ=have}

● links → {NNS=link, NNS=links} (spojení, golfová hřiště)

Rozhraní pro Lemmatizer je (form, tag)→(lemma, neg)

Připomínky oponenta

lemmatizace – víceznačnost vstupu

(19)

●

type accuracy 98.9%, token accuracy 99,8%

část BNC (87 milionů tokenů, 700 000 typů), ale

● lemmatizace v BNC není zcela manuální, obsahuje chyby

● odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...)

● jiný tagset (CLAWS vs. PennTB)

●

Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.

Připomínky oponenta

lemmatizace – vyhodnocení

(20)

Připomínky oponenta

HMTM



Jaký je efekt „převěšování“ členů koordinace na efektivní rodiče?

 Někdy pomůže, někdy uškodí. BLEU téměř stejné.

 Proč? Právě v parsingu koordinací bývá dost chyb.



Šlo by HMTM trénovat pomocí EM algoritmu?

 Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu.

 ale s komplikacemi:

 Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK).

 Implementace používá ”backward” i ”forward” model.

(21)

Ukázka překladu

Birds of a feather ﬂock together.

Great talkers are little doers.

As good be an addled egg as an idle bird.

A miss by an inch is a miss by a mile.

I’d rather be a hammer than a nail.

A bird in the hand is worth two in the bush.

Bread is the staff of life.

Ptáci v bederním hejnu spolu.

Velcí řečníci jsou malí vrazi.

Dobré je feťácké vejce jako činný pták.

Slečna palec

je slečna miliónu.

Spíše bych byl kladivo než nehet.

Pták v ruce je cenný dvakrát v Bushovi.

Chléb je zaměstnanec života.

(22)

Zdroje

● Philipp Koehn:

Statistical Significance Tests for Machine Translation Evaluation,

Proceedings of EMNLP, 2004

● Ying Zhang, Stephan Vogel, Alex Waibel:

Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System?

Proceedings of LREC, 2004

● Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon:

Computational Methods for Hidden Markov Tree Models – An Application to Wavelet Trees

IEEE Transactions on Signal Processing, 2004