Prezentace k obhajobě diplomové práce
Možnosti zlepšení strojového překladu z angličtiny do češtiny
Martin Popel
14. září 2009
●
TectoMT
●
Anotace překladových chyb
●
Jednotlivá vylepšení
●
Analýza
●
Transfer
●
Syntéza
●
Vyhodnocení
TectoMT
●
Modulární framework pro úlohy zpracování přirozeného jazyka
●
základní jednotka = blok
●
Překladový systém s transferem přes tektogramatickou rovinu
morfologická rovina
analytická rovina
tektogramatická rovina
a-layer
m-layer
ANALÝZA TRANSFER SYNTÉZA
t-layer
TectoMT
●
Modulární framework pro úlohy zpracování přirozeného jazyka
●
základní jednotka = blok
●
Překladový systém s transferem přes tektogramatickou rovinu
morfologická rovina
analytická rovina
tektogramatická rovina
a-layer
m-layer
ANALÝZA TRANSFER SYNTÉZA
tagger (Morče)
parser (McDonald MST) analytické funkce
označení hran ke kontrakci stavba t-stromu
formémy gramatémy ... HMTM ...
t-layer
Anotace překladových chyb
příklad
SRC: The vote on it will take place
at the beginning of next week.
REF: Hlasovat se o něm bude
počátkem příštího týdne.
TST: Hlas o tom vezme místo
na začátku dalšího týdne.
SRC: The vote on it will take place
at the beginning of next week.
REF: Hlasovat se o něm bude
počátkem příštího týdne.
AIM: Hlasování o tom se bude konat
na začátku dalšího týdne.
TST: Hlas o tom vezme místo
na začátku dalšího týdne.
Anotace překladových chyb
příklad
SRC: The vote on it will take place
at the beginning of next week.
REF: Hlasovat se o něm bude
počátkem příštího týdne.
AIM: Hlasování o tom se bude konat
na začátku dalšího týdne.
TST: lex-trans::Hlas o tom phrase-x::vezme místo
na začátku dalšího týdne.
Anotace překladových chyb
příklad
Type
lex, form, gram, phrase, order,...
Subtype
gram: gender, person, tense,...
Seriousness
serious, minor
Source
tok, lem, tagger, parser, tecto, trans, x, syn, ?
Circumstances
coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chybAnotace překladových chyb
vyhodnocení
ANALÝZA 30%
SYNTÉZA 3%
TRANSFER 67%
chyby způsobené neizomorfismem 8%
ostatní chyby v transferu 59%
Vylepšení
1. analýza
Drobné úpravy tokenizace a tagování
Nová (rychlejší) lemmatizace
Parsing
parenthese se parsuje odděleně od zbytku věty
pravidlové bloky pro opravu chyb
Přidán blok vyplňující analytické funkce
Nová implementace budování t-roviny
Vylepšení
2. transfer
Modulární strategie transferu (10 nových bloků)
Pravidla pro slovesný vid, číslovky,...
Hidden Markov Tree Model (HMTM)
překlad lemmat a formémů současně
zapojen target-language tree model funkce obdobná jazykovému modelu
Tree-modified Viterbi algorithm
najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu
machine engine
translation arcade
be have
easy simple
strojový překlad
být
snadný ROOT
PE(strojový | engine) = 0.5 PE(strojový | machine) = 0.4
PE(překlad | translation) = 0.6 PE(překlad | arcade) = 0.7
1×10-8
PT(machine | translation) = 0.02 1×10 1×10-8
-10
0.0001
0.002 0.001
0.01 PE(být | be) = 0.8
PE(být | have) = 0.01
1×10
-8
Source tree (Czech) Target tree (English)
ANALYSIS
TRANSFER
SY NTH
ES IS ROOT
Source sentence:
Strojový překlad by měl být snadný.
Target sentence:
Machine translation should be easy.
P(optimal_tree) = PE(strojový | machine) · PT(machine | translation)·
PE(překlad | translation) · PT(translation | be)·
PE(snadný | easy) · PT(easy | be)·
PE(být | be) · PT(be | ROOT)
Vylepšení
2. transfer – ilustrace HMTM
Vylepšení
3. syntéza
Upraveno dělení věty na klauze, vkládání interpunkce
Přidán morfologický model
nalezení slovního tvaru pro dané lemma s daným omezením na tag
některé pozice tagu po překladu neznáme,
netřeba je specifikovat, vybere se nejčastější tvar
trénováno na korpusu SYN (500 milionů slov)
Vyhodnocení
NIST BLEU
3,974 0,066
po úpravách 4,716 0,098
baseline (WMT09)
2777 vět z WMT2009 (news-test2009)
1 referenční překlad
Hlavní podíl na zlepšení mají
1. HMTM (a související úpravy transferu)
Ukázka překladu
SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art
MT systems such as open source Moses.
TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art
MT systémy otevřených zdrojových Mojžíšů.
Připomínky oponenta
●
Intervaly spolehlivosti BLEU
●
Lemmatizace
●
víceznačnost vstupu
●
vyhodnocení
●
HMTM
●
„převěšování“ na efektivní rodiče
●
EM algoritmus
Připomínky oponenta
intervaly spolehlivosti BLEU
●
Paired Bootstrap Resampling
● Koehn, 2004: ”If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance.”
● Zhang et al, 2004: ”From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant.”
Zhang 95% ~ Koehn 97,5%
Připomínky oponenta
intervaly spolehlivosti BLEU
● 2777 vět, resampling na 1000 vzorků, α = 0.05
● 52 variant systému, z toho jen 6 nesignifikantních zlepšení:
Fix_tags_after_parse 0.0000 (-0.0000 ... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000 ... 0.0003) Fix_is_member 0.0001 (-0.0001 ... 0.0005) Impose_subjpred 0.0002 (-0.0001 ... 0.0005) Vocalize_prepositions 0.0001 (-0.0002 ... 0.0004) Concatenate_tokens 0.0001 (-0.0003 ... 0.0006)
● Ostatní zlepšení signifikantní, např.:
Translate_LF_tree_Viterbi 0.0130 (0.0107 ... 0.0156) Fix_tokenization 0.0008 (0.0005 ... 0.0013) Ascii_quotes 0.0085 (0.0072 ... 0.0098)
●
Většinu víceznačností rozhodne tag ...
● striking → {JJ=striking, VBG=strike}
● Bill → {NN=bill, NNP=Bill}
● 'd → {MD=would, VBD=have}
● found → {VB=found, VBD=find}
●
... některé ale ne (alespoň ne PennTB)
● 's → {VBZ=be, VBZ=have}
● links → {NNS=link, NNS=links} (spojení, golfová hřiště)
Rozhraní pro Lemmatizer je (form, tag)→(lemma, neg)
Připomínky oponenta
lemmatizace – víceznačnost vstupu
●
type accuracy 98.9%, token accuracy 99,8%
část BNC (87 milionů tokenů, 700 000 typů), ale
● lemmatizace v BNC není zcela manuální, obsahuje chyby
● odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...)
● jiný tagset (CLAWS vs. PennTB)
●
Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.
Připomínky oponenta
lemmatizace – vyhodnocení
Připomínky oponenta
HMTM
Jaký je efekt „převěšování“ členů koordinace na efektivní rodiče?
Někdy pomůže, někdy uškodí. BLEU téměř stejné.
Proč? Právě v parsingu koordinací bývá dost chyb.
Šlo by HMTM trénovat pomocí EM algoritmu?
Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu.
ale s komplikacemi:
Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK).
Implementace používá ”backward” i ”forward” model.
Ukázka překladu
Birds of a feather flock together.
Great talkers are little doers.
As good be an addled egg as an idle bird.
A miss by an inch is a miss by a mile.
I’d rather be a hammer than a nail.
A bird in the hand is worth two in the bush.
Bread is the staff of life.
Ptáci v bederním hejnu spolu.
Velcí řečníci jsou malí vrazi.
Dobré je feťácké vejce jako činný pták.
Slečna palec
je slečna miliónu.
Spíše bych byl kladivo než nehet.
Pták v ruce je cenný dvakrát v Bushovi.
Chléb je zaměstnanec života.
Zdroje
● Philipp Koehn:
Statistical Significance Tests for Machine Translation Evaluation,
Proceedings of EMNLP, 2004
● Ying Zhang, Stephan Vogel, Alex Waibel:
Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System?
Proceedings of LREC, 2004
● Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon:
Computational Methods for Hidden Markov Tree Models – An Application to Wavelet Trees
IEEE Transactions on Signal Processing, 2004