• Nebyly nalezeny žádné výsledky

Možnosti zlepšení strojového překladu z angličtiny do češtiny

N/A
N/A
Protected

Academic year: 2022

Podíl "Možnosti zlepšení strojového překladu z angličtiny do češtiny"

Copied!
22
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Prezentace k obhajobě diplomové práce

Možnosti zlepšení strojového překladu z angličtiny do češtiny

Martin Popel

14. září 2009

(2)

TectoMT

Anotace překladových chyb

Jednotlivá vylepšení

Analýza

Transfer

Syntéza

Vyhodnocení

(3)

TectoMT

Modulární framework pro úlohy zpracování přirozeného jazyka

základní jednotka = blok

Překladový systém s transferem přes tektogramatickou rovinu

morfologická rovina

analytická rovina

tektogramatická rovina

a-layer

m-layer

ANALÝZA TRANSFER SYNTÉZA

t-layer

(4)

TectoMT

Modulární framework pro úlohy zpracování přirozeného jazyka

základní jednotka = blok

Překladový systém s transferem přes tektogramatickou rovinu

morfologická rovina

analytická rovina

tektogramatická rovina

a-layer

m-layer

ANALÝZA TRANSFER SYNTÉZA

tagger (Morče)

parser (McDonald MST) analytické funkce

označení hran ke kontrakci stavba t-stromu

formémy gramatémy ... HMTM ...

t-layer

(5)

Anotace překladových chyb

příklad

SRC: The vote on it will take place

at the beginning of next week.

REF: Hlasovat se o něm bude

počátkem příštího týdne.

TST: Hlas o tom vezme místo

na začátku dalšího týdne.

(6)

SRC: The vote on it will take place

at the beginning of next week.

REF: Hlasovat se o něm bude

počátkem příštího týdne.

AIM: Hlasování o tom se bude konat

na začátku dalšího týdne.

TST: Hlas o tom vezme místo

na začátku dalšího týdne.

Anotace překladových chyb

příklad

(7)

SRC: The vote on it will take place

at the beginning of next week.

REF: Hlasovat se o něm bude

počátkem příštího týdne.

AIM: Hlasování o tom se bude konat

na začátku dalšího týdne.

TST: lex-trans::Hlas o tom phrase-x::vezme místo

na začátku dalšího týdne.

Anotace překladových chyb

příklad

(8)

Type

lex, form, gram, phrase, order,...

Subtype

gram: gender, person, tense,...

Seriousness

serious, minor

Source

tok, lem, tagger, parser, tecto, trans, x, syn, ?

Circumstances

coord, ne (named entity), number Anotováno 250 vět, celkem 1463 chyb

Anotace překladových chyb

vyhodnocení

ANALÝZA 30%

SYNTÉZA 3%

TRANSFER 67%

chyby způsobené neizomorfismem 8%

ostatní chyby v transferu 59%

(9)

Vylepšení

1. analýza

Drobné úpravy tokenizace a tagování

Nová (rychlejší) lemmatizace

Parsing

parenthese se parsuje odděleně od zbytku věty

pravidlové bloky pro opravu chyb

Přidán blok vyplňující analytické funkce

Nová implementace budování t-roviny

(10)

Vylepšení

2. transfer

Modulární strategie transferu (10 nových bloků)

Pravidla pro slovesný vid, číslovky,...

Hidden Markov Tree Model (HMTM)

překlad lemmat a formémů současně

zapojen target-language tree model funkce obdobná jazykovému modelu

Tree-modified Viterbi algorithm

najde překlad (kombinaci lemmat a formémů), který má nejvyšší pravděpodobnost celého stromu

(11)

machine engine

translation arcade

be have

easy simple

strojový překlad

být

snadný ROOT

PE(strojový | engine) = 0.5 PE(strojový | machine) = 0.4

PE(překlad | translation) = 0.6 PE(překlad | arcade) = 0.7

10-8

PT(machine | translation) = 0.02 10 1×10-8

-10

0.0001

0.002 0.001

0.01 PE(být | be) = 0.8

PE(být | have) = 0.01

10

-8

Source tree (Czech) Target tree (English)

ANALYSIS

TRANSFER

SY NTH

ES IS ROOT

Source sentence:

Strojový překlad by měl být snadný.

Target sentence:

Machine translation should be easy.

P(optimal_tree) = PE(strojový | machine) · PT(machine | translation)·

PE(překlad | translation) · PT(translation | be)·

PE(snadný | easy) · PT(easy | be)·

PE(být | be) · PT(be | ROOT)

Vylepšení

2. transfer – ilustrace HMTM

(12)

Vylepšení

3. syntéza

Upraveno dělení věty na klauze, vkládání interpunkce

Přidán morfologický model

nalezení slovního tvaru pro dané lemma s daným omezením na tag

některé pozice tagu po překladu neznáme,

netřeba je specifikovat, vybere se nejčastější tvar

trénováno na korpusu SYN (500 milionů slov)

(13)

Vyhodnocení

NIST BLEU

3,974 0,066

po úpravách 4,716 0,098

baseline (WMT09)

2777 vět z WMT2009 (news-test2009)

1 referenční překlad

Hlavní podíl na zlepšení mají

1. HMTM (a související úpravy transferu)

(14)

Ukázka překladu

SRC: TectoMT is currently an experimental system, which is outperformed by state-of-the-art

MT systems such as open source Moses.

TST: TectoMT je nyní experimentální systém, který je překonán state-of-the-art

MT systémy otevřených zdrojových Mojžíšů.

(15)

Připomínky oponenta

Intervaly spolehlivosti BLEU

Lemmatizace

víceznačnost vstupu

vyhodnocení

HMTM

„převěšování“ na efektivní rodiče

EM algoritmus

(16)

Připomínky oponenta

intervaly spolehlivosti BLEU

Paired Bootstrap Resampling

Koehn, 2004: ”If, say, one system outperforms the other system 95% of the time, we draw the conclusion that it is better with 95% statistical significance.”

Zhang et al, 2004: ”From these discrepancy scores, find the middle 95% of the scores (i.e. the 2.5th percentile and the 97.5th percentile). That is the 95% confidence interval for the discrepancy between MT system A and B. If the confidence interval does not overlap with zero, we can claim that the difference between system A and B are statistically significant.”

Zhang 95% ~ Koehn 97,5%

(17)

Připomínky oponenta

intervaly spolehlivosti BLEU

2777 vět, resampling na 1000 vzorků, α = 0.05

52 variant systému, z toho jen 6 nesignifikantních zlepšení:

Fix_tags_after_parse 0.0000 (-0.0000 ... 0.0003) Fix_tags_after_parse + mtags 0.0000 (-0.0000 ... 0.0003) Fix_is_member 0.0001 (-0.0001 ... 0.0005) Impose_subjpred 0.0002 (-0.0001 ... 0.0005) Vocalize_prepositions 0.0001 (-0.0002 ... 0.0004) Concatenate_tokens 0.0001 (-0.0003 ... 0.0006)

Ostatní zlepšení signifikantní, např.:

Translate_LF_tree_Viterbi 0.0130 (0.0107 ... 0.0156) Fix_tokenization 0.0008 (0.0005 ... 0.0013) Ascii_quotes 0.0085 (0.0072 ... 0.0098)

(18)

Většinu víceznačností rozhodne tag ...

striking → {JJ=striking, VBG=strike}

Bill → {NN=bill, NNP=Bill}

'd → {MD=would, VBD=have}

found → {VB=found, VBD=find}

... některé ale ne (alespoň ne PennTB)

's → {VBZ=be, VBZ=have}

links → {NNS=link, NNS=links} (spojení, golfová hřiště)

Rozhraní pro Lemmatizer je (form, tag)→(lemma, neg)

Připomínky oponenta

lemmatizace – víceznačnost vstupu

(19)

type accuracy 98.9%, token accuracy 99,8%

část BNC (87 milionů tokenů, 700 000 typů), ale

lemmatizace v BNC není zcela manuální, obsahuje chyby

odlišná metodika lemmatizace (negace, příslovce, přídavná jména, zájmena, velká písmena, víceslovné tokeny,...)

jiný tagset (CLAWS vs. PennTB)

Při této úspěšnosti by požadovaný korpus musel mít alespoň desítky miliónů tokenů.

Připomínky oponenta

lemmatizace – vyhodnocení

(20)

Připomínky oponenta

HMTM

Jaký je efekt „převěšování“ členů koordinace na efektivní rodiče?

Někdy pomůže, někdy uškodí. BLEU téměř stejné.

Proč? Právě v parsingu koordinací bývá dost chyb.

Šlo by HMTM trénovat pomocí EM algoritmu?

Ano: Upward-downward algoritmus (Durand et al,2004) je obdobou forward-backward algoritmu.

ale s komplikacemi:

Emission a transition pravděpodobnosti se počítají z jiných dat (paralelní korpus + slovníky, jednojazyčný ČNK).

Implementace používá ”backward” i ”forward” model.

(21)

Ukázka překladu

Birds of a feather flock together.

Great talkers are little doers.

As good be an addled egg as an idle bird.

A miss by an inch is a miss by a mile.

I’d rather be a hammer than a nail.

A bird in the hand is worth two in the bush.

Bread is the staff of life.

Ptáci v bederním hejnu spolu.

Velcí řečníci jsou malí vrazi.

Dobré je feťácké vejce jako činný pták.

Slečna palec

je slečna miliónu.

Spíše bych byl kladivo než nehet.

Pták v ruce je cenný dvakrát v Bushovi.

Chléb je zaměstnanec života.

(22)

Zdroje

Philipp Koehn:

Statistical Significance Tests for Machine Translation Evaluation,

Proceedings of EMNLP, 2004

Ying Zhang, Stephan Vogel, Alex Waibel:

Interpreting BLEU/NIST Scores: How Much Improvement Do We Need to Have a Better System?

Proceedings of LREC, 2004

Jean-Baptiste Durand, Paulo Gonçalvès,Yann Guédon:

Computational Methods for Hidden Markov Tree Models – An Application to Wavelet Trees

IEEE Transactions on Signal Processing, 2004

Odkazy

Související dokumenty

The general approach is to extract a number of features from source and target sentences, and possibly external resources and infor- mation from the Machine Translation (MT) system

A file that contains method trees of all the constraints is used for communication between the tool and the constraint- based drawing system.. After these data are loaded to the

c) In order to maintain the operation of the faculty, the employees of the study department will be allowed to enter the premises every Monday and Thursday and to stay only for

Within each of these scores an optimal local alignment is computed using the match score substitution

Within each of these scores an optimal local alignment is computed using the match score substitution

The adoption of the term Fortress Europe by extreme right parties and movements as well as the discrepancy between their vision and the status quo of EU immigration, asylum, and

The specifics of people's journey on the Czech market of cardiovascular dietary supplements and how they differ from world trends were presented.. This discrepancy in the results

3 Most of all, to assume sectarianism exists as an unvarying and age-old historic truth begs the question as to why “sectarianism” was first identified as a modern problem in