• Nebyly nalezeny žádné výsledky

(informa (informa

N/A
N/A
Protected

Academic year: 2022

Podíl "(informa (informa"

Copied!
21
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Sn Sn Sn

Sníííídan dan daněěěě dan s

s s

s ČČČČeským akademickým korpusem eským akademickým korpusem eským akademickým korpusem eským akademickým korpusem (informa

(informa (informa

(informaččččnnnníííí sch sch sch schůůůůzka) zka) zka) zka)

25. června 2007, 8:45

(2)

zad zad zad

zadáááánnnníííí::::

Anotov Anotov Anotov

Anotováááánnnníííí ČČČČesk esk eskéééého akademick esk ho akademick ho akademick ho akademickéééého ho ho ho

korpusu korpusu korpusu korpusu

• Co to znamená?

(3)

• textový korpus ... banka textů

• anotovaný korpus ... texty obohaceny

lingvistickou informací (např. slovní druhy,

morfologické kategorie, syntaktický rozbor, ...)

Korpus

Korpus

Korpus

Korpus

(4)

Pro Pro

Pro Pročččč aaaanotov notov notov notováááánnnníííí korpus korpus korpusůůůů???? korpus

• teoretická lingvistika

– materiál k teoretickému bádání

• počítačová lingvistika

– strojové učení

– trénovací data: anotované korpusy (čím více, tím lépe – i když všechno má svoji mez)

– aplikace, např.

• tagging – automatické určování slovních druhů a morf.

kategorií

• parsing – automatické provádění syntaktického rozboru

(5)
(6)

Nav Nav

Nav Navšššštivte str tivte str tivte str tivte stráááánku nku nku nku

popularizačních článků a rozhovorů

http://ufal.mff.cuni.cz/?a=popular&m=student_info

(7)

• http://ufal.mff.cuni.cz/rest

• datová komponenta – ČČČČeský akademický korpus eský akademický korpus eský akademický korpus eský akademický korpus ((((ČČČČAK)AK)AK)AK)

• komponenta nástrojů – nástroje pro

morfologické zpracování textů (anotace, morfologická analýza, tagging)

projekt projekt projekt

projekt „„„„Data a n Data a n Data a n Data a náááástroje pro stroje pro stroje pro stroje pro informa

informa informa

informaččččnnnníííí syst syst systéééémy syst my my““““ (REST) my (REST) (REST) (REST)

(8)

ČČČČeský akademický korpus eský akademický korpus eský akademický korpus eský akademický korpus

• 1971-1985 – ÚJČ AV

• 540 000 morfologicky a syntakticky anotovaných slov

• psané a mluvené texty

• publicistika, administrativa, odborné statě

• anomanomanomanomáááálielielielie

– vymazaná interpunkce

– vymazané ciferné výrazy

OJEDINĚLÝ

(9)

Pro Pro

Pro Pročččč jsme si na n jsme si na n jsme si na něěěěj vzpomn jsme si na n j vzpomn j vzpomn j vzpomněěěěli? li? li? li?

• 1994199419941994 – první experimenty strojového učení na češtině, konkrétně tagging a ČAK jako

trénovací data. Zásadní z pohledu dalšího vývoje komputační lingvistiky v Čechách

• 1996199619961996––––2006200620062006 anotace Pražského závislostního korpusu (PZK, 2006 vydaná již druhá verze)

http://ufal.mff.cuni.cz/pdt2.0

– anotace morfologické, syntaktické, tektogramatické

(10)

• NNNNáááápadpadpad: obohatit 80 000 syntakticky pad

anotovaných vět z PZK o 30 000 vět z ČAK

• Odlišnosti PZK vs. PZK vs. PZK vs. PZK vs. ČČČČAKAKAKAK

– vnitřní formát (připomeňte si, kdy ČAK vznikl) – anotační schémata

– chybějící interpunkce a ciferné výrazy

• Proto konverze ČAK do „podoby“ PZK

– třeba to půjde úplně automaticky ...

Pro Pro Pro

Pročččč jsme si na n jsme si na n jsme si na n jsme si na něěěěj vzpomn j vzpomn j vzpomn j vzpomněěěěli? (2) li? (2) li? (2) li? (2)

Nep Nep

Nep Nepůůůůjde. jde. jde. jde.

(11)

ČČČČAKAKAKAK morfologick morfologick morfologick morfologickéééé a.a.a.a.

syntakticko syntaktickosyntakticko

syntakticko----analytickanalytickanalytickanalytickéééé a.a.a.a.

ČČČČAK 1.0AK 1.0AK 1.0AK 1.0 morfologick morfologickmorfologick morfologickéééé a.a.a.a.

ČČČČAK 2.0AK 2.0AK 2.0AK 2.0 morfologick morfologickmorfologick morfologickéééé a.a.a.a.

syntakticko syntakticko syntakticko

syntakticko----analytickanalytickanalytickanalytickéééé a.a.a.a.

konverze, m. anotacekontrola

m. anotacekontrola konverze, s. anotacekontrola

MST parser, s. anotacekontrola korektury

(12)
(13)

Na Na Na

Na cest cest cest cestěěěě k syntakticko

k syntakticko k syntakticko

k syntakticko----analytickým a. analytickým a. analytickým a. ČČČČAK 2.0 analytickým a. AK 2.0 AK 2.0 AK 2.0

• MST parser

VSTUP: ČAK 1.0

VÝSTUP: automatický syntaktický rozbor ÚSPĚŠNOST: 84,6% (na hranách)

• s. anotacekontrola

VSTUP: automatický syntaktický rozbor

VÝSTUP: ručně opravené chyby (chybně určené závislosti a analytické funkce) automatické

procedury

(14)

s. anotace ↔ kontrola

1. dvojitá anotace v editoru TrEd (anotátoři) 2. technická podpora v TrEd pro řešení

mezianotátorských odlišností; (ne)shody v číslech (Kiril Ribarov)

3. vyřešení odlišností v TrEd (Alla Bémová, Zdeňka Urešová)

4. automatické kontrolní skripty àla kontrola PDT 2.0 (Jiří Mírovský)

paralelně m. anotace kontrola (Jiří Mírovský)

viz zad viz zad viz zad

viz zadáááánnnníííí na na zzaa na za

na začčččááááttkutkutkuku

(15)

... už by mělo být jasné, o co

v brigádě půjde ...

(16)

Anotace Anotace Anotace

Anotace ČČČČAK technicky AK technicky AK technicky AK technicky

• podrobně rozepsáno v dokumentu AnalAnnotCAC

AnalAnnotCAC AnalAnnotCAC

AnalAnnotCAC_07.pdf_07.pdf_07.pdf_07.pdf

(17)

AnalAnnotCAC_07.pdf AnalAnnotCAC_07.pdf AnalAnnotCAC_07.pdf AnalAnnotCAC_07.pdf

1. Motivace

2. Český akademický korpus 3. Anotace jako zadání

4. Anotace technicky 5. Pokyny k anotaci

6. Anotační nástroj TrEd 7. Zahřívací kolo

8. Meetpoint

(18)

Kolik času?

• zauzauzauzauččččeneneneníííí – červenec (horní odhad)

• anotaceanotaceanotaceanotace – srpen, září, říjen

• zkuzkuzkuzkuššššenostienostienostienosti – max 100 vět denně za cca 5h

• ≈ čtyřměsíční poloviční úvazek

• Rozmyslete si prosRozmyslete si prosRozmyslete si prosRozmyslete si prosíííím velmi dobm velmi dobm velmi dobm velmi dobřřřře, jestli e, jestli e, jestli e, jestli budete m

budete m budete m

budete míííít dost t dost t dost ččččasu ...t dost asu ...asu ...asu ...

(19)

Počítače

• můžeme zapůjčit notebooky

(20)

Odměna

• 5 Kč à věta + odměny

• DP[ČP]

(21)

Co d Co d Co d

Co dáááál? l? l? l?

• vážní zájemci projdou zahřívacím kolem

• vybereme 4 (příp. 5), kteří udělají nejmenší počet chyb

• soubory budou předávány i odevzdávány elektronicky

• přítomnost na ÚFAL není nutná

Odkazy

Související dokumenty

Odpovídá ekonomický program prezidenta Sarkozyho doporu č ením, ke kterým jste ve své práci dosp ě la. Navržená známka: velmi dob ř e V Praze dne:

Takto nastín ě ný informa č ní systém sice velmi dob ř e podporuje procesy probíhající ve škole, ale o virtuální vzd ě lávání se nejedná (pokud

Autorka ve své práci prokázala schopnost orientovat se v dané problematice zabývající se migrací a cizinci v Č eské republice.. Práce je navíc velmi dob ř e

Pro stanovení prognózy v budoucích letech pak aplikuje demografický model – používanou techniku v prognózách obyvatelstva.. Celá práce je po technické stránce velmi dob ř

(Rozmyslete si, že jinak by jeden z trojúhelníků byl pravoúhlý.) Z vrcholů trojúhelníků, které leží uvnitř čtverce, vybereme ty, které leží nejblíže ke straně AB, a

Po formální stránce celkové zpracování textu vyhovuje všem požadavk ů m kladeným na diplomové práce.. Návrh na klasifikaci diplomové práce: velmi dob

Po formální stránce text odpovídá všem požadavk ů m kladeným na vypracování bakalá ř ské práce.. Návrh na klasifikaci diplomové práce: velmi dob

Ur ení mezní chyby (užitím 3s-kritéria) a vylou ení hrubých chyb – tozn., že ze souboru nam ených hodnot vylou íme ty, které se od pr m ru x liší o více než 3.s (ze