• Nebyly nalezeny žádné výsledky

SE´ MANTICKY SIGNIFIKANTNI´ KOLOKACE

N/A
N/A
Protected

Academic year: 2022

Podíl "SE´ MANTICKY SIGNIFIKANTNI´ KOLOKACE"

Copied!
120
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

SE´MANTICKY SIGNIFIKANTNI´ KOLOKACE

Automaticka´ detekce kolokacı´ v cˇeske´m textove´m korpusu

Pavel Pecina a Martin Holub

U´FAL/CKL Technical Report TR–2002–13

December 2002

(2)
(3)

Abstrakt

Skupiny slov, ktera´ se v textech vyskytujı´ relativneˇ cˇasto azˇ typicky spolecˇneˇ (v neˇjake´m omezene´m kontextu), by´vajı´ obecneˇ nazy´va´nykolokace. V te´to pra´ci se soustrˇedı´me na tzv.se´manticky signifi- kantnı´ kolokace prvnı´ho druhu(da´le jen signifikantnı´ kolokace), cozˇ jsou slovnı´ spojenı´ vyjadrˇujı´cı´

specificky´ vy´znam.

Nejprve rozebı´ra´me definici a charakteristicke´ vlastnosti signifikantnı´ch kolokacı´ a navrhujeme jejich klasifikaci z ru˚zny´ch hledisek. Da´le zkouma´me neˇkolik statisticky´ch metod automaticke´ de- tekce dvojslovny´ch signifikantnı´ch kolokacı´ v cˇesky´ch textech, srovna´va´me je, kombinujeme je, a hodnotı´me jejich u´speˇsˇnost. Vstupnı´ textova´ data prˇitom prˇedzpracova´va´me s vyuzˇitı´m au- tomaticke´ morfologicke´ a syntakticke´ analy´zy textu. Navrhujeme algoritmus pro automatickou konstrukci slovnı´ku signifikantnı´ch kolokacı´. V za´veˇru pra´ce diskutujeme vyuzˇitı´ signifikantnı´ch kolokacı´ jako indexovatelny´ch prvku˚ se´manticke´ho slovnı´ku v dokumentograficky´ch informacˇ- nı´ch syste´mech.

Abstract

Groups of words that occur relatively often or typically together in texts (within a limited context) are commonly calledcollocations. In this work we concentrate on the so calledsemantically significant collocations of the first kind(in the following only significant collocations), which are word phrases that express a specific meaning.

First, we analyse the definition and characteristic features of significant collocations. We suggest several possible classifications of significant collocations from various points of view. Then we investigate several statistically based methods for automatic detection of two-word significant collocations in Czech texts, and we compare, combine and evaluate them. When preprocessing input text data, we make use of automatic procedures for analyzing morphology and syntax.

We suggest an algorithm for automatic construction of a dictionary of significant collocations.

Finally we discuss possible applications of significant collocations in the framework of information retrieval systems, especially their use as indexable elements of a semantic dictionary.

(4)
(5)

Obsah

Prˇedmluva 1

1 U´vod 3

2 Kolokace 5

2.1 Vymezenı´ pojmu kolokace . . . 5

2.2 Charakteristicke´ vlastnosti kolokacı´ . . . 7

2.3 Klasifikace a kategorizace kolokacı´ . . . 9

2.3.1 Se´manticke´ hledisko . . . 9

2.3.2 Gramaticke´ hledisko . . . 11

2.3.3 Pozice v textu . . . 13

2.3.4 Funkcˇnı´ hledisko . . . 13

2.3.5 Hledisko vyhleda´va´nı´ informacı´ . . . 13

2.4 Prakticke´ vyuzˇitı´ kolokacı´ . . . 14

2.4.1 Komputacˇnı´ lingvistika . . . 14

2.4.2 Vyhleda´va´nı´ informacı´ . . . 14

3 Automaticka´ detekce kolokacı´ 17 3.1 Zada´nı´ a specifikace u´lohy . . . 17

3.2 Metodologie . . . 18

4 Prˇı´prava textu˚ a extrakce kolokujı´cı´ch bigramu˚ 21 4.1 Automaticka´ lingvisticka´ analy´za . . . 21

4.2 Chyby vstupnı´ch textu˚ . . . 24

4.2.1 Nı´zkou´rovnˇove´ chyby . . . 24

4.2.2 Odlisˇny´ jazyk . . . 24

4.2.3 Odlisˇna´ znakova´ sada . . . 25 v

(6)

4.4 Metody extrakce kolokujı´cı´ch bigramu˚ . . . 26

4.4.1 Slova sousedı´cı´ . . . 27

4.4.2 Eliminace stopslov . . . 27

4.4.3 Kolokacˇnı´ oke´nko . . . 28

4.4.4 Syntakticka´ za´vislost . . . 29

4.4.5 Tranzitivnı´ syntakticka´ za´vislost . . . 30

4.4.6 Sourozenecky´ syntakticky´ vztah . . . 31

5 Metody pro detekci kolokacı´ 33 5.1 Frekvence . . . 33

5.2 Strˇednı´ hodnota a rozptyl . . . 37

5.3 Testova´nı´ hypote´z . . . 41

5.3.1 test . . . 43

5.3.2 test . . . 45

5.3.3 Pomeˇr pravdeˇpodobnostı´ . . . 48

5.4 Vza´jemna´ informace . . . 50

5.5 Syntakticka´ za´vislost . . . 54

5.5.1 Vza´jemna´ informace . . . 54

5.5.2 test . . . 56

5.5.3 test . . . 58

5.6 Filtrace bigramu˚ . . . 59

5.6.1 Slovnı´ druhy . . . 60

5.6.2 Slovnı´ poddruhy . . . 60

5.6.3 Syntakticka´ za´vislost . . . 61

5.6.4 Sourozenecky´ syntakticky´ vztah . . . 62

6 Experimenty 65 6.1 Vy´pocˇty . . . 65

6.1.1 Slova sousedı´cı´ . . . 68

6.1.2 Eliminace stopslov . . . 68

6.1.3 Kolokacˇnı´ oke´nko . . . 69

6.1.4 Syntakticka´ za´vislost . . . 69

6.1.5 Tranzitivnı´ syntakticka´ za´vislost . . . 70

(7)

6.1.6 Sourozenecky´ syntakticky´ vztah . . . 71

6.2 Na´stroje . . . 71

6.2.1 Vy´pocˇty . . . 71

6.2.2 Data . . . 71

6.2.3 Ohodnocova´nı´ detekovany´ch kolokacı´ . . . 72

7 Analy´za vy´sledku˚ metod detekce kolokacı´ 75 7.1 Zpu˚soby hodnocenı´ vy´sledku˚ . . . 75

7.1.1 Hodnocenı´ dle vy´sledku˚ cı´love´ aplikace . . . 75

7.1.2 Subjektivnı´ hodnocenı´ . . . 76

7.2 Prakticky dosazˇene´ vy´sledky . . . 77

7.2.1 Zı´ska´nı´ ohodnoceny´ch kolokacı´ . . . 77

7.2.2 Vy´sledky dle variant zı´ska´nı´ kolokujı´cı´ch bigramu˚ . . . 78

7.3 Synte´za parcia´lnı´ch vy´sledku˚ . . . 79

7.3.1 Mı´ra kolokativnosti . . . 80

7.4 Sestavenı´ slovnı´ku kolokacı´ . . . 83

7.5 Poloautomaticka´ detekce kolokacı´ . . . 83

8 Zhodnocenı´ prakticky´ch vy´sledku˚ 85 8.1 Syste´my vyhleda´va´nı´ informacı´ . . . 85

8.1.1 IR syste´my . . . 86

8.1.2 Vyuzˇitı´ kolokacı´ v IR syste´mech . . . 87

8.2 Aplikovatelnost . . . 88

8.3 Zastoupenı´ ru˚zny´ch druhu˚ kolokacı´ . . . 90

9 Za´veˇr 93 Literatura 95 Prˇı´lohy 97 A Zpracova´vane´ kolekce textu˚ 97 A.1 Popis . . . 97

A.2 Statistika . . . 98

B Vybrane´ SGML znacˇky v anotovany´ch textech 101 B.1 Spra´vnı´ znacˇky . . . 101

(8)

C Popis morfologicky´ch znacˇek 105 C.1 Struktura znacˇky . . . 105 C.2 Popis jednotlivy´ch pozic znacˇky . . . 105

D Prˇehled hodnot analyticke´ funkce 111

(9)

Prˇedmluva

Tato vy´zkumna´ zpra´va vznikla neprˇı´lisˇ rozsa´hly´mi u´pravami diplomove´ pra´ce [33], kterou vypracoval P. Pecina pod vedenı´m M. Holuba na MFF UK. Pu˚vodnı´ diplomova´ pra´ce byla z technicky´ch du˚vodu˚ zkra´cena o neˇktere´ technicke´ dodatky. Origina´lnı´ obsah pu˚vodnı´ di- plomove´ pra´ce vcˇetneˇ jejı´ch vy´znamny´ch datovy´ch a softwarovy´ch prˇı´loh (jezˇ v tomto vy- da´nı´ obsazˇeny nejsou) lze vsˇak najı´t na webovy´ch stra´nka´ch Centra komputacˇnı´ lingvistiky (http://ckl.mff.cuni.cz/ufal/) v sekci „Technical reports“.

Data, pouzˇita´ pro testova´nı´, byla prˇevzata jednak zPrague Dependency Treebankverze 1.0 [1], jednak ze zdroju˚, ktere´ laskaveˇ poskytly redakce cˇasopisu Computerworld a Lidovy´ch novin.

Vesˇkera´ vy´zkumna´ cˇinnost ty´kajı´cı´ se automaticke´ detekce se´manticky signifikantnı´ch ko- lokacı´, vcˇetneˇ sepsa´nı´ a vyda´nı´ te´to pra´ce, byla a je financˇneˇ podporova´na projektem MSˇMT

„Centrum komputacˇnı´ lingvistiky“(LN-00A063).

1

(10)
(11)

KAPITOLA1: U´VOD 3

Kapitola 1

U´vod

Kolokace je zajı´mavy´ jazykovy´ fenome´n. Je to skupina slov, ktera´ se v textu vyskytujı´ velmi cˇasto nebo azˇ typicky spolecˇneˇ. Mu˚zˇe to by´t jaky´koli cˇasto pouzˇı´vany´ a zazˇity´ vı´ceslovny´ vy´raz cˇi usta´lene´ slovnı´ spojenı´. Mu˚zˇe to by´t take´ skupina vy´znamoveˇ prˇı´buzny´ch slov, ktera´ se velmi cˇasto vyskytujı´ ve spolecˇne´m kontextu, rˇı´ka´me, zˇekolokujı´.

Kolokace velmi cˇasto vytva´rˇejı´ novy´ vy´znam, ktery´ mnohdy nelze odvodit ze samostatny´ch vy´znamu˚ jednotlivy´ch jejich slov -komponent, pak hovorˇı´me onekompozicˇnosti.

Prˇı´klady kolokacı´: nata´hnout bacˇkory, prˇijı´t k sobeˇ, chodit kolem horke´ kasˇe, mı´t navrch, pı´t krev, udeˇlat rozhodnutı´, kra´lovska´ koruna, desetinna´ cˇa´rka, financˇnı´ u´rˇad, trestnı´ rejstrˇı´k, zbraneˇ hromadne´ho nicˇenı´, bı´le´ vı´no, posˇtovnı´ novinova´ sluzˇba, nova´ verze, cele´ cˇı´slo, visuta´ lanovka, tlusta´ kniha, deˇtsky´ le´karˇ, sˇunka s vejci, vysoky´ krevnı´ tlak, Karlu˚v most, Slunecˇnı´ soustava, Josef Nova´k, letadlo - letisˇteˇ, auto - silnice, zdravy´ - nemocny´, vysoky´ - sˇtı´hly´ . . .

Z funkcˇnı´ho hlediska jsou kolokace naprˇı´kladidiomaticke´ fra´ze,vlastnı´ jme´na,technicke´ pojmy, usta´lena´ slovnı´ spojenı´atd. Cˇasto jsou na konkre´tnı´m prˇirozene´m jazyce znacˇneˇ za´visla´ a jejich prˇeklad do jine´ho jazyka slovo po sloveˇ je obtı´zˇny´ nebo vu˚bec nemozˇny´.

Prˇa´nı´m odbornı´ku˚ z ru˚zny´ch oboru˚ je umeˇt kolokace rozpozna´vat. Lexikografove´ je zarˇadı´ do vy´kladovy´ch a prˇekladatelsky´ch slovnı´ku˚. Autorˇi jazykovy´ch ucˇebnic je nezapomenou zmı´nit prˇi vy´uce slovı´cˇek, jazykovı´ korektorˇi prˇi kontrola´ch pravopisu. Lingviste´ je vyuzˇijı´ pro rozlisˇova´nı´

vy´znamu˚ slov cˇi urcˇova´nı´ veˇtne´ syntaxe. Pro informatiky majı´ kolokace vy´znam v oblastech automaticke´ho strojove´ho prˇekladu, rozpozna´va´nı´ textu nebo prˇi jeho synte´ze.

Obzvla´sˇteˇ du˚lezˇity´m oborem, ve ktere´m najde rozpozna´va´nı´ kolokacı´ uplatneˇnı´, je vyhleda´- va´nı´ informacı´ (Information Retrieval - IR) v textech.Information Retrieval Systemsjsou dokumen- tograficke´ informacˇnı´ syste´my, ktere´ na za´kladeˇ uzˇivatelova dotazu, ktery´m specifikuje, jakou informaci hleda´, sestavı´ odpoveˇd’. Touto odpoveˇdı´ je vybrany´ seznam dokumentu˚, ktere´ by meˇly pozˇadovanou informaci obsahovat. Doposud se tento postup nejcˇasteˇji prova´deˇl podle shod (meˇ- rˇeny´ch ru˚zny´mi zpu˚soby) jednoslovny´ch termu˚ v dotazu a ve vsˇech dokumentech. Pokud vsˇak budeme moci pracovat mı´sto s jednotlivy´mi slovy take´ s kolokacemi, mu˚zˇeme ocˇeka´vat daleko lepsˇı´ vy´sledky. Budeme schopni identifikovat nove´ vy´znamy, ktere´ kolokace vytva´rˇejı´, prˇesneˇji urcˇovat se´mantiku uzˇivatelsky´ch dotazu˚ a obsah samotny´ch dokumentu˚.

(12)

Cı´lem te´to pra´ce je prˇedevsˇı´m analy´za ru˚zny´ch metod automaticke´ detekce ru˚zny´ch typu˚

kolokacı´ v cˇesky´ch textech a doporucˇenı´ metod nejvhodneˇjsˇı´ch. Nejdrˇı´ve se budeme zaby´vat ko- lokacemi z teoreticke´ho hlediska, jejich typicky´mi vlastnostmi a rˇazenı´m do ru˚zny´ch kategoriı´

(v kapitole 2). V kapitole 3 prˇesneˇ popı´sˇeme rˇesˇeny´ proble´m a nastı´nı´me postup jeho rˇesˇenı´.

V kapitole 4 se budeme zaby´vat prˇedzpracova´nı´m vstupnı´ch textu˚, cozˇ take´ zahrnuje sˇest metod zı´ska´va´nı´ mnozˇiny kandida´tu˚ na kolokace. Obsahem kapitoly 5 bude popis sˇesti metod auto- maticke´ detekce kolokacı´, ktere´ pouzˇijeme v nasˇich experimentech. Popis teˇchto experimentu˚ se nacha´zı´ v kapitole 6, jejich vy´sledky pak v kapitole 7. Za´veˇrecˇne´ zhodnocenı´ prˇı´nosu pro syste´my vyhleda´va´nı´ informacı´ je obsahem kapitoly 8.

(13)

KAPITOLA2: KOLOKACE 5

Kapitola 2

Kolokace

V te´to kapitole se budeme zaby´vat kolokacemi z teoreticke´ho hlediska. Prodiskutujeme pro- blematiku ru˚zny´ch definic tohoto fenome´nu, charakteristicke´ znaky kolokacı´ a jejich vlastnosti z ru˚zny´ch pohledu˚. Uka´zˇeme, jak lze kolokace klasifikovat a dle jaky´ch krite´riı´ lze urcˇovat jejich typy. Na za´veˇr se sezna´mı´me s mozˇnostmi uplatneˇnı´ kolokacı´ v ru˚zny´ch odveˇtvı´ch.

2.1 Vymezenı´ pojmu kolokace

Vymezenı´ pojmu kolokace je pomeˇrneˇ problematickou za´lezˇitostı´. Kolokacemi, jakozˇto zajı´ma- vy´m jevem v lingvistice, se v minulosti zaby´valo jizˇ neˇkolik autoru˚ a te´meˇrˇ kazˇdy´ z nich definoval tento pojem jinak. Ani v soucˇasne´ dobeˇ nenı´ definice kolokace usta´lena´ a existuje na ni vı´ce na´- zoru˚. Prˇı´cˇinou je pravdeˇpodobneˇ skutecˇnost, zˇe samotne´ urcˇenı´, zda dana´ slova tvorˇı´ kolokaci, je subjektivnı´, ovlivneˇne´ ru˚zny´mi okolnostmi a vu˚bec nemusı´ by´t jednoznacˇne´. Seznamme se tedy s definicemi pojmu kolokace ru˚zny´ch autoru˚.

Prvnı´, kdo se kolokacemi zaby´val byl dle Manninga [6]Firth, ktery´ v roce 1957 pouzˇil tuto definici [2]: „Kolokace dane´ho slova jsou zazˇite´, tradicˇnı´a cˇasto pouzˇı´vane´ vy´razy, ktere´ toto slovo obsahujı´.“

Tato definice je pomeˇrneˇ volna´, neobsahuje nic o kompozicˇnosti, syntakticky´ch nebo se´mantic- ky´ch vlastnostech. De facto rˇı´ka´, zˇe kolokace se sta´va´ kolokacı´ svy´m cˇasty´m a zazˇity´m pouzˇı´va´nı´m v tradicˇnı´m vy´znamu.

Precizneˇjsˇı´ definici sestavilChouekav roce 1988 [3]: „Kolokace je definova´na jako posloupnost dvou nebo vı´ce po sobeˇ jdoucı´ch slov majı´cı´ znaky syntakticke´ a se´manticke´ entity, jejı´zˇ prˇesny´ a jednoznacˇny´

vy´znam nebo vy´znam vedlejsˇı´ nemu˚zˇe by´t prˇı´mo odvozen z vy´znamu˚ nebo vedlejsˇı´ch vy´znamu˚ svy´ch komponent.“. Tato definice je prˇı´sneˇjsˇı´. Kolokace musı´ mı´t syntakticky´ a se´manticky´ charakter, je jizˇ cha´pa´na jako lingvisticka´ jednotka (fra´ze) a poprve´ se objevuje znak nekompozicˇnosti: tzn.

vy´znam kolokace nelze zpeˇtneˇ urcˇit z vy´znamu˚ jednotlivy´ch slov (viz. kapitola 2.2). Du˚lezˇity´m faktem je Chouekovo omezenı´, zˇe kolokacı´ musı´ by´tneprˇerusˇena´posloupnost po sobeˇ jdoucı´ch slov.

Vy´znamneˇji se kolokacemi zaby´vali iChurchaHanksv roce 1990 [4]. Z Chouekovy definice odstranili omezenı´ neprˇerusˇovane´ sekvence slov. Pracovali vsˇak pouze s dvouslovny´mi koloka-

(14)

cemi. Dalsˇı´ krok v rozsˇı´rˇenı´ definice provedlSmadjav roce 1993 [5]. Odstranil z nı´ vsˇe, co se ty´kalo de´lky kolokacı´ a neomezoval se ani na neprˇerusˇovane´ fra´ze.

Manning(1999) definuje kolokace podobneˇ sˇiroce jako Firth: „Kolokace je vy´raz skla´dajı´cı´ se ze dvou a vı´ce slov, ktery´ se pouzˇı´va´ jako zazˇite´ a tradicˇnı´ oznacˇenı´ konkre´tnı´ho objektu nasˇeho vnı´ma´nı´.“

Prˇipousˇtı´ take´, zˇe kolokace mu˚zˇe by´t i plneˇ kompozicˇnı´. Mu˚zˇe se jednat naprˇ. o navza´jem silneˇ asociovana´ slova, ktera´ se nemusı´ vyskytovat v dane´m porˇadı´ nebo ve spolecˇne´m kontextu.

Definice kolokace, ktera´ je pouzˇita v te´to pra´ci, vycha´zı´ z anglicke´ho vy´kladove´ho slovnı´ku Collins Cobuild English Dictionary[7]. Pojemkolokovat (collocate) dle neˇj znamena´: „vyskytovat se spolecˇneˇ“. Kolokace tedy mu˚zˇeme definovat takto:

Definice 1:Kolokace je skupina slov, ktera´ se cˇasto vyskytujı´ spolecˇneˇ.

Tato definice je vsˇak poneˇkud problematicka´, zejme´na pouzˇitı´m dosti nejednoznacˇny´ch slov cˇastoaspolecˇneˇ. Vy´skyt kolokacı´ nemusı´ by´t cˇasty´. I jejı´ obcˇasne´ pouzˇitı´ nic nemeˇnı´ na tom, zˇe se jedna´ o kolokaci. Prˇesneˇji lze kolokace definovat takto:

Definice 2:Kolokace je skupina slov, ktera´ se v textu vyskytujı´ relativneˇ cˇasto azˇ typicky v neˇjake´m omezene´m kontextu spolecˇneˇ.

Ne vsˇechny takto definovane´ kolokace jsou vsˇak zajı´mave´. Naprˇ.by´t jesˇteˇnebomoci by´tjsou fra´ze, ktere´ jsou velmi pouzˇı´vane´ a tudı´zˇ v textech velmi cˇaste´. Ze se´manticke´ho hlediska jsou ale naprosto nezajı´mave´. Definujme tedy kolokace se´manticky vy´znamne´, ktery´mi se budeme da´le zaby´vat.

Definice 3:Kolokaci nazy´va´me se´manticky signifikantnı´, pokud bud’: (A) je to slovnı´ spojenı´

vyjadrˇujı´cı´ vy´znam, jenzˇ typicky by´va´ vyjadrˇova´n pra´veˇ tı´mto zpu˚sobem a cˇasto je jiny´m zpu˚sobem vyja´drˇitelny´ jen obtı´zˇneˇ nebo vu˚bec, anebo (B) obsahuje slova se´manticky souvisejı´cı´.

Slova vytva´rˇejı´cı´ kolokaci nazy´va´me komponenty kolokace. Se´manticky signifikantnı´ kolo- kace je tedy struktura konstituovana´ svy´mi komponentami a vztahy mezi nimi.

Jestlizˇe vztahy mezi komponentami kolokace jsou syntakticko-za´vislostnı´ (varianta A.), mluvı´me o kolokacı´ch prve´ho druhu – jedna´ se o idiomaticke´ fra´ze, odborne´ termı´ny majı´cı´

specificky´ vy´znam, vlastnı´ jme´na oznacˇujı´cı´ singula´rnı´ objekty, nebo jina´ usta´lena´ a zazˇita´

slovnı´ spojenı´.

V opacˇne´m prˇı´padeˇ (varianta B.), kdy vztah mezi komponentami kolokace je pouze je- jich se´manticka´ prˇı´buznost, podobnost, odvozenost nebo jina´ se´manticka´ souvislost, hovorˇı´me o kolokacı´ch druhe´ho druhu.

Pozna´mka 1:Kdykoliv bude v cele´ te´to pra´ci pouzˇit pojem kolokace, budeme mı´t vzˇdy na mysli kolokace se´manticky signifikantnı´.

Pozna´mka 2: Kolokace prvnı´ho druhu v nasˇem pojetı´ jsou blı´zke´ tomu, co by´va´ dnes cˇasto a poneˇkud va´gneˇ oznacˇova´no jako „fra´ze“. V tradicˇnı´ cˇeske´ lingvistice se mluvı´ o tzv.vı´ceslovne´m

(15)

2.2 CHARAKTERISTICKE´ VLASTNOSTI KOLOKACI´ 7

nebosdruzˇene´m pojmenova´nı´nebo osouslovı´. Citujme naprˇ. Sˇmilauera [26, str. 28]: „ . . . pojmeno- va´nı´m s usta´leny´m vy´znamem a usta´lenou formou jeslovov sˇirsˇı´m smyslu slova (i jedno slovo, i souslovı´, tj. spojenı´ slov s platnostı´ jednoho slova).“; tamte´zˇ, str. 252: „Souslovı´ (sdruzˇene´ pojme- nova´nı´) je usta´lene´ pojmenova´nı´, ktere´ vzniklo ze spojenı´ dvou i vı´ce slov, ma´ vsˇak vy´znam slova jednoho a vstupuje do veˇty jako hotovy´ celek.“.

Proble´my s urcˇova´nı´m kolokacı´

Na zacˇa´tku kapitoly jsme zmı´nili problematicke´ rozlisˇova´nı´, co kolokace je a co nenı´. Stanovenı´, zda-li konkre´tnı´ -tice slov je cˇi nenı´ kolokacı´, za´visı´ na mnoha okolnostech:

a)Dome´na- Zatı´mco technicky´ termı´n je ve sve´m oboru jisteˇ kolokacı´, v jine´ oblasti mu˚zˇe by´t zcela kompozicˇnı´ a kolokaci tvorˇit nemusı´. Kolokace v jedne´ dome´neˇ pouzˇitı´ jsou zcela odlisˇne´

nezˇ v jine´.

b)Veˇdomosti- U´rovenˇ veˇdomostı´ a znalostı´ cˇloveˇka, ktery´ rozhoduje o zarˇazenı´ souslovı´ mezi kolokace, tento proces podstatneˇ ovlivnˇujı´. Nemusı´ se jednat pouze o znalosti specificke´ pro dany´

obor, ale take´ o znalosti jazykove´.

c)Subjektivnost- I kdyby meˇli dva lide´ stejnou u´rovenˇ znalostı´ a veˇdomostı´, vzˇdy se mu˚zˇe sta´t, zˇe jeden z nich souslovı´ za kolokaci oznacˇı´ a jiny´ ne. Urcˇova´nı´ kolokacı´ je vzˇdy subjektivnı´, cozˇ plyne i z povahy samotne´ definice.

2.2 Charakteristicke´ vlastnosti kolokacı´

Kolokace jsou velmi zajı´mavy´ fenome´n a lze u nich pozorovat ru˚zne´ vlastnosti. Podotkneˇme, zˇe ne vsˇechny kolokace musejı´ mı´t vsˇechny na´sledujı´cı´ znaky.

Nekompozicˇnost

Nekompozicˇnost je jednı´m ze za´kladnı´ch a nejcˇasteˇjsˇı´ch znaku˚ kolokacı´. Pokud je kolokace nekompozicˇnı´, znamena´ to, zˇe jejı´ prˇesny´ a jednoznacˇny´ vy´znam nelze zı´skat pouhy´m spojenı´m vy´znamu˚ jejı´ch jednotlivy´ch komponent. Bud’ je jejı´ vy´znam naprosto odlisˇny´ a s vy´znamy jed- notlivy´ch komponent nema´ nic spolecˇne´ho (idiomy -nata´hnout bacˇkory,varˇit z vodyapod.), nebo se jedna´ o zvla´sˇtnı´ vedlejsˇı´ cˇi prˇidany´ vy´znam, ktery´ nenı´ z jednotlivy´ch cˇa´stı´ patrny´ (naprˇ. souslovı´

bı´le´ vı´no,bı´ly´ muzˇnebo bı´le´ vlasy- ve vsˇech prˇı´padech je slovembı´ly´mı´neˇna zcela jina´ barva a nikdy nenı´ opravdu bı´la´. Jedna´ se o kolokace).

Nesubstituovatelnost

Komponenty kolokacı´ nelze cˇasto nahrazovat jiny´mi slovy, i kdyby to byla synonyma nebo svy´m vy´znamem le´pe zapadala kontextu. Naprˇ. v kolokacibı´le´ vı´nonemu˚zˇeme nahradit prˇı´davne´

jme´nobı´ly´za naprˇ.zˇluty´i prˇesto, zˇe mu˚zˇe le´pe vystihovat barvu bı´le´ho vı´na. Nemu˚zˇeme pouzˇı´t fra´zinata´hnout prˇezu˚vkymı´stonata´hnout bacˇkoryve vy´znamuzemrˇı´t, nikdo by na´m nerozumeˇl.

(16)

Nemodifikovatelnost

Neˇktere´ kolokace nelze modifikovat tak, zˇe bychom ubrali nebo prˇidali dalsˇı´ lexika´lnı´ prvek nebo je zmeˇnili gramaticky. Toto je opeˇt typicky´ znak idiomu˚. Tak naprˇ. nelze mı´sto fra´zevarˇit z vodyve smyslu „mluvit o nicˇem, vymy´sˇlet si“ pouzˇı´t jejı´ modifikovanou verzivarˇit ze studene´

vody. Idiom by opeˇt naprosto pozbyl sve´ho pu˚vodnı´ho smyslu. Stejneˇ tak nemu˚zˇeme bez u´jmy na vy´znamu rˇı´ctzbraneˇ obrovske´ho hromadne´ho nicˇenı´na mı´stozbraneˇ hromadne´ho nicˇenı´. Posluchacˇi by na´m pravdeˇpodobneˇ rozumeˇli, ale nacˇ meˇnit zazˇitou fra´zi?

Vnitrˇnı´ struktura

U kolokacı´ prvnı´ho druhu existujı´ mezi jejich komponentami syntakticke´ za´vislosti (viz [31], [32]). Jako celek tvorˇı´ syntakticky´ za´vislostnı´ strom. U dvouslovny´ch kolokacı´ jednodusˇe rozli- sˇujeme rˇı´dı´cı´ slovo (korˇen syntakticke´ho stromu) aza´visle´ slovo. U delsˇı´ch kolokacı´ je struktura slozˇiteˇjsˇı´. U kolokacı´ druhe´ho druhu syntakticka´ za´vislost mezi komponentami neexistuje, resp.

ji neuvazˇujeme, mu˚zˇe by´t ru˚zny´ch typu˚ a je pro na´s nepodstatna´.

Prˇeklad do jiny´ch jazyku˚

Cˇasty´m znakem kolokace by´va´ skutecˇnost, zˇe do cizı´ho jazyka se prˇekla´da´ jinak nezˇ doslovny´m prˇekladem kazˇde´ komponenty. Cˇeskou fra´ziudeˇlat rozhodnutı´bychom do francouzsˇtiny prˇelozˇili slovo po sloveˇ jakofaire une de´cision, ale spra´vny´ prˇeklad jerendre une de´cision. Z toho plyne, zˇe udeˇlat rozhodnutı´je pravdeˇpodobneˇ kolokace.

Dle Sˇmilauera kolokace mı´vajı´ synonyma a cizı´ ekvivalenty jednoslovne´ (prˇ.nevı´m kdo=neˇkdo;

tova´rna na letadla= rus.aviazavod) [26, str. 252].

Kolokacˇnı´ kontext

Kolokace jsou jevem loka´lnı´m. Komponenty kolokace se vzˇdy nacha´zejı´ v urcˇite´ omezene´

vzda´lenosti v textu od sebe.Kolokacˇnı´ kontextje kontext slova, ve ktere´m mohou lezˇet slova, ktera´

s nı´m tvorˇı´ kolokaci. Pro idiomy je tento kontext velmi omezeny´, cˇasto nemohou by´t modifiko- va´ny vlozˇenı´m jine´ho slova. Ve veˇteˇ, ve ktere´ se vyskytujı´ slova nata´hnout abacˇkory jinak nezˇ v povrchove´m slovosledu teˇsneˇ za sebou, urcˇiteˇ se nejedna´ o idiom s vy´znamemzemrˇı´t. Podobneˇ je to u vlastnı´ch jmen. Naopak neˇktere´ kolokace jsou daleko volneˇjsˇı´ a jejich kontext je veˇtsˇı´. Naprˇ.

kolokacenaklepat masose mu˚zˇe objevit i ve veˇteˇ „Maminka naklepala vcˇera zakoupene´ libove´ veprˇove´

maso.“, ve ktere´ jsou mezi jejı´m komponentami 4 dalsˇı´ slova. U kolokacı´, ktere´ jsou se´manticky podobny´mi slovy, je kontext kolokace jesˇteˇ veˇtsˇı´, mu˚zˇeme azˇ prˇekracˇovat hranice veˇty, souvislost mezi jednotlivy´mi slovy je pak hu˚rˇe prokazatelna´.

Na kolokacˇnı´ kontext se mu˚zˇeme dı´vat z ru˚zny´ch pohledu˚. Mu˚zˇe to by´t veˇtny´ u´sek v po- vrchove´m slovosledu, mu˚zˇe to by´t take´ cˇa´st stromu syntakticke´ za´vislosti apod. Teˇchto ru˚zny´ch pohledu˚ na kolokacˇnı´ kontext vyuzˇijeme v kapitole 4.4 jako ru˚zne´ varianty zı´ska´va´nı´ potencia´lnı´ch kolokacı´.

(17)

2.3 KLASIFIKACE A KATEGORIZACE KOLOKACI´ 9

2.3 Klasifikace a kategorizace kolokacı´

V prˇedchozı´ kapitole jsme se soustrˇedili na typicke´ vlastnosti kolokacı´. Nynı´ si uka´zˇeme, jak lze podle mı´ry projevu teˇchto vlastnostı´ kolokace klasifikovat a kategorizovat. Zarˇazenı´ nemusı´

by´t vzˇdy jednoznacˇne´, neˇktere´ kategorie se prolı´najı´ a hranice mezi nimi nenı´ vzˇdy zrˇetelna´.

2.3.1 Se´manticke´ hledisko

1. A B

A+B

Kolokace dokonale nekompozicˇnı´. Jejich vy´znam je zcela odlisˇny´ od vy´znamu komponent. Cˇasto jsou to idiomy nebo vlastnı´ jme´na, ktera´ neobsahujı´ oznacˇenı´ druhu, ktery´ pojmenova´vajı´.

Prˇı´klad:nata´hnout bacˇkory, tlouct sˇpacˇky, chytat lelky, Oldrˇich Novy´, Coca Cola

2. Kolokace cˇa´stecˇneˇ nekompozicˇnı´. Alesponˇ pro jednu komponentu platı´, zˇe jejı´ vy´znam nenı´

zcela obsazˇen ve vy´znamu kolokace (resp. pouze cˇa´st z vy´znamu˚ komponenty je zahrnuta ve vy´znamu kolokace). Je to zpu˚sobeno prˇedevsˇı´m tı´m, zˇe se jedna´ o slovo mnohovy´znamove´

(homonymum) a teprve cela´ kolokace tento vy´znam jednoznacˇneˇ urcˇuje. Cˇasto se take´ jedna´

o vlastnı´ jme´na, ktera´ obsahujı´ oznacˇenı´ druhu, jenzˇ pojmenova´vajı´ (na´meˇstı´, ulice).

a) B

A

A+B

Prˇı´klad:Na´rodnı´ trˇı´da

b) A B

A+B

Prˇı´klad:rˇa´dova´ sestra, Cˇerveny´ krˇı´zˇ

c)

A

B

A+B

Prˇı´klad:Karlu˚v most, Staromeˇstske´ na´meˇstı´

d)

A

B

A+B

Prˇı´klad:koruna stromu, horske´ oko

(18)

3. A B

A+B

Kolokace slabeˇ nekompozicˇnı´. Vy´znam komponent je zcela obsazˇen ve vy´znamu kolokace, ale nepokry´va´ jej cely´, a sta´le zde existuje nezanedbatelna´ „prˇidana´ hodnota“.

Prˇı´klad:sˇirokou´hly´ film, zpeˇtny´ projektor, rˇidicˇsky´ pru˚kaz, odpadkovy´

kosˇ, tiskova´ konference, zubnı´ le´karˇ, znojemska´ okurka

4. A B

A+B Kolokace kompozicˇnı´- usta´lena´ slovnı´spojenı´bez prˇidane´ho vy´znamu.

Jejich vy´znam je zcela kompozicˇnı´, neobsahuje zˇa´dnou „prˇi- danou hodnotu“ jsou vsˇak charakteristicke´ cˇasty´m a zazˇity´m pouzˇı´va´nı´m. Komponenty jsou syntakticky za´visle´.

Prˇı´klad:tlusta´ kniha, nova´ verze, novy´ rok, strucˇny´ popis, volne´ mı´sto, velky´ objem, minuly´ rok, tlusta´ kniha, vysoky´ stupenˇ

5.

A+B

B Kolokace kompozicˇnı´ - se´manticky prˇı´buzna´ nebo blı´zka´ slova. Jejich A

vy´znam je opeˇt zcela kompozicˇnı´, nerozlisˇujeme u nich zˇa´dnou syntaktickou za´vislost komponent. Jsou to plnovy´znamova´ slova, ktera´ se cˇasto vyskytujı´ ve stejne´m kontextu. Tato kategorie je shodna´ s kolokacemidruhe´ho druhu.

Prˇı´klad:kapita´n - lod’, ota´zka - odpoveˇd’, kapka - de´sˇt’, motor - karbura´tor, zˇidle - stu˚l, le´karˇ - pacient, cˇerny´ - bı´ly´, stary´ - novy´

Ze se´manticke´ho hlediska lze kolokace klasifikovat dle vztahu mezi vy´znamy dı´lcˇı´ch kompo- nent kolokace a vy´znamem kolokace samotne´. Za´kladnı´ rozdeˇlenı´ je v souladu s definicı´ kom- pozicˇnosti na´sledujı´cı´: Pokud kolokace vytva´rˇı´ novy´ vy´znam, tzn. obsahuje jistou „prˇidanou hodnotu“, kterou nelze zı´skat z dı´lcˇı´ch slov, jedna´ se okolokaci nekompozicˇnı´. V prˇı´padeˇ, zˇe lze vy´znam kolokace zı´skat spojenı´m vy´znamu komponent, tzn. zˇa´dny´ novy´ vy´znam nevytva´rˇı´, jedna´ se okolokaci kompozicˇnı´.

Pokud bychom chteˇli podrobneˇ studovat ru˚zne´ zpu˚soby skla´da´nı´ vy´znamu kolokacı´, mu˚zˇeme vycha´zet z vy´sˇe uvedene´ho vy´cˇtu, ktery´ obsahuje trˇi za´kladnı´ varianty skla´da´nı´ vy´znamu˚ ne- kompozicˇnı´ch kolokacı´ a dveˇ varianty pro kolokace kompozicˇnı´. Uvazˇujeme kolokace o dvou komponenta´ch, cozˇ je pro na´zornost dostacˇujı´cı´; u slozˇiteˇjsˇı´ch kolokacı´ by byl princip stejny´. Vy´- znamy slov i kolokacı´ cha´peme jako mnozˇiny. Jednotlive´ prˇı´pady odpovı´dajı´ ru˚zny´m mı´ra´m po- krytı´ cˇi nepokrytı´ vy´znamu komponent vy´znamem kolokace. Velky´ obla´cˇek reprezentuje vy´znam kolokace, maly´ obla´cˇek pak zahrnuje vy´znam (nebo vy´znamy, pokud se jedna´ o homonymum) prˇı´slusˇne´ komponenty.

Jednotlive´ kategorie jsou setrˇı´deˇne´ prˇiblizˇneˇ podle klesajı´cı´ mı´ry kompozicˇnosti. Dodejme, zˇe zarˇazenı´ jednotlivy´ch kolokacı´ do teˇchto kategoriı´ je subjektivnı´ a mu˚zˇe by´t nejednoznacˇne´, stejneˇ jako pohled na samotnou kompozicˇnost. Velmi dobry´m krite´riem pro urcˇenı´ kompozicˇnosti nebo nekompozicˇnosti kolokace je na´sledujı´cı´ test.

Test nekompozicˇnosti kolokace

Necht’neˇkdo zna´ dobrˇe (dokonale) vy´znamy komponent kolokace, ale nezna´ vy´znam kolokace samotne´ (trˇeba ji jesˇteˇ neslysˇel, nebo neumı´ dobrˇe cˇesky apod.). Pak jestlizˇe mu rˇekneme kolokaci,

(19)

2.3 KLASIFIKACE A KATEGORIZACE KOLOKACI´ 11

pochopı´ s jistotou jejı´ vy´znam? – Pokud ne, je kolokace (alesponˇ slabeˇ) nekompozicˇnı´. Jinak je (plneˇ) kompozicˇnı´.

Rozlozˇitelnost kolokace

Sˇmilauer [26, str. 252] si vsˇı´ma´ toho, zda lze kolokaci rozlozˇit. Citujeme: Souslovı´ majı´ ru˚zne´

stupneˇ:

(1) jsou nerozlozˇitelna´ a jsou v nich slova jinak neuzˇı´vana´:krˇı´zˇem kra´zˇem, je nabı´ledni;

(2) cˇleny jsou teˇsneˇ spojeny, a proto se prˇes svou sourˇadnost neoddeˇlujı´ cˇa´rkou:ve dne v noci, vsta´vaje lehaje, zuby nehty;

(3) jsou rozlozˇitelna´, ale jako celek metaforicka´: (moty´l) babocˇkapavı´ oko(nenı´ ani pavı´ ani oko);

(4) jsou rozlozˇitelna´ a jen jeden cˇlen je metaforicky´:vlcˇı´ ma´k(je to vskutku ma´k, ale oznacˇenı´

„vlcˇı´“ je obrazne´);

(5) oba cˇleny jsou plneˇ vy´znamove´:jı´zdnı´ rychlost.

2.3.2 Gramaticke´ hledisko

Z pohledu gramatiky lze u kolokacı´ pozorovat dva znaky: z morfologicke´ho hlediskaslovnı´

druhykomponent a z pohledu syntaxetypy syntakticky´ch za´vislostı´.

Slovnı´ druhy

Podle slovnı´ch druhu˚ jednotlivy´ch komponent u kolokacı´ urcˇujeme tzv.slovneˇdruhove´ typy kolokacı´. Ja´drem kolokacı´ jsou veˇtsˇinou autose´manticka´ slova, tedy slova na´sledujı´cı´ch slovnı´ch druhu˚: N - podstatna´ jme´na, A - prˇı´davna´ jme´na, C - cˇı´slovky, V - slovesa, D - prˇı´slovce. V prˇı´- padeˇ delsˇı´ch fra´zı´ se v nich objevujı´ i prˇedlozˇky a dalsˇı´ neautose´manticke´ slovnı´ druhy. Prˇehled nejcˇasteˇjsˇı´ch slovneˇdruhovy´ch typu˚ je uveden v tabulce 2.1. Vysveˇtlivky pouzˇity´ch zkratek jsou take´ uvedeny v prˇı´loze.

Syntakticka´ za´vislost

Jak jizˇ bylo uvedeno drˇı´ve, kolokace majı´ velmi cˇasto syntakticky ucelenou strukturu. V za´vis- lostnı´ch stromech veˇt tvorˇı´ podstromy, ktere´ nemusejı´, ale mohou, by´t da´le rozvı´jene´. Podle druhu˚

syntakticky´ch za´vislostı´ mu˚zˇeme rozlisˇovat typy dvojslovny´ch kolokacı´, ktere´ jsou uvedeny v ta- bulce 2.2.

Typ syntakticke´ za´vislosti mezi rˇı´dı´cı´m a za´visly´m slovem mu˚zˇeme obohatit o slovnı´ druhy obou slov. Kazˇdy´ typ syntakticke´ za´vislosti mu˚zˇe totizˇ asociovat slova ru˚zny´ch slovnı´ch druhu˚.

Zı´ska´me tak mozˇnost detailneˇjsˇı´ kategorizace kolokacı´. Prˇehled teˇchto tzv.rozsˇı´rˇeny´ch typu˚ syntak- ticke´ za´vislostije v tabulce 2.3.

(20)

typ prˇı´klad A N linea´rnı´ funkce N N na´slednı´k tru˚nu

D A N objektoveˇ orientovany´ jazyk N A N zbraneˇ hromadne´ho nicˇenı´

N R N tuzˇka na obocˇı´

Tabulka 2.1:Nejcˇasteˇjsˇı´ slovneˇdruhove´ typy kolokacı´

typ za´vislosti druh kolokace prˇı´klad kolokace Atr prˇı´vlastkova´ (atributova´) cenny´ papı´r

Sb podmeˇtova´ (subjektova´) soud rozhodl Obj prˇedmeˇtova´ (objektova´) da´vat prˇednost Adv prˇı´slovecˇna´ (adverbia´lnı´) zdravotneˇ postizˇeny´

Tabulka 2.2:Kategorizace kolokacı´ podle typu˚ syntakticky´ch za´vislostı´

za´kladnı´ typ kolokace rozsˇı´rˇeny´ typ prˇı´klad

subjektove´ (V, Sb, N) dolar posı´lil

(V, Sb, V) prˇekvapilo, zˇe prsˇı´

objektove´ (V, Obj, N) podat hla´sˇenı´

(V, Obj, V) prˇestalo prsˇet (A, Obj, N) podobny´ barvou

atributove´ (N, Atr, N) povrch Zemeˇ

(N, Atr, A) za´kony prˇı´rodnı´

adverbia´lnı´ (V, Adv, D) sexua´lneˇ obteˇzˇovat (V, Adv, N) poslat posˇtou (A, Adv, D) silneˇ souvisly´

(A, Adv, N) poha´neˇny´ akumula´torem (V, Adv, V) odejı´t studovat

(D, Adv, N) kolmo k prˇı´mce

Tabulka 2.3:Typy rozsˇı´rˇeny´ch syntakticky´ch za´vislostı´ v kolokacı´ch

(21)

2.3 KLASIFIKACE A KATEGORIZACE KOLOKACI´ 13

pacient postizˇeny´

(N, Atr, A)

zdravotneˇ

(A, Adv, D)

zbraneˇ nicˇenı´

(N, Atr, N)

hromadne´ho

(N, Adv, A)

prˇijı´t k

(V, AuxP, R)

sobeˇ

(P, Adv, R)

dra´ha obeˇzˇna´

(N, Atr, A)

Slunce

(N, Atr, N)

Tabulka 2.4:Nejcˇasteˇjsˇı´ typy syntakticky´ch za´vislostı´ ve vı´ceslovny´ch kolokacı´ch

U dvojslovny´ch kolokacı´, ktery´mi se budeme zaby´vat prˇedevsˇı´m, pak mu˚zˇeme podle druhu˚

za´vislostı´ prˇı´mo definovatsyntakticke´ druhykolokacı´. U vı´ceslovny´ch kolokacı´ musı´me rozlisˇo- vat i tvary jejich za´vislostnı´ch stromu˚. Prˇı´klady jsou na obra´zku 2.4.

2.3.3 Pozice v textu

Podle vy´skytu komponent kolokace v povrchove´m slovosledu vu˚cˇi sobeˇ navza´jem rozlisˇujeme kolokace pevne´akolokace volne´. Pevne´ kolokace charakterizuje jejich nemodifikovatelnost prˇi- da´nı´m dalsˇı´ch slov. Komponenty nelze rozvı´jet ani prˇı´vlastky nebo prˇı´slovecˇny´mi urcˇenı´mi tak, zˇe by komponenty kolokace vu˚cˇi sobeˇ navza´jem zmeˇnily polohu. Jejich slovosled je nemeˇnny´ a pevneˇ dany´. Volne´ kolokace toto omezenı´ nemajı´. Lze je libovolneˇ modifikovat pomocı´ prˇı´vlastku˚

i prˇı´slovecˇny´ch urcˇenı´, anizˇ by byl ovlivneˇn jejich vy´znam nebo anizˇ by ztratily status kolokace.

Prˇı´klad:Pevne´ kolokace

danˇove´ prˇizna´nı´, cˇerveny´ krˇı´zˇ, peneˇzˇnı´ denı´k, Velka´ Brita´nie, prˇı´ma´ viditelnost

Prˇı´klad:Volne´ kolokace

plynova´ elektricka´ turbı´na, platebnı´ mezibankovnı´ styk, desetinna´ rˇa´dova´ cˇa´rka, spotrˇeba elektricke´ energie, kla´st velky´ du˚raz

2.3.4 Funkcˇnı´ hledisko

Kolokace mohou tvorˇit ru˚zne´ jazykove´ u´tvary (nebo mohou by´t jejich soucˇa´stı´), naprˇ.idiomy, vlastnı´ jme´na,technicke´ vy´razy a termı´ny. Cˇasto obsahujı´ ivy´znamoveˇ pra´zdna´ slovesa(udeˇlat, ucˇinit, by´t, mı´t, ap.), ktera´ sama o sobeˇ nemajı´ velky´ se´manticky´ vy´znam, ale ve spojenı´ s dalsˇı´mi komponentami kolokace tento vy´znam naby´vajı´ (udeˇlat rozhodnutı´,mı´t naspeˇch).

2.3.5 Hledisko vyhleda´va´nı´ informacı´

Z pohledu dokumentograficky´ch syste´mu˚ (DIS) lze deˇlit kolokace do dvou kategoriı´.Kolokace vhodne´ pro indexova´nı´jsou ty, ktere´ ma´ smysl v DIS indexovat, protozˇe tvorˇı´ se´mantickou jednotku.

Jejich vy´skyty v dokumentech jsou pak evidova´ny v indexu a je mozˇne´ je velmi efektivneˇ vyhle- da´vat. Jsou take´ syntakticky´m celkem, ktery´ mu˚zˇe by´t soucˇa´stı´ uzˇivatelsky´ch dotazu˚.Kolokace

(22)

nevhodne´ pro indexova´nı´ jsou vsˇechny ty, jejichzˇ indexova´nı´ se z hlediska efektivity vyhleda´va´nı´

v DIS nevyplatı´. Takove´ kolokace nemohou by´t soucˇa´stı´ uzˇivatelsky´ch dotazu˚ jako jeden vı´ce- slovny´ term. Dle definice patrˇı´ do prvnı´ kategorie vsˇechny kolokace prvnı´ho druhu a do druhe´

kolokace druhe´ho druhu.

2.4 Prakticke´ vyuzˇitı´ kolokacı´

Jak jizˇ bylo rˇecˇeno v u´vodu, kolokace majı´ velmi sˇiroke´ mozˇnosti pouzˇitı´, a to zejme´na ve dvou oblastech: komputacˇnı´ lingvistice a vyhleda´va´nı´ informacı´ v dokumentograficky´ch informacˇnı´ch syste´mech (DIS). V prˇı´padeˇ lingvistiky je cı´lem jednora´zoveˇ vytvorˇit co nejobsa´hlejsˇı´ seznam kolokacı´ pouzˇitelny´ v ru˚zny´ch oblastech. V prˇı´padeˇ DIS je cı´lem kolokace automaticky extrahovat z prˇedlozˇeny´ch textu˚.

2.4.1 Komputacˇnı´ lingvistika

Konstrukce slovnı´ku˚- at’ uzˇ se´manticky´ch (vy´kladovy´ch) nebo i prˇekladovy´ch. Kolokace velmi cˇasto vytva´rˇejı´ novy´ se´manticky´ vy´znam, jejich automaticka´ extrakce velmi zjednodusˇı´

konstrukci slovnı´ku pojmu˚, termı´nu˚ atd. Podobneˇ je to i s prˇeklady do cizı´ch jazyku˚, kolokace cˇasto nelze prˇelozˇit slovo po sloveˇ neza´visle na sobeˇ.

Automaticke´ prˇekladytextu˚ v prˇirozene´m jazyce. Toto vyuzˇitı´ kolokacı´ opeˇt souvisı´ s jejich specificky´m prˇekladem do jiny´ch jazyku˚. Pokud budeme mı´t k dispozici prˇekladovy´ slovnı´k obsahujı´cı´ vı´ceslovne´ fra´ze, nebudeme muset prˇekla´dat slova 1:1, ale N:N nebo M:N.

Kontrola pravopisu. Prˇi kontrole pravopisu mohou by´t porovna´vany´mi elementy nejen slova, ale i jejich kombinace. Odhalı´me tak nejen sˇpatny´ pravopis slov, ale i prˇı´pady, kdy jsou cela´ slova nevhodneˇ pouzˇita ve veˇteˇ (bı´le´ vı´no zˇlute´ vı´no).

Rozpozna´va´nı´ textu, ale i rˇecˇi a jazyka. Obecneˇ jde o jake´koliv prˇı´pady, kdy se jedna´ o predikci slov v textu v za´vislosti na prˇedchozı´ch slovech (tzv. jazykovy´ model). Opeˇt mu˚zˇeme ocˇeka´vat veˇtsˇı´ u´speˇsˇnost spra´vne´ho urcˇenı´ slova, ktere´ nemu˚zˇeme naprˇ. zcela rozpoznat, v prˇı´padeˇ, zˇe prˇedchozı´ slova sveˇdcˇı´ o vy´skytu konkre´tnı´ kolokace.

Synte´za textu, resp. rˇecˇi. Jedna´ se opacˇny´ postup k vy´sˇe uvedene´mu, tzn. vy´beˇr vhodny´ch slov a jejich skla´da´nı´ do veˇtsˇı´ch celku˚ (fra´zı´, veˇt). Pouzˇitı´m slovnı´ku kolokacı´ se mu˚zˇeme sna´ze vyvarovat pouzˇitı´ nevhodny´ch slov na nevhodny´ch mı´stech.

2.4.2 Vyhleda´va´nı´ informacı´

Se´manticka´ disambiguace- tedy urcˇova´nı´ konkre´tnı´ho vy´znamu slova v textu. V mnoha prˇı´padech tento vy´znam za´visı´ na kontextu a znalost jeho kolokacı´ nebo kolokacı´ ostatnı´ch slov zjednodusˇuje, resp. zlepsˇuje vy´sledky tohoto procesu. Kolokace cˇasto tvorˇı´ slova, ktera´ majı´ vı´ce vy´znamu˚, a teprve vy´skyt teˇchto slov v kolokaci urcˇuje jejich konkre´tnı´ vy´znam.

Klasifikace dokumentu˚podle jejich obsahu. Jelikozˇ kolokace cˇasto vytva´rˇejı´ novy´ specificky´

vy´znam, s jejich znalostı´ budeme schopni konkre´tneˇji urcˇit te´ma dokumentu.

(23)

2.4 PRAKTICKE´ VYUZˇITI´ KOLOKACI´ 15

Hleda´nı´ klı´cˇovy´ch slovdokumentu˚. Ze stejny´ch du˚vodu˚ jako v prˇedchozı´m prˇı´padeˇ, pokud v klı´cˇovy´ch slovech pouzˇijeme kolokace a ne pouze jednoslovne´ termy, mu˚zˇeme ocˇeka´vat, zˇe budou le´pe reprezentovat odpovı´dajı´cı´ dokument.

Indexace dokumentu˚. V te´to oblasti je pouzˇitı´ pravdeˇpodobneˇ nejprˇı´nosneˇjsˇı´. V prˇı´padeˇ, zˇe jsme schopni z dokumentu˚ extrahovat kolokace, mu˚zˇeme je spolu s jednoslovny´mi termy pouzˇı´t jako elementy pro indexaci. Pokud rozpozna´me i kolokace ve vyhleda´vacı´ch dotazech a pouzˇijeme je pro vyhleda´va´nı´, mu˚zˇeme opeˇt ocˇeka´vat vy´sledky lepsˇı´ nezˇ prˇi klasicke´m indexova´nı´

a vyhleda´va´nı´ kombinacı´ slov na sobeˇ neza´visly´ch.

(24)
(25)

KAPITOLA3: AUTOMATICKA´ DETEKCE KOLOKACI´ 17

Kapitola 3

Automaticka´ detekce kolokacı´

V za´veˇru prˇedchozı´ kapitoly jsme se prˇesveˇdcˇili o velmi sˇiroke´m uplatneˇnı´ kolokacı´. My se soustrˇedı´me na jejich vyuzˇitı´ v oblasti dokumentograficky´ch syste´mu˚ (DIS). Existujı´ trˇi zpu˚soby, jak kolokace zı´skat:

1. Sestavova´nı´ seznamu kolokacı´lidskou silou, bez jake´koliv podpory - nesystematicke´, slozˇite´, cˇasoveˇ na´rocˇne´, subjektivnı´

2. Detekce kolokacı´ z textu˚lidskou silou- systematicke´, cˇasoveˇ na´rocˇne´, subjektivnı´

3. Automaticka´detekce kolokacı´ z textu˚ - systematicke´, cˇasoveˇ nena´rocˇne´, objektivnı´, s jistou neprˇesnostı´

4. Poloautomaticka´detekce kolokacı´ z textu˚ - systematicke´, cˇasoveˇ na´rocˇneˇjsˇı´, pomeˇrneˇ prˇesne´, zatı´zˇene´ pouze subjektivnostı´

Prvnı´ dva prˇı´stupy jsou problematicke´ tı´m, zˇe se spole´hajı´ na lidskou sı´lu, zameˇrˇı´me se na mozˇnost trˇetı´ a pokusı´me se eliminovat jejı´ nedokonalosti a minimalizovat chyby. Mozˇnost cˇtvrta´

je velmi zajı´mava´ a zmı´nı´me se o nı´ pozdeˇji. Nynı´ prˇesneˇ specifikujme nasˇi u´lohu, definujme cı´le a navrhneˇme postup, jak teˇchto cı´lu˚ dosa´hnout.

3.1 Zada´nı´ a specifikace u´lohy

Prˇesne´ zada´nı´ u´lohy znı´ na´sledovneˇ:

”Navrhneˇte a pomocı´ prostrˇedku˚ vy´pocˇetnı´ techniky realizujte a srovnejte metody automaticke´ho vyhleda´va´nı´ ru˚zny´ch druhu˚ kolokacı´ v cˇesky´ch textech. ”

Podı´vejme se nynı´ na jednotlive´ cˇa´sti toho zada´nı´ a blı´zˇe je vysveˇtleme.

Vyhleda´va´nı´ kolokacı´ v textech.Budeme pracovat s prˇedlozˇeny´mi vstupnı´mi texty a v nich se budeme snazˇit kolokace detekovat. Mu˚zˇe se jednat o jake´koliv dokumenty forma´tovane´ jako

(26)

cˇisty´ text (plain text). Soustrˇedı´me se na jejich obsah, nikoli formu. Zpracova´vany´ text mu˚zˇeme ekvivalentneˇ oznacˇovat jako: texty/dokumenty, kolekce textu˚/dokumentu˚, textovy´ korpus apod.

Automaticke´ vyhleda´va´nı´.Detekce kolokacı´ musı´ by´t automaticka´. Lidskou silou vybrane´

kolokace mu˚zˇeme pouzˇı´t naprˇ. pro evaluaci a srovna´nı´ u´speˇsˇnosti ru˚zny´ch automaticky´ch metod.

Kolokace v cˇesky´ch textech.Dalsˇı´m prˇedpokladem je, zˇe zpracova´vane´ dokumenty jsou v cˇes- ke´m jazyce. V na´sledujı´cı´ kapitole uvidı´me, zˇe tato podmı´nka nemusı´ by´t dodrzˇena, a je proto nutne´ cizojazycˇne´ texty eliminovat. Prˇı´sneˇ vzato, nasˇe metody nevyhleda´vajı´cˇeske´ kolokace(kolo- kace v cˇesˇtineˇ), ny´brzˇkolokace v cˇesky´ch textech(cˇesky psany´ch). Tato distinkce je vy´znamna´ proto, zˇe v cˇesky´ch textech se mohou vyskytnout cizojazycˇne´ vy´razy, ktere´ jsou ve statisticke´m zpraco- va´nı´ rovnocenne´ cˇesky´m, a nelze je automaticky rozlisˇit. Proto prˇedpokla´da´me, zˇe ve vstupnı´ch zpracova´vany´ch dokumentech k takove´mu smı´sˇenı´ nedocha´zı´, a v na´sledujı´cı´ch kapitola´ch bu- deme slovy cˇeske´ kolokace rozumeˇtkolokace v cˇesky´ch textech, pokud to explicitneˇ nebude rˇecˇeno jinak.

Ru˚zne´ druhy kolokacı´.Kolokace, jak je uvedeno v kapitole 2.3, lze trˇı´dit do ru˚zny´ch kate- goriı´. Na´s zajı´ma´ prˇedevsˇı´m jejich se´manticky´ vy´znam a proto rozezna´va´me kolokace prvnı´ho druhuakolokace druhe´ho druhu, prˇı´padneˇ jejich poddruhy dle ru˚zny´ch zpu˚sobu˚ skla´da´nı´ vy´znamu.

Vyuzˇijeme take´ toho, zˇe ru˚zne´ metody detekce jsou zameˇrˇene´ na ru˚zne´ druhy kolokacı´.

Na´vrh metod.Zı´ska´va´nı´ kolokacı´ nenı´ novy´m proble´mem (viz kapitola 2.3). Za´kladnı´ metody, jak kolokace detekovat, jsou jizˇ zna´my. Protozˇe se jimi zaby´vali prˇedevsˇı´m anglicky mluvı´cı´ autorˇi, jsou prˇizpu˚sobeny anglicky´m textu˚m. Tyto metody se pokusı´me upravit pro cˇesˇtinu, vylepsˇit, prˇı´padneˇ navrhnout nove´.

Srovna´nı´ metod.Abychom mohli ru˚zne´ metody srovna´vat, je nutne´ definovat zpu˚sob evalu- ace, tj. meˇrˇenı´ jejich u´speˇsˇnosti, a stanovit, jake´ na´stroje k tomu lze pouzˇı´t.

Realizace metod.Ke srovna´nı´ u´speˇsˇnosti pouzˇity´ch metod je samozrˇejmeˇ nutna´ i jejich im- plementace. Metody implementujeme a pokusı´me se je aplikovat na rozsa´hlejsˇı´ textova´ data a vytvorˇit tak slovnı´k kolokacı´.

Prostrˇedky vy´pocˇetnı´ techniky.Vybrat vhodne´ prostrˇedky vy´pocˇetnı´ techniky je take´ du˚lezˇi- tou stra´nkou proble´mu, zvla´sˇteˇ pokud chceme pocˇı´tat s nasazenı´m detekce kolokacı´ naprˇ. v DIS.

Tyto prostrˇedky se navı´c mohou lisˇit pro fa´zi testova´nı´, srovna´va´nı´ a konecˇne´ho nasazenı´.

3.2 Metodologie

Struktura pracovnı´ho postupu rˇesˇenı´ u´lohy je zna´zorneˇna na obra´zku 3.1. Postup lze rozdeˇlit do neˇkolika na sebe navazujı´cı´ch fa´zı´:

1. Prˇedzpracova´nı´ vstupnı´ch textu˚

Prˇedzpracova´nı´ vstupnı´ch textu˚ spocˇı´va´ v kompletnı´ analy´ze vstupnı´ch dat a odstranˇova´nı´

nejru˚zneˇjsˇı´ch chyb, ktere´ mohou obsahovat. Data jsou pomocı´ lingvisticke´ analy´zy za pouzˇitı´

(27)

3.2 METODOLOGIE 19

!

"# $ %&

'(

(*)

,+-

,.

+.

', (*/.

0 ",

)

, ,1&2.-

3 *

,

$.

$4 .,)

Obra´zek 3.1:Postup pra´ce prˇi rˇesˇenı´ proble´mu detekce kolokacı´

automaticke´ho parseru opatrˇova´na podrobny´mi informacemi o lexika´lnı´ch jednotka´ch, morfolo- gicky´ch charakteristika´ch a syntakticky´ch za´vislostech.

2. Extrakce kolokujı´cı´ch bigramu˚

Zı´ska´nı´ kolokujı´cı´ch bigramu˚ jakozˇto prˇı´padny´ch kolokacı´ lze realizovat ru˚zny´mi postupy.

O jake´ postupy se jedna´, jak je lze vylepsˇit a jak mohou ovlivnit vy´sledky - to vsˇe je prˇedmeˇtem fa´ze cˇ. 2.

3. Aplikace metod detekce kolokacı´

V tomto kroku provedeme na mnozˇina´ch potencia´lnı´ch kolokacı´ posloupnost vy´pocˇtu˚ a testu˚.

Pro kazˇdy´ bigram pak zı´ska´me sadu hodnot, ktere´ by meˇly vı´ce cˇi me´neˇ vystihnout jeho mı´ru kolokativnosti, tzn.vlastnosti by´ti kolokacı´.

4. Hodnocenı´ kolokacı´

Pro srovna´nı´ vy´sledku˚ jednotlivy´ch metod je vhodne´ mı´t slovnı´k neza´visle klasifikovany´ch kolokacı´ - nejle´pe lidskou silou. Jak takovy´ slovnı´k zı´skat, prˇı´padneˇ jak k tomu vyuzˇı´t prˇedchozı´

metody, bude cı´lem fa´ze cˇ. 4 – hodnocenı´ kolokacı´.

5. Analy´za vy´sledku˚

Poslednı´ fa´ze spocˇı´va´ v kompletnı´ analy´ze vy´sledku˚, potvrzenı´ cˇi vyvra´cenı´ pu˚vodnı´ch do- mneˇnek o specializaci te´ ktere´ metody na ten ktery´ druh kolokacı´ apod. Pokusı´me se prˇesneˇji urcˇit za´vislosti vy´sledku˚ jednotlivy´ch metod na tom, zda zkoumany´ bigram tvorˇı´ cˇi netvorˇı´ ko- lokaci, prˇı´padneˇ nale´zt zpu˚sob, jak lze vy´sledky teˇchto metod kombinovat a dobrat se tak co nejlepsˇı´ch vy´sledku˚. Vy´sledkem bude aplikace nejlepsˇı´ metody a sestavenı´ slovnı´ku automaticky detekovany´ch kolokacı´.

(28)
(29)

KAPITOLA4: PRˇI´PRAVA TEXTU˚ A EXTRAKCE KOLOKUJI´CI´CH BIGRAMU˚ 21

Kapitola 4

Prˇı´prava textu˚ a extrakce kolokujı´cı´ch bigramu˚

U´vodnı´ fa´ze procesu automaticke´ detekce kolokacı´ se zaby´va´ prˇedzpracova´nı´m a prˇı´pravou kolekce vstupnı´ch textu˚. Aby bylo v pozdeˇjsˇı´ch fa´zı´ch dosazˇeno co nejlepsˇı´ch vy´sledku˚, musı´ zpra- cova´vane´ texty splnˇovat jista´ kriteria. Je nutne´ podrobit je analy´ze a vybrat pouze ty dokumenty, ktere´ dany´m podmı´nka´m vyhovujı´.

Cˇesky´ jazyk je z morfologicke´ho hlediska velmi bohaty´. Naprˇı´klad substantiva, ktera´ velmi cˇasto tvorˇı´ soucˇa´sti kolokacı´, se mohou vyskytovat azˇ ve cˇtrna´cti ru˚zny´ch tvarech (viz tabulka 4.1).

Abychom se prˇi detekci kolokacı´ vyhnuli neˇkolikana´sobne´mu a zbytecˇne´mu zpracova´nı´ ru˚zny´ch slovnı´ch tvaru˚ te´zˇe slovnı´kove´ jednotky, je nutne´ tyto za´kladnı´ tvary rozpoznat a da´l pracovat jen s nimi. Toto se deˇje na za´kladeˇ vy´sledku˚ tzv.lingvisticke´ analy´zy.

4.1 Automaticka´ lingvisticka´ analy´za

Lingvisticka´ analy´za je soucˇa´stı´ sˇirsˇı´ho procesu, tzv.znacˇkova´nı´, prˇi neˇmzˇ jsou texty pomocı´

znacˇek (tags) opatrˇova´ny doprovodny´mi informacemi (tj. anotova´ny)[8]. Text je rozcˇleneˇn na hie- rarchicky usporˇa´dane´ u´seky. Kazˇdy´ u´sek je uvozen tzv. otevı´racı´ znacˇkou ve tvaru<znacˇka>, pote´

na´sleduje prˇı´slusˇny´ u´sek textu, ktery´ by´va´ ukoncˇen tzv. uzavı´racı´ znacˇkou ve tvaru</znacˇka>

nebo otevı´racı´ znacˇkou nove´ho u´seku. Kazˇda´ znacˇka mu˚zˇe navı´c obsahovat atributy s prˇı´davny´mi informacemi. Vy´sledny´ anotovany´ text dodrzˇuje standardy forma´tu SGML.

Znacˇky jsou trojı´ho druhu: spra´vnı´ (vneˇjsˇı´ anotace), strukturnı´ a lingvisticke´ (vnitrˇnı´ anotace).

Nejdrˇı´ve se pomocı´spra´vnı´ch znacˇekvytvorˇı´ tzv. hlavicˇka, ktera´ obsahuje administrativnı´ u´daje o textu. Tvorˇı´ ji prˇedevsˇı´m informace o pu˚vodu, autorstvı´, typu a zdroji textu, prˇı´padneˇ zpu˚sobu znacˇkova´nı´. Pote´ jizˇ na´sleduje vlastnı´ lingvisticka´ analy´za, ktera´ probı´ha´ v neˇkolika fa´zı´ch. Sche´ma cele´ho procesu je zna´zorneˇno na obra´zku 4.1.

Vlastnı´ text je nejdrˇı´ve procesemtokenizacehierarchicky cˇleneˇnstrukturnı´mi znacˇkamina mensˇı´

celky, naprˇ. kapitoly, strany, odstavce, ty potom da´le na veˇty, ktere´ jsou forma´lneˇ tvorˇeny po-

(30)

slovnı´ tvar cˇı´slo pa´d c

pocˇı´tacˇ S 1 680

pocˇı´tacˇe S 2 1 144

pocˇı´tacˇi S 3 142

pocˇı´tacˇ S 4 465

pocˇı´tacˇi S 5 3

pocˇı´tacˇi S 6 454

pocˇı´tacˇem S 7 286

pocˇı´tacˇe P 1 389

pocˇı´tacˇu˚ P 2 1 742

pocˇı´tacˇu˚m P 3 127

pocˇı´tacˇe P 4 664

pocˇı´tacˇe P 5 0

pocˇı´tacˇı´ch P 6 422

pocˇı´tacˇi P 7 310

Tabulka 4.1:Tvary slovapocˇı´tacˇa frekvence jejich vy´skytu v kolekci

sloupnostı´ tzv. textovy´ch slov (tokenu˚). Tokeny mohou by´t slovnı´ tvary, cˇı´sla, zkratky, interpunkcˇnı´

zname´nka a dalsˇı´ zvla´sˇtnı´ znaky (symboly meˇn, fyzika´lnı´ch jednotek, matematicke´ symboly, atd.).

V fa´zimorfologicke´ analy´zy se prostrˇednictvı´mlingvisticky´ch znacˇek prˇirˇazujı´ slovnı´m tvaru˚m jejich mozˇne´ lingvisticke´ atributy. Konkre´tneˇ se jedna´ o informace dvojı´ho typu:

a)Lemmatizacı´je dane´mu slovu prˇirˇazena informace o jeho slovnı´kove´m tvaru zvane´mlemma.

V prˇı´padeˇ nejednoznacˇnosti je prˇirˇazeno vı´ce mozˇny´ch za´kladnı´ch tvaru˚ (naprˇ. spı´sˇ od slova spa´tnebospı´sˇe). Lemma jednoznacˇneˇ identifikuje slovo jako lexika´lnı´ jednotku. Je representova´no rˇeteˇzcem pı´smen a znaku˚, ktery´ odpovı´da´ tzv. slovnı´kove´mu tvaru slova, neboli tvaru slova, pod ktery´m je dane´ slovo obvykle uva´deˇno ve slovnı´cı´ch.

b) Kazˇde´ za´kladnı´ formeˇ jsou prˇirˇazenyvsˇechnyjejı´potencia´lnı´ morfologicke´ interpretace; tj. infor- mace o slovnı´m druhu a dalsˇı´ch morfologicky´ch vlastnostech (rodu, cˇı´sle a pa´du podstatny´ch a prˇı´davny´ch jmen, za´jmen a cˇı´slovek, o stupni prˇı´davny´ch jmen a prˇı´slovcı´, o osobeˇ, cˇı´sle, sloves- ne´m a jmenne´m rodu slovesny´ch tvaru˚ atd.). Morfologicka´ interpretace je vyja´drˇenamorfologickou znacˇkoutvorˇenou 15 u´daji, z nichzˇ kazˇdy´ je reprezentova´n jednı´m znakem na prˇı´slusˇne´ pozici. Vy´- znam pozic a znaku˚ na konkre´tnı´ch pozicı´ch je jednoznacˇneˇ stanoven. Kazˇda´ morfologicka´ znacˇka je tedy tvorˇena patna´ctiznakovy´m rˇeteˇzcem. Je-li dane´ slovo morfologicky, lexika´lneˇ cˇi slovneˇd- ruhoveˇ vı´ceznacˇne´, opatrˇı´ je morfologicky´ analyza´tor tolika patna´ctiznakovy´mi znacˇkami, kolik ma´ toto slovo lexika´lnı´ch, slovneˇdruhovy´ch a morfologicky´ch vy´znamu˚, a to vcˇetneˇ prˇı´slusˇny´ch lemmat.

Ke kazˇde´mu slovnı´mu tvaru (da´le jen slovu) je tedy prˇirˇazeno jedno cˇi vı´ce lemmat a ke kazˇde´mu lemmatu jedna cˇi vı´ce morfologicky´ch interpretacı´. Jiny´mi slovy, jedna´ se o mnozˇinu vsˇech teoreticky prˇı´pustny´ch interpretacı´ dane´ho slova. Z nı´ se na za´kladeˇ kontextu vybı´ra´ ta nejpravdeˇpodobneˇjsˇı´. V konkre´tnı´m textu ma´ totizˇ kazˇde´ slovo te´meˇrˇ vzˇdy jen jedinou morfolo-

(31)

4.2 CHYBY VSTUPNI´CH TEXTU˚ 23

!"!#! "$

%

'&()$*

+

-, "#.&$

!/$

%

0*

Obra´zek 4.1:Sche´ma procedur automaticke´ anotace textu˚

gickou, slovneˇdruhovou a lexika´lnı´ interpretaci, ktera´ na´s zajı´ma´ prˇedevsˇı´m. Tento vy´beˇr je cı´lem procedury zvane´disambiguace(zjednoznacˇneˇnı´).

Disambiguace je jednı´m z nejna´rocˇneˇjsˇı´ch u´kolu˚ a nejveˇtsˇı´ch vy´zev matematicke´ lingvistiky [8]. Existujı´ dveˇ za´kladnı´ metody:stochasticka´(statisticka´, pravdeˇpodobnostnı´) apravidlyrˇı´zena´.

Stochasticka´ metoda je koncipova´na na za´kladeˇ stochasticke´ho modelu, ktery´ je zalozˇen na pravdeˇpodobnostech prˇechodu mezi jednotlivy´mi znacˇkami v morfologicky analyzovane´m textu [28], [29]. Tyto pravdeˇpodobnosti se zı´ska´vajı´ empiricky z rucˇneˇ oznacˇkovane´ho tzv.tre´no- vacı´hokorpusu. Jeho u´speˇsˇnost je na u´rovni 94 %. Pravidly rˇı´zena´ disambiguace se snazˇı´ prˇedchozı´

zpu˚sob vylepsˇit pouzˇitı´m rˇady syntakticky´ch pravidel [30].

Poslednı´ fa´zı´ lingvisticke´ analy´zy je proces rozpozna´va´nı´ syntakticky´ch za´vislostı´ ve veˇta´ch, tzv.syntakticka´ analy´za [27]. Jejı´m vy´sledkem je za´vislostnı´ strom, ktery´ je v anotovane´m textu reprezentova´n na´sledujı´cı´m zpu˚sobem: Kazˇdy´ token je jednoznacˇneˇ oznacˇen svy´m porˇadovy´m cˇı´slem ve veˇteˇ, za´rovenˇ je mu prˇirˇazeno porˇadove´ cˇı´slo tokenu, na ktere´m je syntakticky za´- visly´. Pokud token tvorˇı´ korˇen veˇty a tudı´zˇ nenı´ za´visly´ na jine´m sloveˇ, je mu prˇirˇazena nula.

Hrany stromu za´vislostı´ jsou ohodnoceny typem prˇı´slusˇne´ syntakticke´ za´vislosti. Kazˇdy´ token pak obsahuje index slova, na ktere´m je za´visly´, a za´rovenˇ i typ te´to za´vislosti.

Na za´veˇr dodejme, zˇe se znacˇkova´nı´ prova´dı´ automaticky pomocı´ softwarovy´ch na´stroju˚.

Podrobneˇjsˇı´ popis jednotlivy´ch znacˇek a jejich atributu˚ je uveden v prˇı´loha´ch.

(32)

Prˇı´klad:Oznacˇkovany´ token

<f cap>Na´stroje<MDl>na´stroj<MDt>NNIP1---A----<A>ExD<r>1<g>6

<f cap> slovo ve tvaru, ve ktere´m se vyskytovalo v textu

<MDl> lemma s eventua´lnı´m uprˇesneˇnı´m vy´znamu

<MDt> morfologicka´ znacˇka

<A> druh syntakticke´ za´vislosti

<r> index tokenu ve veˇteˇ

<g> index rˇı´dı´cı´ho tokenu

4.2 Chyby vstupnı´ch textu˚

Du˚lezˇity´m prˇedpokladem pro vyhleda´va´nı´ kolokacı´ je dostatek vhodny´ch zpracova´vany´ch textu˚. Pouzˇite´ metody jsou totizˇ veˇtsˇinou statisticke´ a kromeˇ zajisˇteˇnı´ dostatecˇne´ho objemu dat je nutne´ bra´t v u´vahu i jejich kvalitu. Ta je ovlivneˇna ru˚zny´mi okolnostmi; jednak chybami, ktere´

se mohou vyskytovat na ru˚zny´ch u´rovnı´ch a v ru˚zny´ch fa´zı´ch zpracova´nı´, a take´ samotny´m obsahem dokumentu˚. Vyjmutı´ nevhodny´ch textu˚ za´koniteˇ vede ke snı´zˇenı´ statisticke´ho sˇumu, ktery´ negativneˇ ovlivnˇuje cely´ proces detekce kolokacı´. Na co se tedy prˇi posuzova´nı´ kvality dokumentu˚ musı´me zameˇrˇit, jake´ chyby se v nich mohou objevit a jak se jich mu˚zˇeme zbavit?

4.2.1 Nı´zkou´rovnˇove´ chyby

Nı´zkou´rovnˇovy´mi chybami rozumı´me chyby ve vstupnı´ch, jesˇteˇ neanotovany´ch textech, ktere´

znemozˇnı´ nebo alesponˇ negativneˇ ovlivnı´ automatickou lexika´lnı´ analy´zu cˇi pozdeˇjsˇı´ fa´ze vyhle- da´va´nı´. Prˇı´kladem tohoto druhu chyb jsou naprˇ. nekorektnı´, nezobrazitelne´ znaky ve vstupnı´ch textovy´ch souborech. Projevujı´ se dveˇma zpu˚soby: bud’ dojde k neu´speˇsˇne´mu skoncˇenı´ (pa´du) procesu automaticke´ho lingvisticke´ analy´zy, nebo je tato chyba propagova´na i do anotovane´ho textu a podobny´ pa´d zpu˚sobı´ azˇ procedura´m dalsˇı´ch fa´zı´.1

Rˇesˇenı´ je jednoduche´. Uka´zalo se, zˇe stacˇı´ filtrovat vsˇechny nezobrazitelne´ znaky a zpracova´vat pouze takto vycˇisˇteˇny´ text.

Neˇkdy tyto chyby vytva´rˇı´ i samotny´ lingvisticky´ analyza´tor, jehozˇ cˇinnost nema´me mozˇnost ovlivnit. Je proto nutne´ filtrovat texty prˇed i po lingvisticke´ analy´ze.

4.2.2 Odlisˇny´ jazyk

Dalsˇı´m proble´mem, se ktery´m je mozˇne´ se prˇi detekci kolokacı´ setkat, je jazyk zpracova´vany´ch textu˚. Na´sˇ u´kol je vyhleda´va´nı´ kolokacı´ v cˇesky´ch textech a v pru˚beˇhu cele´ho procesu pocˇı´ta´me

1Ve vstupnı´ch souborech se z nezna´my´ch du˚vodu˚ cˇasto vyskytoval znak NUL (bina´rnı´ nula), ktery´ se projevil azˇ tehdy, kdyzˇ byl soucˇa´stı´ rˇeteˇzce v SQL dotazu v databa´zi, jehozˇ zpracova´nı´ skoncˇilo chybovy´m hla´sˇenı´m o neukoncˇene´m rˇeteˇzci.

Znak NUL byl totizˇ prˇi prˇenosu dotazu do SQL serveru cha´pa´n jako jeho konec, i kdyzˇ tomu tak samozrˇejmeˇ nebylo.

(33)

4.3 FILTRACE VSTUPNI´CH TEXTU˚ 25

s tı´m, zˇe pracujeme pouze s cˇesky´mi texty. Pokud by tomu tak nebylo, velmi by se zvy´sˇil v u´vodu kapitoly zminˇovany´ statisticky´ sˇum a negativneˇ by ovlivnil vy´sledky pouzˇity´ch metod.

Nejvı´ce s prˇedpokladem cˇesky´ch vstupnı´ch textu˚ pocˇı´ta´ fa´ze lingvisticke´ analy´zy. Morfolo- gicky´ a syntakticky´ analyza´tor jsou urcˇeny pouze pro cˇesky´ jazyk. U ostatnı´ch jazyku˚ by u´speˇsˇneˇ probeˇhla snad jen tokenizace, morfologicke´ charakteristiky by byly oznacˇeny jako neurcˇene´ (ne- rozpoznane´) a vy´sledky syntakticke´ho analyza´toru jsou v takove´m prˇı´padeˇ neprˇedvı´datelne´.

Rˇesˇenı´ je tedy dokumenty v jine´m nezˇ cˇeske´m jazyce z cele´ procedury vypustit a zabra´nit tak zbytecˇne´mu zvysˇova´nı´ podı´lu nerozpoznany´ch slov.

4.2.3 Odlisˇna´ znakova´ sada

Prˇedpokla´dejme, zˇe jsme z mnozˇiny vstupnı´ch textu˚ odstranili vsˇechny, ktere´ nejsou napsa´ny v cˇeske´m jazyce. V oblasti vy´pocˇetnı´ techniky vsˇak platı´, zˇe nenı´ cˇesky´ dokument jako cˇesky´

dokument. Proble´my mohou vzniknou, pokud je znakova´ sada teˇchto textu˚ jina´, nezˇ ta, se kterou pocˇı´ta´ lingvisticky´ analyza´tor (v nasˇem prˇı´padeˇISO Latin 2). V souborech s odlisˇny´m ko´dova´nı´m se potom opeˇt mu˚zˇe vyskytovat prˇı´lisˇ mnoho nerozpoznany´ch slov.

Rˇesˇenı´ se nabı´zejı´ dveˇ: bud’rozpoznat znakovou sadu kazˇde´ho dokumentu a prove´st konverzi (jesˇteˇ prˇed znacˇkova´nı´m), nebo, v prˇı´padeˇ zˇe takto posˇkozeny´ch dokumentu˚ nenı´ prˇı´lisˇ mnoho, je vyjmout ze zpracova´nı´ (lze i po procesu znacˇkova´nı´).

4.2.4 Nevhodny´ obsah

I kdyzˇ jsou texty po stra´nka´ch jazyka a znakove´ sady v porˇa´dku, mohou i prˇesto by´t ne- vhodne´ pro zpracova´nı´ a detekci kolokacı´. Problematicky´ mu˚zˇe by´t jejich obsah, druh, zarˇazenı´

atp. Prˇı´kladem mohou by´t texty, ktere´ obsahujı´ tabulky sportovnı´ch vy´sledku˚,2 ceny akciı´ nebo rozsa´hlejsˇı´ citace v cizı´m jazyce. Opeˇt nejlepsˇı´m rˇesˇenı´m je takove´ dokumenty nezpracova´vat.

4.3 Filtrace vstupnı´ch textu˚

Dokumenty s nevhodny´m jazykem, znakovou sadou nebo obsahem charakterizuje jedna spo- lecˇna´ vlastnost. Po lingvisticke´ analy´ze majı´ velky´ nebo alesponˇ zvy´sˇeny´ podı´l nerozpoznany´ch slovnı´ch tvaru˚ (slovnı´ poddruh @ v morfologicke´ znacˇce). Stacˇı´ tedy vhodneˇ zvolit maxima´lnı´

podı´l teˇchto slov v dokumentech a ty, ktere´ jej prˇekracˇujı´, z cele´ho procesu vyjmout.

V u´vahu bereme hodnoty dveˇ: podı´l nerozpoznany´ch slov ve vsˇech slovecha podı´le neroz- poznany´ch slov v mnozˇineˇru˚zny´ch slov. Uka´zalo se, zˇe pokud stanovı´me hranici pro obeˇ tyto hodnoty na 15 % a alesponˇ jedna z nich ji prˇekrocˇı´, zbavı´me se vsˇech problematicky´ch dokumentu˚

a pocˇet neopra´vneˇneˇ vyrˇazeny´ch bude zanedbatelny´.

2Pra´veˇ cˇla´nky se sportovnı´mi vy´sledky se cˇasto vyskytovaly v kolekci

(34)

dokument nerozpoznana´ slova (%)

jazyk ko´dova´nı´ kolekce typ vsˇechna ru˚zna´

slovensky´ ISOLat2 novinovy´ cˇla´nek 55,60 61,88

cˇesky´ Win1250 novinovy´ cˇla´nek 35,66 39,55

cˇesky´ ISOLat2 zahranicˇnı´ sportovnı´ vy´sledky 10,59 19,18

cˇesky´ ISOLat2 cˇeske´ sportovnı´ vy´sledky 7,98 16,14

cˇesky´ ISOLat2 novinovy´ cˇla´nek 1,30 2,23

cˇesky´ ISOLat2 rozhovor 1,00 0,75

cˇesky´ ISOLat2 kapitola knihy 0,00 0,00

Tabulka 4.2:Prˇı´klady podı´lu˚ nerozpoznany´ch slov v ru˚zny´ch typech dokumentu˚

4.4 Metody extrakce kolokujı´cı´ch bigramu˚

Bigramje obecneˇ jaka´koliv dvojice slov. My ovsˇem budeme jako bigram oznacˇovat dvojici slov (tokenu˚) v za´kladnı´m slovnı´kove´m tvaru. K rozpozna´nı´ teˇchto tvaru˚ vyuzˇijeme vy´sledku˚ procesu lemmatizace a morfologicke´ analy´zy, ktere´ na´m pro kazˇdy´ token urcˇujı´ lemma a morfologickou znacˇku, ktera´ popisuje jeho konkre´tnı´ morfologickou interpretaci.Za´kladnı´ tvar tokenudefinujeme jako dvojici(lemma, znacˇka), kdelemmaje lemma tokenu aznacˇkavznikla z pu˚vodnı´ morfologicke´

znacˇky zrˇeteˇzenı´m hodnot na na´sledujı´cı´ch pozicı´ch:

2. slovnı´ poddruh 3. jmenny´ rod 10. stupenˇ 11. negace 15. varianta

Fa´ze extrakce bigramu˚ se zaby´va´ hleda´nı´m tzv.kolokujı´cı´ch bigramu˚jakozˇto potencia´lnı´ch ko- lokacı´. Zpu˚sobu˚, jak tuto mnozˇinu bigramu˚ zı´skat a sestavit, je neˇkolik. Kolokacı´ mu˚zˇe teoreticky by´t libovolna´ dvojice slov a nic nebra´nı´ tomu, zvolit tento seznam jako mnozˇinu vsˇech dvou- prvkovy´ch podmnozˇin mnozˇiny vsˇech za´kladnı´ch tvaru˚ slov obsazˇeny´ch ve zpracova´vany´ch textech.

Tento zpu˚sob zı´ska´nı´ kolokujı´cı´ch bigramu˚ nenı´ vsˇak z hlediska dalsˇı´ho zpracova´nı´ prˇı´lisˇ efek- tivnı´. Velikost te´to mnozˇiny by byla , kde je pocˇet ru˚zny´ch za´kladnı´ch tvaru˚ tokenu˚. Nasˇı´m cı´lem je maximalizovat pocˇet bigramu˚, ktere´ mohou by´t kolokacemi, a za´rovenˇ minimalizovat pocˇet bigramu˚, ktere´ kolokacemi jisteˇ nejsou, a tak se vyvarovat jejich zbytecˇne´mu testova´nı´. Nenı´

tedy nutne´ umeˇle vytva´rˇet kombinace slov, ktera´ spolu nijak nesouvisı´, naprˇ. se nikdy nevysky- tujı´ ve stejne´ veˇteˇ nebo dokumentu. I kdyby v takove´m prˇı´padeˇ kolokaci tvorˇila, nejsme schopni ji zna´my´mi metodami rozpoznat. Pro nasˇe vy´pocˇty pouzˇijeme na´sledujı´cı´ch 6 metod zı´ska´va´nı´

kolokujı´cı´ch bigramu˚. Vycha´zejı´ z ru˚zny´ch pohledu˚ na kolokacˇnı´ kontext a ru˚zny´ch vlastnostı´

kolokacı´. Pokusı´me se je porovnat a doporucˇit ty nejvhodneˇjsˇı´.

(35)

4.4 METODY EXTRAKCE KOLOKUJI´CI´CH BIGRAMU˚ 27

<f>nenahraditelna´<MDl>nahraditelny´_ˆ(*4)<MDt>AAFS1----1N----<r>8<g>7

nahraditelny´_ˆ(*4) AF 1N -

(nahraditelny´ (*4), AF1N-)

nenahraditelna´

Obra´zek 4.2:Sestavenı´ za´kladnı´ho tvaru tokenu z lemmatu a morfologicky´ch znacˇek. Poslednı´ krok je vytvorˇenı´ sna´ze cˇitelne´ho tvaru. Toto zobrazenı´ nenı´ vsˇak proste´. Z takto vytvorˇene´ho slova nelze zpeˇtneˇ zı´skat za´kladnı´ tvar, ale pokud to nepovede k nedorozumeˇnı´m, budeme je pouzˇı´vat pro veˇtsˇı´ prˇehlednost.

4.4.1 Slova sousedı´cı´

Za´kladnı´ zpu˚sob extrakce kolokujı´cı´ch bigramu˚ vycha´zı´ z teorie, zˇe kolokace je pevna´ fra´ze tvorˇı´cı´ souvislou posloupnost slov, tzv.pevna´ kolokace. V prˇı´padeˇ bigramu˚ jsou to dvojice vyskytujı´cı´

se v textu teˇsneˇ vedle sebe. Vytvorˇme tedy ze vsˇech textu˚ kolekce posloupnost tokenu˚, tak jak jdou prˇirozeneˇ za sebou ve veˇta´ch, odstavcı´ch a dokumentech (na porˇadı´ dokumentu˚ neza´lezˇı´). Kazˇda´

sousedı´cı´ dvojice v povrchove´m slovosledu pak vytvorˇı´ jeden bigram. Pocˇet vsˇech bigramu˚ je

, kde je pocˇet vsˇech slov v kolekci.

4.4.2 Eliminace stopslov

Prˇedchozı´ metodu mu˚zˇeme znatelneˇ zlepsˇit tzv.eliminacı´ stopslov. Tato metoda se cˇasto po- uzˇı´va´ prˇiindexaci dokumentu˚v DIS. Vytvorˇı´ se seznam tzv.stopslovobsahujı´cı´ bezvy´znamova´ a ma´lovy´znamova´ slova, ktera´ nejsou pro indexaci vhodna´. By´vajı´ to prˇedevsˇı´m za´jmena, prˇed- lozˇky, spojky a take´ neˇktera´ dalsˇı´ velmi frekventovana´ slova. Stopslova se pote´ z procesu indexace vyjmou (viz [9]).

V nasˇem prˇı´padeˇ pouzˇijeme stejny´ princip. Bigramy obsahujı´cı´ dveˇ stopslova vyrˇadı´me z dalsˇı´- ho zpracova´nı´, nebot’ kolokace jisteˇ netvorˇı´. Vy´beˇr stopslov je ale obtı´zˇneˇjsˇı´. Nelze do nich zarˇadit naprˇ. neˇktera´ ma´lovy´znamova´ slovesa jako v prˇı´padeˇ indexace dokumentu˚, protozˇe ta ve spojenı´

s dalsˇı´m slovem kolokace tvorˇit mohou. Viz na´sledujı´cı´ prˇı´klad.

Prˇı´klad:Bigramy obsahujı´cı´ ma´lovy´znamove´ sloveso mı´t. Pouze v prvnı´m prˇı´padeˇ se nejedna´

o kolokaci, v ostatnı´ch zrˇejmeˇ ano (ale i toto je diskutabilnı´).

mı´tauto mı´tstrach mı´tna´ladu mı´tnedostatek

Abychom se uvedene´mu proble´mu vyhnuli, odstranı´me vsˇechny bigramy, jejichzˇ obeˇ kom- ponenty nejsou na´sledujı´cı´ch slovnı´ch druhu˚: podstatna´ jme´na (N), prˇı´davna´ jme´na (A), cˇı´slovky (C), slovesa (V) a prˇı´slovce (D).

Odkazy

Související dokumenty

momenty doby prˇezˇitı´ a take´ jine´ charakteristiky. Nevy´hodou teˇchto neparametricky´ch metod je nemozˇnost zı´ska´nı´ informacı´ o chova´nı´ „konce“

Take´ se uka´zalo, zˇe JORAM pravdeˇpodobneˇ umozˇnˇuje rychlejsˇı´ prˇenos zpra´v ze serveru (konzumova´nı´) nezˇ na server (posı´la´nı´). Z hlediska sta- bility

Implementace te´to funkce vyuzˇı´va´ stej- nou verzi metody StoreMessage jako prˇi se´riove´m ukla´da´nı´ jednoho procesu, avsˇak s tı´m rozdı´lem, zˇe parametrem je

Naopak, Porta´l verˇejne´ spra´vy je podle me´ho na´zoru perspektivnı´m projektem. Jeho smyslem by hlavneˇ meˇlo by´t nastartova´nı´ procesu sblizˇova´nı´

• Dalsˇı´ blok Discrete Transfer Fcn pouzˇijeme pro zada´nı´ prˇenosove´ funkce diskre´tnı´ho sys- te´mu , cˇitatele a jmenovatele prˇenosove´ funkce lze zadat

To ovsˇem nenı´ pro- ble´m, protozˇe konstantu snadno doplnı´me dı´ky vlastnosti (2.4) z veˇty 2.4. Prakticky budeme postupovat tak, zˇe v pomocne´ tabulce, v nı´zˇ

Toma´sˇ Va´clavı´k Nove´ metody vy´pocˇtu kapita´love´ prˇimeˇrˇenosti a jejich validace... U ´ vod

Dole Department of Veterans Affairs Medical and Regional Offio Community Based Outpatient Clinic Fort Dodge Dodge City Clinic. Fort Scott Newman