Geda Paulsen FOTO: MARGUS ANSU/PM/SCANPIX BALTICS

Eesti keele instituudis toimunud sõnaliigiseminarist kirjutab EKI vanemteadur Geda Paulsen.

18. mail toimus Eesti Keele Instituudi sõnaliigiseminar «Kvantitatiivsed vastused kvalitatiivsetele küsimustele? Mitmesused korpusandmestikus». Seminar oli rahvusvaheline ning ettekannete teemad puudutasid sõnaliikide rolli loomulike keelte automaattöötluses.

Miks üldse rääkida sõnaliikidest? Kas näiteks tekstikogude ehk korpuste töötluses ei ole see «antiikne» teema juba ammendunud? Kas vormilt ja tähenduselt sarnaste sõnade rühmitamine on üldse vajalik? Plenaarettekandega «Morfoloogia [keele vormistik – G. P.] on loomulike keelte töötluse lahendamata probleem» seminari avanud Masaryki ülikooli arvutilingvist Miloš Jakubíček tõdes, et arvutilingvistika kuumad teemad on tehisintellekt, autorsuse tuvastamine, tekstide sisukokkuvõtete tegemine, masintõlge jne. Keelekorpuse alusanalüüs ehk vormistiku- ja sõnaliigimärgendus ei ole aga siiani lahendatud küsimus. See on mõneti alahinnatudki ülesanne, osalt seetõttu, et olemasolevad lahendused annavad pealtnäha väga häid tulemusi. Näiteks inglise ja prantsuse keele korpusandmete töötlemine eri mudelitega annab esialgu kõrgena tunduva 96–98-protsendise täpsuse. Tähele tuleb aga panna, et see näitab analüüsi õigsust sõnede tasemel, lausetasemel on täpsus kõigest 50 protsenti, mis tähendab, et pooltes analüüsitud korpuse lausetest on üks või rohkemgi vale sõnaliigitähisega sõna! See mõjutab mõistagi kõiki järgmise astme korpusanalüüsi tulemusi. Lisaks ei ole need keeled vormistikult kõige rikkamad.

Mitte ainult standard- ja kirjakeele korpustekstid ei vaja osadeks jaotamist. Tallinna Ülikooli arvutilingvistid Kais Allkivi-Metsoja ja Kaisa Norak võrdlesid ettekandes «Eesti õppijakeele sõnaliigimärgendus ja lemmatiseerimine» eesti keelt teise keelena õppijate loodud tekstide analüüsi kahe erineva, reeglipõhise ja tehisnärvivõrkudel põhineva analüsaatoriga. Ivan Ubaleht Omski riiklikust tehnikaülikoolist tutvustas aga Siberi ingerisoome keele kõnekorpust, mille töötluseks kasutatakse programmi ELAN. Sõnaliigimärgised on ELANis ühendatud vormi- ja lauseehituse infoga.

Suurte keelekorpuste töötlemise iseärasused mõjutavad sõnaraamatutegijate tööd, kellele on oluline teada näiteks sõnade ja vormide esinemissagedusega seotud andmeid. Kui sage on piisavalt sage, et üks vorm võiks saada sõnaraamatus märksõna staatuse (nt kõrini ja täiega)? Automaatanalüüsi rakendamisvõimalusi sõnaraamatutöös lahkas kolmes ettekandes keeleinstituudi sõnaliigirühm (Geda Paulsen, Ene Vainik, Maria Tuulik, Ahti Lohk).

Ürituse lõpetuseks andis Kairit Sirts Tartu Ülikoolist ülevaate süvanärvivõrkudel põhinevate mudelite omadustest plenaarettekandes «Mida teavad närvivõrkude mudelid sõnaliigimärgenditest?». Süvaõppesüsteemide juures on keeleuurijatele ehk kõige huvitavam see, mida nad suudavad keele kohta teada saada ilma eelneva «treenimiseta».