Kristina Koppel

FOTO: EKI

Kuula artiklit

Postimehega võttis ühendust mitu murelikku televaatajat. See on korpusest ehk suurest elektroonilisest tekstikogust automaatselt valitud lause, mida arvuti pakub sõnastiku näitelauseks, kui sealt otsida sõna «Postimees». Kuidas aga automaatselt leida head näitelauset korpusest, mis sisaldab üle miljardi eestikeelse sõna?

Tänapäeval kasutatakse sõnastike koostamisel tehnoloogilisi lahendusi, mis võimaldavad seda teha poolautomaatselt. Poolautomaatne koostamine tähendab, et kogu sõnastiku sisu, sealhulgas märksõnastik, sõnade tähendused, definitsioonid ja näitelaused tuvastatakse korpusest automaatselt ning kantakse sõnastikusüsteemi, kus sõnastiku koostaja materjaliga edasi toimetab.

Eestis on poolautomaatselt koostatud naabersõnade sõnastik, mis ilmub 2018. aasta lõpus. See sisaldab sageli koos esinevaid sõnu ehk kollokatsioone, nagu näiteks ere päike, päike paistab, päike tõuseb, päike loojub ja päikest nautima. Naabersõnade kasulikkus ilmneb just võõrkeeli õppides. Näiteks öeldakse inglise keeles strong coffee, eesti keeles aga kange kohv, mitte tugev kohv. See näitab selgelt, et keelt on mõistlik õppida valmis tükkidena. Õigesti valitud naabersõnad aitavad keeleõppijal oma mõtteid loomulikul moel väljendada ning teevad nende teksti sarnaseks emakeeles kõneleja omale.

Lisaks on keeleõppesõnastikes kasulik esitada näitelauseid, kuna need aitavad tundmatu sõna tähendusest aru saada, illustreerida sõna tavapärast kasutust ja olla eeskujuks keele produtseerimisel. Selleks et arvuti suudaks korpusest tuvastada häid näitelauseid, tuleb sellele ette anda reeglid, mida peab näitelausete valikul arvestama. Tüüpiliselt mõõdetakse lause ja sõnade pikkust, märksõna asukohta lauses, teatud sõnade olemasolu (nt tegusõna) või puudumist (nt asesõna), sõnade sagedust jmt.

Eesti Keele Instituudis koostatud sõnastike näitelaused on tüüpiliselt 4–20 sõna pikad, sisaldavad tegusõna, ei sisalda väga madala sagedusega sõnu ega sõnu, mis on pikemad kui 20 tähemärki. Samuti ei alga laused teatud sõnade (nt seetõttu) või sõnapaaridega (nt sellest lähtuvalt), mis raskendavad lausest arusaamist, kuna viitavad tagasi eelnevale kontekstile. Kui anda arvutile ette reeglid, mis selliseid lause tunnuseid arvestab, oskabki see korpusest üles leida näitelause kandidaadi «Postimehega võttis ühendust mitu murelikku televaatajat».