Päevatoimetaja:
Mart Raudsaar

AK EKI keelekool: sõnapilvedest vihakõne tuvastamiseni

Mida sa loed, Hamlet?  - Sõnu, sõnu, sõnu. Fotol Shakespeare'i teose lehekülg luubi all.
Mida sa loed, Hamlet? - Sõnu, sõnu, sõnu. Fotol Shakespeare'i teose lehekülg luubi all. Foto: Kirsty Wigglesworth
  • Tekstiandmete heast kättesaadavusest on võimalik võita väga erinevate valdkondade esindajatel

Tekste on niivõrd suur hulk, et käsitsi neid enam ammu läbi töötada ei jõua. Õnneks ei peagi. Tekstiandmete automaatsest analüüsist, mis aitab tekstidest olulisima teadmuse üles leida, kirjutab Eesti Keele Instituudi keeletehnoloog Eleri Aedmaa.

Andmed on igal pool. Suure osa neist moodustavad numbrite, piltide, videomaterjali, helisalvestiste jms kõrval kõiksugust teksti sisaldavad andmed ehk tekstiandmed, näiteks kirjandusteosed, uudised, seadused, veebifoorumid, klientide kirjalik tagasiside, blogid, sõnumid, tviidid jne. Tekstiandmete heast kättesaadavusest on võimalik võita väga erinevate valdkondade esindajatel.

Suure hulga tekstiandmete analüüs eeldab keeletehnoloogiliste vahendite abi, et võimalikult kiiresti ja lihtsalt välja kaevata eesmärgile vastav informatsioon.

Tekstiandmetest väärtusliku informatsiooni automaatset eraldamist nimetatakse tekstianalüüsiks ja -kaeveks. Tihtipeale kasutatakse neid termineid sünonüümidena, kuid leidub ka käsitlusi, kus tekstikaevet peetakse pealiskaudseks tekstianalüüsiks. Lisaks eristatakse tekstianalüütika mõistet, mis hõlmab tekstianalüüsi lahendusi, mis suudavad suurt hulka tekstiandmeid hallata, analüüsida ja nendes leiduvat olulist teadmust ka ülevaatlikult esitada.

Keeleuurijad saavad huvipakkuva keelenähtuse uurimisel rakendada erinevaid grammatilise analüüsi vahendeid (nt morfoloogiline või süntaksianalüsaator), mis tuvastavad sõnaliike, algvorme, lauseliikmeid jne. Ometi pole grammatilise analüüsi vahendid vaid keeleteaduslikuks kasutamiseks – ka näiteks sõnapilvede koostamisel aitab algvormide leidja ehk lemmatiseerija vältida olukorda, et neis ei korduks ühe sõna erinevad vormid (nt keel, keele, keelt). Sõnapilved saab veelgi paremaks, kui eemaldada sealt sisutühjad sõnad – ka see on automaatselt tehtav.

Grammatiline analüüs on paljude teiste tekstianalüüsi ülesannete lahendamisel silmale nähtamatuks abimeheks. Üheks seesuguseks on näiteks meelestatuse analüüs, mis võimaldab erinevaid tekstilõike automaatselt kategoriseerida positiivseks, negatiivseks ja neutraalseks (või enamateks klassideks). Näiteks saavad ettevõtted kasutajate nii otse kui sotsiaalmeedias antud tagasiside põhjal kiire ülevaate inimeste hoiakutest nende toote/teenuse suhtes. Niisamuti on tekstikaeve abil võimalik klassifitseerida näiteks e-kirju nendes sisalduva teema järgi ning seejärel automaatselt suunata kiri inimeseni, kes sellele vastata oskab. Tekstianalüüsi rakendatakse ka spämmikirjade filtreerimisel, vihakõne tuvastamisel, küberkuritegevuse ja terviseriskide ennetamisel ja mitmel pool mujal. Need üksikud näited sellest, kuidas tekstikaeve saab enda või ühiskonna heaks tööle panna, võiks inspireerida neid, kes pole oma tekstiandmetega veel midagi peale hakanud.

Tagasi üles