AK EKI keelekool: Masintõlge küsib: kes paneb oma vanad tekstid prügikasti?

Helen KaljumäeEesti Keele Instituudi keeletehnoloog

14. mai 2022, 00:02

Dokumendid prügikasti Foto: Marko Saarm / Sakala

Keeleandmestikud ehk tekstikogumid on keeletehnoloogias vajalikud
Kvaliteetse masintõlke arendamine nõuab miljoneid paralleelseid lauseid
Igaüks saab oma (tõlke)tekstidega keeletehnoloogiale abiks olla

Keeleandmestik on kogum masinloetaval kujul tekste. Justkui ei midagi erilist, aga keeletehnoloogidele meeldib neist kangesti rääkida – sest nendeta lihtsalt ei saa. Keeleandmestike olulisusest masintõlke näitel kirjutab Eesti Keele Instituudi keeletehnoloog Helen Kaljumäe.

Keeleandmestikke on keeletehnoloogidel alati vaja läinud, ent kohe kindlasti mitte nii palju kui praegu. Keeletehnoloogilisi rakendusi tehti kaua inimese koostatud reeglitele tuginedes, kuid nüüd on see viis suuresti asendunud andmepõhise lähenemisega.

Näiteks, andmepõhist masintõlget arendatakse Eestis hoogsalt ja tulemused on väga hea kvaliteediga. Tõlkesüsteemid töötavad tehisnärvivõrkudel (need simuleerivad inimaju tööd) ehk süsteeme treenitakse etteantud tekstidest mustreid otsima. Leitud mustrite alusel suudab süsteem juba ise päris tõlkeid luua.

Millised on masintõlke puhul need tekstid, kust mustreid otsitakse? Kahe keele vahel mustrite leidmiseks on tarvis eestikeelset teksti ning selle sama teksti tõlget mõnda teise keelde. Kui tahame luua eesti-vene-eesti masintõlget, siis tuleb masinale ette anda lauseid, mis on korraga olemas eesti ja vene keeles. Paraku ei piisa tulemuse saamiseks sajast või tuhandest lausest ning see on sellise lähenemise üks probleemkoht.

Selliseid paralleelseid lauseid läheb kvaliteetse masintõlke loomiseks tarvis miljoneid. Eelmisel aastal alustatud riikliku masintõlke projekti raames loodi süsteem, mis tõlgib eesti keelest inglise, vene ja saksa keelde ning vastupidi. Süsteemi õpetati ära tundma riigikaitse, tervise ja õiguse valdkonda kuuluvaid tekste. Kokku kasutati masintõlke arendamiseks ligikaudu 42 miljonit paralleelset lauset. Kõige rohkem oli eesti-inglise lauseid, ligi 24 miljonit – sest veebis lihtsalt on sobivaid tekste eesti ja inglise keele vahel rohkem.

Kokku kasutati masintõlke arendamiseks ligikaudu 42 miljonit paralleelset lauset.

Valdkondade tõlkekvaliteedi tagamiseks tuli juurde koguda just nendele valdkondadele omaseid tekste. Kust leida tuhandeid riigikaitseteemalisi lauseid, mis on korraga olemas eesti ja saksa keeles? Eesti-vene tekstide leidmine tundub tehtavam, aga siiski – kes ikka riigikaitset puudutavat infot ülemäära palju avalikult jagada saab. Tundlike andmete ja autoriõigusega seotud piirangutega tegelemine on keeleandmetega töötamisel paratamatu.

Tõlkesüsteemi saab veidi targemaks õpetada, kui talle ükskeelseid tekste lisaks näidata. Ainult ühes keeles kirjutatud tekste on kergem leida ja koguda. Riikliku masintõlke arendamisel kasutati ligi 221 miljonit ükskeelset lauset, millest eestikeelseid oli 52 miljonit. Võimalik on ka masintõlke abiga lauseid juurde tekitada, aga ilma kvaliteetsete paralleeltekstideta siiski ei saa.

Olemasolevad keeleandmestikud on väärtuslikud – need on kellelgi juba mingil vajalikul eesmärgil loodud, tehnoloogia saab neile veel ühe elu anda. Keeletehnoloogia areneb ning võib-olla on juba varsti hoopis teised lähenemised, kuid seniks saame kõik oma tekstidega valdkonnale väga palju abiks olla.

AK ⟩ EKI keelekool: Masintõlge küsib: kes paneb oma vanad tekstid prügikasti?

Märksõnad

AK EKI keelekool: Masintõlge küsib: kes paneb oma vanad tekstid prügikasti?