AK ⟩ EKI keelekool: kes küll selle teksti lõi?

Tiiu ÜksikEesti Keele Instituudi keeletehnoloog

15. jaanuar 2022, 00:00

Kas tehisintellekti saab tekstiloomel usaldada? Kelle mõtteid ta väljendab? Foto: Huang Zongzhi via www.imago-images.de

Igal tekstil on autor. Kui teksti kirjutab tehisintellekti lahendus ehk kratt, siis kelle mõtteid tema väljendab? Kas sellist kirjutist saab usaldada? See ulmelisena kõlav tulevik on märkamatult kohale jõudmas. Tehisintellektist, mis loob tekste, kirjutab Eesti Keele Instituudi keeletehnoloog Tiiu Üksik.

Automaatne tekstiloome tähendab, et sisendi (märksõna, numbri, tekstikatke või ka pildi) põhjal genereeritakse uut teksti. Üks esimesi tekstiloomekratte oli 1960ndate virtuaalterapeut ELIZA. Ta pööras kasutaja vastuse ümber küsimuseks, jättes mulje, nagu mõistaks vastaja muret. Keerukamate küsimuste puhul jäi ELIZA aga kiiresti jänni.

Automaatne tekstiloome on nüüdisaegsete krattide osa. Vestlusrobotid tervitavad külastajat pea iga veebipoe lehel. Aktsiahuvilised leiavad automaatselt genereeritud ingliskeelseid artikleid turukõikumiste kohta. Samasuguseid «robotkirjutisi» leiab ilmateadete, haiguslugude, aga näiteks ka Inforegistri artiklite hulgast. Enamasti on aluseks mallid, milles olevad lüngad täidetakse sobivate andmetega.

Lünkade täitmiseks sõnastab reeglid koodiks inimene. Masinõppe puhul tuleb need programmil endal tuletada. Eelduseks on suur hulk hästi valitud treeningmaterjali – mida rohkem, seda ladusamalt õpib programm suhtlema. Kui unustame andmetesse lisada näiteks lihtminevikus laused, ei oska ka masin neid hiljem luua. Kui aga materjali hulka satub palju vihakõnet, kipub ka loodud tekst olema solvav.

Eesti keelele MT-NLG-sarnast mudelit ei ole, kuna selle loomine eeldab tohutut hulka treeningmaterjale ja võimsaid arvuteid, mille käigushoidmine on energiakulukas.

Masinõppes on olulised ka parameetrid, mida treenimise käigus optimeeritakse. Mida enam neid on, seda rohkem arvutusjõudu on tarvis. Praegu suurim, Nvidia ja Microsofti koostöös valminud närvivõrkudel põhinev keelemudel MT-NLG kasutab 530 miljardit parameetrit. See oskab eelkäijatest paremini lõpetada lauseid, vastata küsimustele, otsida tekstist vajalikku infot jpm. Veebis saab katsetada suuruselt teise, OpenAI 2020. aastal loodud GPT-3 (175 miljardit parameetrit) avatud lähtekoodiga alternatiivi GPT-J. See jätkab kasutaja sisestatud teksti suuremates keeltes küllaltki usutavalt. GPT-3 kirjutas 2020. aasta septembris The Guardianile provokatiivse pealkirjaga artikli, mis puudutab muuhulgas tehisintellekti ohutuse ja õigustega seotud küsimusi. Teema olulisust näitab see, et Euroopa Liit on asunud tehisintellekti reguleerima.

Vastused tehisintellekti ja tekstiloomet puudutavatele küsimustele pole siiani päris selged. Eesti keele tuleviku seisukohalt on oluline, et saaksime masinatega emakeeles suhelda. Eesti keelele MT-NLG-sarnast mudelit ei ole, kuna selle loomine eeldab tohutut hulka treeningmaterjale ja võimsaid arvuteid, mille käigushoidmine on energiakulukas. Tekstiloomet rakendavatest lahendustest on aga riikliku keeletehnoloogia programmi toel valmimas näiteks valdkondlik masintõlkesüsteem, avalike teenuste virtuaalassistent #bürokratt, teksti sisukokkuvõtja ja lihtsustaja.

AK EKI keelekool: kes küll selle teksti lõi?

Märksõnad