AK ⟩ EKI keelekool: masinate keelevead (1)

Arvi Tavast
Copy
Tehisintellekt. Pilt on illustreeriv.
Tehisintellekt. Pilt on illustreeriv. Foto: Wang Gang/Sipa Asia

Kui koolis ei õpi laps keelereeglit ära, saab ta halva hinde. Kui sedasama reeglit ei õpi ära masin, saab halva hinde õpetaja – sest järelikult oli vilets reegel. Eesti Keele Instituudi direktor Arvi Tavast kirjutab, kuidas masinatele inimkeelt õpetatakse ja mis seda praegu takistab?

Sellel on mingi põhjus, miks me räägime just nii, nagu räägime. Kas see põhjus on lihtne või keeruline mõista, või kas see põhjus on üldse teada, ei ole sealjuures oluline. Saavad ju isegi väikelapsed suhtlemisega suurepäraselt hakkama. Kuidas aga võiks masinad sama kaugele jõuda?

Lootus õpetada arvutid inimkeeles suhtlema on sama vana kui arvutid ise. Pikka aega põhines see lootus kujutelmal, nagu järgiksid inimesed suheldes mingeid kindlaid reegleid. Reeglite korraliku täitmisega masinatel teadagi raskusi ei ole, seega tundus, et piisab inimkeele omade põhjalikust kirjapanemisest ja ongi suhtlev masin olemas.

See ei läinud üldse mitte nii. Tulemused olid täiesti ebaloomulikud ja masinlikud. Läks koguni nii kehvasti, et 1966. aastal valminud nn ALPACi (Automatic Language Processing Advisory Committee) aruanne kuulutas kogu valdkonna lootusetuks ja soovitas selle finantseerimise katkestada. Järgnes tehisintellekti talveks nimetatud periood, mille lõpetas alles uute meetodite laiem kasutuselevõtt möödunud sajandi lõpus.

Parimad tänapäevased süsteemid on treenitud palju suurema hulga tekstide peal, kui üks inimene oma eluea jooksul jõuaks vastu võtta.

Praegused meetodid üritavad reeglite kirjeldamise asemel jäljendada inimaju toimimist närvirakkude tasemel. Tehnoloogia nimi on tehisnärvivõrgud ja vastavat tegevusala nimetatakse keeletehnoloogiaks või veidi laiemalt ka masinõppeks või tehisintellektiks. Inimkeelt omandab selline süsteem lapse kombel: mitte ei õpi reegleid pähe, vaid kuulab elavat keelt enda ümber ja teeb ise üldistusi, nii hästi kui oskab. Üldistused saavad seda paremaks, mida võimekam on õppija ja mida rohkem teiste keelekasutust ta kuuleb. Need mahud on kasvanud juba väga suureks – parimad tänapäevased süsteemid on treenitud palju suurema hulga tekstide peal, kui üks inimene oma eluea jooksul jõuaks vastu võtta.

Vajamineva treeningmaterjali hankimine ongi üks valdkonna pakilisemaid ülesandeid. Kui inimlaps suudab uue sõna omandada üheainsa kuulmise peale, siis praegused masinõppesüsteemid vajavad rohkem kordamist. Mida rohkem teksti on mingis keeles masinate treenimiseks saadaval, seda loomulikum tulemus. Eesti keelel on eriti inglise keelega võrreldes arenguruumi veel küllaga.

Teine põhimõtteline häda masinõppega on, et inimesi jäljendades õpivad masinad kriitikavabalt ära ka vähem kiiduväärse keelelise käitumise, alates grammatikavigadest kuni vihakõneni. Selle vältimine on ühest küljest samuti aktuaalne uurimissuund. Teisest küljest aga tasub näiteks masintõlke vigadest rääkides alati meeles pidada, et see on meie enda peegelpilt, mida me hindame.

Kommentaarid (1)
Copy

Märksõnad

Tagasi üles