Analüüs: Keeletehnoloogia tagab keele säilimise infoühiskonnas

Haldur Õim
TÜ üldkeeleteaduse professor, akadeemik

Keeletehnoloogia on suhteliselt uus termin, ehkki tegevusala ise ei ole uus, tekkides kohe pärast arvutite laiemasse kasutusse tulekut, kui pakuti välja näiteks masintõlke idee. Masintõlge ongi tänapäeval üks keskseid keeletehnoloogia alasid, ehkki vahepeal paigutati sellesuunalised tööd kõik arvutuslingvistika (

computa-tional linguistics

) alla. Graafik ~ 25KB

Keeletehnoloogia on see, mis tagab mingi keele funktsioneerimise infoühiskonnas. Meil levis keeletehnoloogia mõiste peamiselt seoses Euroopa Liidus 1990. aastate alguses käivitatud ulatusliku programmiga, mis seadis eesmärgiks ühendada kaks asja: Euroopa integreerumise ja integreeruvate riikide kultuuride ja keelte säilitamise.

Seda eesmärki on kogu aeg järgitud. On ajalehtedestki tuntud tõsiasi, et Euroopa Komisjoni eelarves on üks kõige suuremaid kuluartikleid tõlketööde kulud: dokumendid peavad olema kättesaadavad kõigi liikmesriikide keeltes.

Revolutsioonilised arengud

Aga dokumentide tõlkimine pole kaugeltki ainus kuluartikkel selles valdkonnas. 1990. aastate algusest alates on ELi teadus-arendusprogrammides olnud kindel koht programmil, mille praegune nimetus on Human Language Technology ehk siis inimkeele tehnoloogia.

1992. aastal valmis Euroopa Komisjoni XIII peadirektoraadi tellimusel raport, mida tuntakse Danzini raporti nime all.

See raport peaks olema kättesaadav ja loetav ka eesti keeles (mida see siiski veel ei ole), sest eesti keele osas on selle seisukohtade teadlik järgimine kindlasti olulisem kui suurte keelte puhul. Viimaste osas paneb turumajandus asjad loomulikul viisil paika.

Siinkohal tasub tsiteerida vähemalt üht lõiku raporti kokkuvõttest: «Uute infotehnoloogiate, eriti arvutitehnoloogia mõju emakeele kasutamisele on ülemineku tõttu paberipõhiselt kultuurilt arvutiajastule /- - -/ palju ulatuslikum, palju järsum, palju revolutsioonilisem kui ükski varasem üleminek, trükikunsti leiutamine kaasa arvatud. Seda võib võrrelda inimkonna ajaloos vaid üleminekuga kõneldavalt keelelt kirjutatavale keelele.»

Nagu öeldud, ongi probleemi kogu tõsidus selles, et väikeste keelte puhul nagu eesti keel ei toimu üleminek arvutipõhisele keelekasutusele iseenesest. Üleminekuks on vaja keeletöötlusvahendeid - arvutiprogramme.

Keele säilimine

Suurte keelte puhul on lihtne: kui ühiskonnas tekib nõudmine sellise programmi järele - olgu see siis õigekirjakorrektor või masintõlkesüsteem - ning selle loomine on tehniliselt võimalik, siis leidub alati keegi, kes programmi (tehnoloogiatoote) valmis teeb, sest potentsiaalseid ostjaid on piisavalt.

Väikese keele puhul turumehhanism ei toimi. Sekkuma peab riik, mille üks põhifunktsioone on oma rahva keele ja kultuuri säilimise tagamine.

Küsimus on aga just nimelt keele säilimises. Kui omal ajal - tuhatkond või ka mõnisada aastat tagasi - oli keele säilimise üks põhimõjureid kirjutatava keele olemasolu, siis nüüd on selleks saamas keele arvutitoe olemasolu ehk siis keeletehnoloogia.

Eesti keele puhul on keeletehnoloogilise arvutitoe loomine seega strateegilise tähtsusega ülesanne, mitte pelgalt keelepoliitika ääremaale kuuluv moeasi.

Praktikas koosneb keeletehnoloogia hulgast võtetest, mis on realiseeritud arvutitarkvarana, ja keeleressurssidest, mis on arvuti abil töödeldav teadmiste kogum.

Arvutitarkvara näiteks võib tuua õigekirjakontrolli, terminite otsimise jooksvast tekstist, automaatse morfoloogilise ja süntaktilise analüüsi, kõnetuvastuse (näiteks automaatne diktofon). Keeleressursid on näiteks elektroonilised sõnastikud, formaliseeritud grammatikakirjeldused, terminoloogiabaasid, tekstikorpused.

Mis on eesti keeletehnoloogias reaalselt olemas, seda ei ole võimalik siin üles lugeda. Võib nimetada mõned olulisemad tooted, mis peaksid paljudele tuttavad olema. On olemas eesti keele speller, on optiline eesti keelt oskav tekstilugeja (skän-ner), on morfoloogiaanalüsaator (mida saab kasutada paljudes tekstiga töötamise ülesannetes, näiteks samas skänneris), on küllalt suur hulk korpusi ja elektroonilisi sõnastikke.

Mida tuleks teha

Eesti Informaatikakeskuse tellimusel koostati 2000. aastal «Eesti keeletehnoloogia arenduskava» (www.eki.ee/keele-tehnoloogia/tutvustus/arenduskava.html). See valmis Tartu Ülikooli, Eesti Keele Instituudi ja TTÜ Küberneetika Instituudi koostöös.

Et tekiks mingi pilt sellest, mida kavas pakutakse, loetlen olulisemad lähiülesanded.

1. Automaatne kõnetuvastus, mille sisendiks on sidus eestikeelne kõne ja väljundiks korrektne ortograafiline tekst (automaatne diktofon). Tasub lisada, et inglise keele jaoks on see teenus juba järgmises Microsoft Office’i paketis olemas, seega masskasutuses.

2. Grammatikakorrektor. Eesti keele speller ehk õigekirjakorrektor on olemas ja lülitatud Microsoft Office’i paketti, kuid see opereerib ainult üksiksõnavormidega.

Grammatikakorrektor osutab grammatiliselt vigastele eesti keele konstruktsioonidele ja lausetele ning pakub välja õige. Näiteks kui tekstis on lause «Ma õppisime matemaatikat», siis osutab korrektor, et õige on kas «Me õppisime matemaatikat» või «Ma õppisin matemaatikat».

3. Tõlkeprogrammid. Viimaste aastate jooksul on masintõlketehnoloogia väga kiiresti edasi arenenud. Eesti keele tarvis on välja pakkuda vähemalt kaks võimalikku programmi, mis mõlemad eeldavad süntaksianalüüsi ja -sünteesi olemasolu ning mahukaid süntaktilist ja semantilist infot sisaldavaid arvutisõnastikke.

Esimene neist on piiritletud valdkonna, reaalselt eelkõige eurodokumentide tõlkimiseks mõeldud eesti inglise toortõlkeprogramm.

Teine on piiritlemata valdkonnale orienteeritud internetitõlkide analoog, mille lähteks on inglise eesti tõlkeprogramm. Inglise keele kaudu võib põhimõtteliselt saada juurdepääsu ka teistele keeltele.

Paljude keelte jaoks on sellised programmid olemas ja vabalt kasutatavad (näiteks Babel Fish, vt www.babelfish.com). Loomulikult saab neid tõlke-programme kasutada ka mujal kui internetis.

4. Infootsiprogrammid. Eestikeelne intelligentne sisu järgi info otsimine (autonomy.com analoog) ja teiseks võimalus esitada küsimusi loomulikus eesti keeles, millele arvuti vastab otse või täpsustavate küsimustega (Ask Jeeves.com’i analoog).

5. Interaktiivsed keeleõppeprogrammid, nii internetipõhised kui ka iseõppijatele mõeldud CDd, mis korrigeerivad ja kommenteerivad nii grammatikat kui hääldust.

6. Eestikeelse kõnesisendi ja -väljundiga automaatsed telefoniteenuste süsteemid piiritletud valdkondades, mis lisaks kõnesünteesi ja -tuvastuse programmidele eeldavad olulise komponendina loomuliku kõnelise inimsuhtluse (dia-loogi) seaduspärasusi arvestava mooduli realiseerimist. Näiteks info sõiduplaanide kohta: te tahate kindlal ajal ühest kohast teise jõuda (näiteks Tallinnast Ateenasse) ja püüate telefoni teel sobivamat varianti välja selgitada. Telefoni teises otsas on arvuti. Näiteks inglise keele osas on sellised teenussüsteemid juba reaalsus.

7. Automaatsed kõnelejatuvastussüsteemid, mis võimaldavad identifitseerida kõneleja isiku tema hääle järgi. Neid süsteeme on hulgaliselt rakendatud turvasüsteemides, telefonipanganduses ja muude telefoniteenuste puhul.

8. Tarkvara lokaliseerimine, s.o eestikeelsete kasutusjuhendite, menüüde jne koostamine või nende tõlkimine eesti keelde. Eesti keele arvutitoe nõuet seostatakse tihti ainult selle ülesandega, mida see põhimõtteliselt ei ole, nagu siinsest kirjutisest peaks selguma.

Toodud loetelu võib mõnegi ära ehmatada. Tahan siiski rõhutada, et arenenud keeletehnoloogilise toega keelte puhul on kõik need tooted reaalsus. Kui eesti keele jaoks neid pole, siis tähendab see, et meil pole keeletehnoloogilist tuge.

Loomulik küsimus on: miks ei ole? Kas meil ei ole piisavalt asjatundjaid, kes vajalikud tööd ära teeksid?

Kõige kurvem ongi see, et probleem pole asjatundjate puudumises. Oleme osalenud enam kui kümnes Euroopa Liidu keeletehnoloogiaprojektis ja kogemusi on piisavalt. Eestis on vähemalt kolm keskust, mis koostöös suudaksid need ülesanded täita: Tartu Ülikool, Tallinna Tehnikaülikool ja Eesti Keele Instituut. Iga väljapakutud toote puhul on põhjalikult kaalutud, kas ja kuidas suudaksime seda oma seniste kogemuste najal realiseerida ning mida on vaja juurde õppida.

Probleem on Eesti riigi huvis, täpsemini huvi puudumises, mis on välja loetav eelarvest. Konkreetne näide: 1998. aastal käivitus Eesti Informaatikakeskuse eestvedamisel keeletehnoloogia sihtprogramm, mis siis sai riigieelarvest miljon krooni. 2000. aastaks oli see summa vähenenud 100 000 kroonile. Selle 100 000 krooni eest tehti muu hulgas ära eespool mainitud keeletehnoloogia arenduskava. 2001. aasta eelarves oli summa 0 krooni.

Piltlikult asja kirjeldades: kuni end harisime ja plaane tegime, anti raha. Kui olime valmis tööle hakkama, öeldi: aitäh, aga raha enam ei ole. Miks ei ole, seda pole öeldud. Aga ainus mõistlik tõlgendus on, et keeletehnoloogiat ei ole vaja. Palju fantastilisemate asjade jaoks raha aga on.

Vahel räägivad teod rohkem ja valjemini kui sõnad. Sel aastal ei paista asjad palju lootustandvamad olevat. Keeletehnoloogia jaoks ei leidu eelarves lahtrit. Pole lahtrit, pole probleemi?

Kindlasti huvitab paljusid, mis see kõik siis maksma läheb. Võin öelda lihtsalt: lähema 3-4 aasta jooksul peaaegu suurusjärgu võrra vähem kui ühekordne Eurovisioon. Mitte et mul midagi Eurovisiooni vastu oleks - lihtsalt usun, et Eurovisiooni summad on Eesti maksumaksjale pähe kulunud ja nendega on lepitud.

Mis saab edasi?

Missugused võimalused on jätkamiseks? On valida mitme variandi vahel.

Esiteks: me ei tee midagi. Lepime olukorraga, et infotehnoloogiline keskkond on valdavalt ingliskeelne. Prognoos: eesti keel ei ole juba lähemas tulevikus kasutatav kõigil Eesti ühiskonna funktsioneerimise aladel.

Teiseks: ostame sisse inglise keele töötlemisele orienteeritud programmid ja anname need häkkeritele, küll nemad sobitavad need eesti keelele. Seda on tõsimeeli soovitatud. Prognoos: eestikeelset tehnoloogiat ei teki, sest häkkeritel puudub vajalik eesti keele alane kompetentsus. Lõpptulemus on sama mis eelmises variandis.

Kolmandaks: teadvustame probleemi tõsidust riiklikul tasandil ja käivitame keeletehnoloogia arendusprogrammi koos vastavate alusuuringutega ning spetsialistide ettevalmistamisega.

Prognoos: kahe-kolme aasta pärast on loodud uurimis- ja arendustööks vajalikud keeleressursid, kolme-nelja aasta pärast on olemas esimesed laiale tarbijaskonnale suunatud keeletehnoloogiatooted - näiteks grammatikakorrektor, piiratud sõnavaraga kõnetuvastus, infootsiprogrammid, ka lihtsamad masintõlkeprogrammid.

Ehk otsustame lõpuks, missuguse variandi valime.

Tagasi üles