Keeleandmestikke on keeletehnoloogidel alati vaja läinud, ent kohe kindlasti mitte nii palju kui praegu. Keeletehnoloogilisi rakendusi tehti kaua inimese koostatud reeglitele tuginedes, kuid nüüd on see viis suuresti asendunud andmepõhise lähenemisega.
Näiteks, andmepõhist masintõlget arendatakse Eestis hoogsalt ja tulemused on väga hea kvaliteediga. Tõlkesüsteemid töötavad tehisnärvivõrkudel (need simuleerivad inimaju tööd) ehk süsteeme treenitakse etteantud tekstidest mustreid otsima. Leitud mustrite alusel suudab süsteem juba ise päris tõlkeid luua.
Millised on masintõlke puhul need tekstid, kust mustreid otsitakse? Kahe keele vahel mustrite leidmiseks on tarvis eestikeelset teksti ning selle sama teksti tõlget mõnda teise keelde. Kui tahame luua eesti-vene-eesti masintõlget, siis tuleb masinale ette anda lauseid, mis on korraga olemas eesti ja vene keeles. Paraku ei piisa tulemuse saamiseks sajast või tuhandest lausest ning see on sellise lähenemise üks probleemkoht.
Selliseid paralleelseid lauseid läheb kvaliteetse masintõlke loomiseks tarvis miljoneid. Eelmisel aastal alustatud riikliku masintõlke projekti raames loodi süsteem, mis tõlgib eesti keelest inglise, vene ja saksa keelde ning vastupidi. Süsteemi õpetati ära tundma riigikaitse, tervise ja õiguse valdkonda kuuluvaid tekste. Kokku kasutati masintõlke arendamiseks ligikaudu 42 miljonit paralleelset lauset. Kõige rohkem oli eesti-inglise lauseid, ligi 24 miljonit – sest veebis lihtsalt on sobivaid tekste eesti ja inglise keele vahel rohkem.
Kokku kasutati masintõlke arendamiseks ligikaudu 42 miljonit paralleelset lauset.