Jaak Vilo: kuidas andmeid kaevad, nõnda vastu kostab

Juhime tähelepanu, et artikkel on rohkem kui viis aastat vana ning kuulub meie arhiivi. Ajakirjandusväljaanne ei uuenda arhiivide sisu, seega võib olla vajalik tutvuda ka uuemate allikatega.

Marek StrandbergAjalehe Sirp teadustoimetaja

Toimetaja: Berit-Helena Lamp

23. detsember 2012, 20:49

Värskes Sirbis ilmus intervjuu infotehnoloogia alal akadeemikuks valitud Tartu ülikooli matemaatiku ja bioinformaatiku Jaak Viloga, kes räägib sellest, mis on andmekaevandus ning tehnoloogia kasulikkusest inimkonnale.

Andmekaevandus (data mining) on üks tegevustest, mida harrastad. Mis see on? Tavaarusaama järgi teeb Google andmed niigi kättesaadavaks. Kas ikka teeb?

JAAK VILO: Google aitab meil traditsiooniliselt üles leida ja kätte saada avalikke andmeid, peamiselt tekste, hinnates statistiliselt, mis on vastava päringu jaoks kõige olulisem info. Samuti arendavad nad väga massiivset IT-infrastruktuuri – pilveteenuseid, mobiilitaristut, kaarditeenuseid, masintõlget jne.

Andmekaeve on aga vajalik igal pool, kus luuakse näiteks ärisiseselt privaatseid andmeid (kaubandus, e-kaubandus), ja ka väga paljudes teadusharudes, kus on vaja tõlgendada andmeid või mõõtmistulemusi. Andmekaeve on laias laastus vajalik kõikjal, kus on vaja andmete põhjal teha järeldusi ja aru saada andmete sisust eesmärgiga kirjeldada või ennustada. Üks andmekaeve osa – masinõpe/tehisõpe aitab omakorda luua programme ja «ennustajaid» olukorras, kus eksperdid ei suuda ise vastavaid reegleid piisava täpsusega kirja panna. Siis tuletatakse need reeglid andmete analüüsi kaudu.

Andmekaevega tegelevad muidugi väga paljud teadlased ja firmad, Google’i konkurendid. Maailmaturul ei ole jõuvahekorrad staatilised ega kunagi lõpuni paigas.

Kuivõrd elusas toimuv on vaid molekulidel toimuv informatsiooniline protsess? Millised on bioinformaatilise elukäsitluse atraktiivseimad ja ennustusvõimelisemad tähelepanekud?

See on veidi filosoofilisem küsimus. Nii füüsikas kui ka informaatikas on entroopia mõiste, viimases on see informatsiooni «hulk». Füüsikute seisukohast peaks elu olema kirjeldatav füüsika kaudu, keemikute järgi hoopis keemiline protsess ja informaatikute seisukohast peaks kogu elu olema kirjeldatav iga molekuli ja protsessi modelleerimise kaudu, s.t kõike peaks saama kirjeldada informatsiooni kaudu, 0-1 bittide abil – ka tõenäosusi ja juhust, füüsikat ja keemiat. Bioloogide jaoks on bioloogia aga lõpmatult keerulisem ja ennekõike evolutsioonilise arengu tulemus.

Bioinformaatika kaudu on traditsiooniliselt suudetud analüüsida näiteks makromolekule – DNA, RNA ja valkude järjestusi, struktuuri, interaktsioone ja nende keerukamaid ainevahetuse ja signaaliülekande radu. Nii saab analüüsida, kuidas evolutsioonis valgud on tekkinud ja muutunud, kuidas on arenenud geenide regulatsioon, mis on geenide võimalik funktsioon. Kui praegu sekveneerida mõne uue liigi DNA, siis saab selle üsna täpselt paigutada evolutsioonipuule ning tuua välja, millised omadused on «uued», millised muutused on aidanud kohaneda vastava elukeskkonnaga jne. Evolutsioon on ju sisult juhuslik – mõned muudatused on kasulikud, teised kahjulikud või neutraalsed. Bioinformaatika aitab neid muudatusi leida ja klassifitseerida.

Bioinformaatika teine teene on suurte globaalsete andmebaaside kogumine ja analüüsitavaks tegemine. Teadus võrdleb kogu aeg uut infot senise vana teadmusega. Andmebaasideta ja seal oleva info kiire analüüsi võimeta ei oleks see võimalik. Samuti on selge, et DNA sekventsi andmete analüüs ilma arvutiteta, ilma bioinformaatikata, ei ole võimalik. Viimase kümne aastaga on sekveneerimise võimekus kasvanud aga oluliselt kiiremini kui arvutite kiirus. Seega bioinformaatikud peavad mõtlema välja ka algoritme, mis suudaksid aeglase arvuti pealt rohkem välja pigistada. Praegu kuulub bioinformaatika alla enam-vähem kõik, mis tegeleb näiteks eri tüüpi andmete analüüsi või bioloogiliste süsteemide modelleerimisega.

Kui me tõesti mõistaksime kõiki protsesse piisavalt, siis peaksime suutma neid ka reeglitena esitada ning modelleerida neid juhuslikke protsesse arvutis. Terviklik modelleerimine on süsteemibioloogia põhiline eesmärk. Kui hästi on bioinformaatika vahenditega kirjeldatav see valdkond ja nähtused, millega tegelevad biosemiootikud?

Ei tunne vastavat ala piisavalt. Mulle tundub, et semiootika on pigem filosoofialähedane valdkond ja tegeleb käitumise ja tõlgendamisega, abstraktsete märgisüsteemidega. Kui semiootika produtseerib mõne hüpoteesi, siis peaks olema võimalik seda testida bioinformaatika abil. Näiteks, kui tihti või millistes elukeskkondades millised märgid domineerivad. Kui eeldada, et enamik bioloogilist infot on kirjas DNAs, siis peaks ju neid märke kohtama ka seal. Kui jõutakse aju tasemele, siis on näha, et närvisüsteem ja aju on «lihtsamatel» liikidel ka lihtsam ja deterministlikum. Keerulisematel loomadel omakorda hakkab domineerima keskkond ja kasvatus, s.t elu jooksul omandatakse kogemus, mida aju suudab salvestada ja töödelda. See info ei ole kirjas genoomis – seal on ainult reeglid, kuidas aju kasvatada. Selles valdkonnas toimub praegu teaduses palju: arvutuslik neuroteadus proovib uurida, kuidas aju suudab infot salvestada ja analüüsida.

Kuidas on, kas elu, eriti inimese oma, muutub rohkem tehniliste infosüsteemidega läbipõimunuks ja nendesarnaseks või hakkavad infosüsteemid järjest enam sarnanema eluslooduses toimuvaga? Mis meid üldse järgmisel paaril aastakümnel infotehnika ja süsteemide arengus ees võib oodata?

Kindlasti aitavad tehnilised süsteemid inimesi võimekamaks muuta. Õppisime «lendama», nüüd õpime täistehislikke – elektroonilisi, mehaanilisi ja informaatilisi – abivahendeid looma. Juba suudetakse ju mingil määral ühendada närve elektrooniliste komponentide külge või algeliselt mõõtma keha ja aju toodetud elektrilisi signaale. Kui see info kätte saada ja tagasi sidestada, kasutades vahepeal arvuti juhitud robotseadmeid, siis saab tekitada lõpmatult tehislikke abivahendeid.

Bioloogiast saavad inspiratsiooni ka informaatikud, nt uued heuristikad olukordadeks, kui matemaatiliselt pole lihtsalt võimalik keerulisemaid ülesandeid kiiresti ja optimaalselt lahendada. Siin saab proovida intelligentset juhuslikku otsimist – geneetilisi algoritme ja muid evolutsioonilisi heuristikaid.

Kolmandaks on praegu tekkimas uus, sünteetiline bioloogia. Inimene suudab laboris juba luua (sünteesida) ja muuta ise elementaarseid bioloogilisi süsteeme. Esmane lootus on just energiatoodangu jaoks vajalike bakterivormide loomisel. Skaala teises otsas on aga praegu rakkude «ümberprogrammeerimise» tehnoloogiad. Näiteks keharakkudest tüvirakkude tegemine, mille eest sel aastal Nobeli auhindki välja anti. Praegu tuleb üha uusi läbimurdeid, kus ühe rakutüübi saab muuta otse teiseks. Süsteemibioloogiale ja bioinformaatikale esitab see täiesti uusi väljakutseid, meditsiinile annab see aga väga suuri lootusi, et asendada surnud rakke või kasvatada uusi organeid inimese enda rakkudest. Rasvaimu saab siis hoopis teise tähenduse, kui inimese enda rasvarakkudest saab näiteks kasvatada uusi südamerakke.

Me ei oska lõpuni ennustada, kuidas tagada, et keegi neid uusi tehnoloogiaid inimese enda vastu ei pööraks. Või veel hullem, et tehnoloogia ise kontrolli alt ei väljuks. Usun, et see ei ole praegu veel meie suurim oht või probleem. Ma ei arva, et isesõitvad autod hakkaksid näiteks robotite vaba tahte tõttu tahtlikult inimesi alla ajama, et saavutada inimkonna üle ülevõim. Vähemalt mitte mingis praegusel hetkel nähtavas tulevikus. Samas – möödunud 50 aastat on olnud ikka väga tormilise arenguga ja 50 järgmist aastat puudutavad otseselt meie lapsi ja lapselapsi.

153 aastat pärast Darwini «Liikide tekkimise» esmailmumist on põhjust küsida, kas tehislikud infosüsteemid saavad evolutsiooniprotsessi osaks või need on juba seda.

Mingil filosoofilisel tasemel need juba kindlasti osalevad evolutsiooniprotsessis. Praegu on tehislik suutnud oluliselt muuta evolutsioonilise kohandamise kriteeriume. Inimesed on kiirendanud oluliselt põllumajanduse tootlikkust, samuti viinud liike ühelt mandrilt teisele. Inimeste endi konkurentsivõime mõõdikud on hoopis erinevad nendest kriteeriumidest, mis valitsesid ja millega tuli muganduda kümme tuhat aastat tagasi.
Mingil määral on võimalik ka teadust ennast kui uue teadmise otsimist automatiseerida, näiteks luues uusi küsimusi ja hüpoteese ning suunates automaatseid katseid sinna, kus need toodavad uut teadmust. Suurimat läbimurret võiks ju oodata sünteetilises bioloogias, biotehnoloogias, mis suudab koguda ja salvestada energiat.

Kas meile on see ulatuslik teadus- ja tehnoloogiaarendus üldse jõukohane? Kas keskendumine üksikutele valitud valdkondadele ei oleks teaduse arengu seisukohalt parem?

Minu arust ei ole Eesti sugugi ette võtnud mingit väga ulatuslikku teaduse ja tehnoloogia arendust. Arvestades riigi rahalist panust teadusse, eriti kui jätta kõrvale Euroopa abiraha, on teadus ja kõrgharidus pigem väga alarahastatud. Mõned ütlevad, et meie protsendid SKTst on justkui piisavad. Kuid ometi on tippülikoolide rahastamise tase tudengi kohta madal ja teadlasi pigem vähe. Samal ajal see erialati varieerub kõvasti. Rakenduslikumatel erialadel, sealhulgas ITs, on olnud ülikooliväliselt tunduvalt paremad karjäärivõimalused, seega pole ka piisavalt teadlasi ja õppejõude.
Eesti on väike ja sellest tulenevad teatud omapärad.

Esiteks – millistel aladel peab meil olema tagatud teaduse miinimum ja sellel teadusel põhineva õppe võimekus? Kas saaksime lubada, et Eestis ei ole kedagi, kes teab, mis toimub tuuma- ja astrofüüsikas, keemias, ühiskonnateadustes või matemaatikas? Siin peame olema pigem laiapõhjalised ja universaalid. Vähesed teadlased peavad justkui katma väga laia spektri teadussuundi. Kuna meid on vähe, siis on vaja tugevat baastaset, et kõikidel laiematel valdkondadel oleks olemas oma jätkusuutlikkus. Vastasel juhul ei saaks me oma lapsi õpetada isegi mitte enam gümnaasiumi tasemel, rääkimata ülikoolist.

Teiseks – milline oskusteave tagab majanduse kiireima arengu, konkurentsivõime, ressursikasutuse ja tervishoiu efektiivsuse? Kas saame lubada, et me ei panusta nende alade tehnoloogia arendamisse ja rakendamisse? Kas saame edukalt ainult rakendada, kui keegi Eestis ei tea, kuidas neid tehnoloogiaid luuakse? Just majanduse konkurentsivõime eelduste kaudu proovitakse suunata strateegilisi valikuid ja prioriteete. Need valikud peavad peegelduma ka fundamentaalteaduse samades valdkondades.

Kolmandaks – täiesti vaba tippteadus. On oluline, et riigis teataks, kuidas uue teadmise loomine toimub. Ülikool peab ju õpetama tudengeid looma ise uut teadmust ja pidevalt juurde õppima. Me ei tea, millised konkreetsed teadmised on vajalikud 30 aasta pärast, kuid teadus õpetab meile õppimise protsessi ennast. Tänu teaduslikele meetoditele peaksime suutma kohaneda ka nende vajadustega, mis tulevad meie ette 30 aasta pärast. Tegelikult töötavad ju praegused 25aastased ülikoolilõpetajad 40 aasta pärast veel ka 65aastaselt. Täna sündinud lapsed töötavad veel võib-olla 2090. aastani, ligi 80 aasta vanuseni. Mida me neile õpetame oma eluga toimetulekuks?

Sisuliselt peame tagama kõrghariduse meile olulistel aladel, rakendusteaduse ja tehnoloogiaarenduse majanduse jaoks ning tippteaduse aladel, kus seda on.

Mis on üldse hea teadus? Kas seda on piisavalt?

Minu arust on hea teadus ennekõike oluliste küsimuste küsimine ja neile vastuste otsimine. Oluline võib olla nii rakenduslik küsimus või ka täiesti fundamentaalne teoreetiline küsimus. Head teadust on võimalik teha nii lühema kui ka pikema perspektiiviga, kuid see peab ennekõike olema relevantne.

Sooviksin, et teadusse ja kõrgharidusse püriksid intellektuaalselt ja töövõimelt kõige võimekamad noored. Selleks oleks vaja luua kõrghariduse süsteem, kus on heas tasakaalus tudengite ja akadeemilise personali suhtarv ning tagatud piisavalt atraktiivne akadeemiline karjäärimudel, mis tekitaks loomuliku, väga tugeva konkurentsi ametikohtadele. Praegu on akadeemilised konkursid endiselt keskmiselt üks inimene kohale, kuid vaja on, et tekiks konkurss kümme inimest kohale. See tähendab muidugi palga ja karjäärimudeli korrastamist. Vaja on midagi ühiskondliku kokkuleppe laadset – kui palju peaks olema õppejõude, teadlasi ja insenere ning milline on sellise konkurentsi jaoks vajalik keskmine palgatase. Sellest saab arvutada vajaliku palgafondi suuruse. Karjäärimudelis on vajalik nii piisav rotatsioon (selektsioon) kui ka stabiilsuse kandmine. Noored on reeglina võimekamad ja õpivad uut kiiremini. Vanemad saavad suunata ja aidata. Parimad teaduse tegemise aastad on doktorantuur ja sellele järgnev oma teadussuuna valik ja käivitamine. Hiljem tuleb tegelda juba administratiivsete ülesannetega, mis võtavad ära keskendumiseks vajaliku aja.

Ei ole üheselt selge ka see, kui suur peaks olema üks väga võimekas teadusrühm. Pisikeses, 3–5 inimese rühmas on teadus kõige paremini fokuseeritud. Kuid rahastamismudelid soosivad suuremate koosluste teket ning suuremaid projekte ei saa teha vähekesi. Eks siingi on vajalik evolutsioon – arenevad rühmad kasvavad, hääbuvad rühmad kahanevad. Head inimesed peavad saama vahetada teadusrühmi ning, kui vaja, siis muidugi siirduda edasi ettevõtlusse, kus nad loodetavasti on väga konkurentsivõimelised. Riigil pigem puuduvad selged suuremad teadusprojektid ja eesmärgid. Geenivaramu loomist ja selle teadmuse siiret tervishoidu pean üheks selliseks suuremaks eesmärgiks, mis vajab paljude teadlaste, ettevõtete ja tervishoiuasutuste koostööd.

Eestis peaks forsseerima doktoriõpet, eriti tehnilisematel aladel. Kui saame rohkem doktorikraadiga inimesi, siis toimiks paremini konkurents ametikohtadele akadeemilises sfääris, ning need, kes ei mahu ülikoolidesse, aitaksid juhtida arengut eraettevõtluses. Mõnes valdkonnas on doktoriõpe olnud ebapiisav isegi õppejõudude taastootmiseks. Tartu ülikoolis on viimastel aastatel drastiliselt kahanenud doktorantuuri vastuvõtt riigieelarvevälistele kohtadele. Vähest tulemuslikkust aitaks parandada professionaalsem suhtumine doktorantuuri – see peaks olema 100% täiskohaline töösuhe. Võimalus tuleks anda rohkematele, kuid sõelale jääksid parimad. Praegu selle jaoks raha ei ole.

Missugune on teaduste akadeemia roll? Teadusministeeriumina toiminud ja instituute hallanud organisatsioon on mõnevõrra identiteedikriisis või see on pelk mulje?

Reaalset juhtimispädevust teaduste akadeemial tõesti ei ole. Ma ei ole seni olnud akadeemia liige ja kogu poliitilist mõjujõudu veel ei adu. Võimalik, et seda polegi piisavalt. Arvan, et teaduste akadeemial peaks olema roll suunata protsesse riigi tasemel, kõnelda ühiskonnale laiemalt teaduse vajalikkusest ja seista teaduse vajaduste eest.

Kuidas te täidate akadeemiku rolli oma edasises teadus- ja ühiskondlikus tegevuses?

Ma ei usu, et see palju muudab. Teaduses jätkan oma rühmaga bioinformaatika ja meditsiini IT-valdkonna arendamist, samuti laiemalt andmekaevet ja masinõpet. Geneetika läbimurre viib meid personaalse meditsiini arendamisele, geneetikast tuge saavate meditsiiniliste otsusteni. See kõik vajab aga IT-infrastruktuuri ning selgeid statistilisi seoseid, mille alusel otsustada. Bioinformaatika aitab neid seoseid otsida ja hiljem ka rakendada. Elektroonilisi terviseandmeid on aga minu arust Eestis veel liiga vähe uuritud. Arstide palgamurede kõrval on justkui kohatu mõelda, kuidas andmetest maksimaalne väärtus välja pigistada. Kui me ei kavatse seda piisavalt teha, siis ei peaks ju neid andmeid üldse kogumagi. IT peaks olema selgelt arstide ja tervishoiusüsteemi abimees, mitte lihtsalt vältimatu kuluartikkel. Praegu on elektroonilised terviseandmed ikka pigem veel ühe patsiendi kaustik, kuid vaja on, et need oleksid ka süstemaatiliste uuringute lähtematerjal.

Ühiskondlikult on mul peamine roll praegu IT-valdkonna hariduse ja teaduse arendamine, samuti osalen mitmes teadusega seotud otsustuskogus. Teadusarvutuste ressurss (Eesti teadusarvutuste infrastruktuur ETAIS) ning rahvusvaheline koostöö (bioinformaatika infrastruktuur ELIXIR) aitavad ka Eesti teadust edasi. Akadeemia ei anna mulle ju aega juurde, et saaksin veel rohkemaga tegelda.

Viimane küsimus: milline peaks olema Eesti jaoks hea koolikorraldus?

Kirjutasin varasügisel Postimehe arvamusküljel, et minu arust käiakse praegu liiga kaua koolis. Ei ole õige, et gümnaasium lõpetatakse 19–20aastaselt ja samal ajal käiakse selle kõrvalt juba regulaarselt tööl. Pigem peaks siis hoopis pingutama oma eriala õppimisega. Nooremalt kooli lõpetamise puhul oleks mõtet ka vaheaastal, et leida oma suundumus eluks. Eesmärgi saaks saavutada kahe asja koosmõjus. Esiteks, lühendada praeguselt 12 aastalt kogu üldhariduse protsessi, viies sealt välja kuiva tuupimise ja mehaanilise arvutamise ning tuues asemele rohkem arutelu, mõtlemist, arusaamist (kas või vähematest asjadest) ja ainetevahelisi seoseid rõhutavat õpet.

Teiseks võiks kooliteed alustada nooremalt. Praegu on esimese klassi laste tase ebaühtlane, mida osalt näitab ka pingutamine nn eliitkoolidesse saamiseks. Vahe sõltub kodus õpetamisest ja lasteaias käimisest või mittekäimisest. Kuna ka lasteaiakohti ei ole piisavalt, siis võiks ühtlustada lugema õppimist ja arvutamist palju varem kui seitsmeselt – olgu koolis või lasteaias. Lapsed on väga kohanemis- ja õppimisvõimelised just nooremalt, eriti keelte osas. Miks raiskame ära laste magusaima õppimise hetke ajal, kui nad seda tahaksid teha, ja üritame selle asendada hilisema igava tuupimisega?

Märksõnad

jaak vilo