Arko Olesk: inimhingede radar

Viimase poole sajandi jooksul on USA juhtivas ajalehes New York Times kokku ära trükitud umbes kolm miljardit sõna. Inimesed postitavad Twitterisse päevas 340 miljoni säutsuna umbes kaheksa miljardit sõna. Viimase 500 aasta jooksul ilmunud raamatutest leiab kokku 50 triljonit sõna. Kuus aastat tagasi alustanud Twitter jõuab sama mahuni ilmselt kolme aasta pärast.

Mis üksikisiku, meediatarbija perspektiivist tundub haldamatu infouputusena, on arvutite ja algoritmidega varustatud teadlase vaatevinklist hindamatu varasalv. Teabetulv annab võimaluse viia reaalajas läbi sotsioloogilisi uuringuid, tabada ühiskonna varjatud suhtevõrgustikke ning jälgida nende muutumist ajas ja ruumis.

Kui on leitud mustrid ja seosed, on järgmine loogiline samm nende põhjal ennustamine. Kas on oht, et ühiskonnas võivad puhkeda rahutused? Kas aktsiahinnad börsil võtavad homme suuna üles või alla? Kuidas mõjutab maailma ühes otsas toimuv sündmus olukorda hoopis mujal? Kuidas inimesed sellele reageerivad?

«Paljudel sotsiaalteaduse valdkondadel ei ole olnud kasutada mahukaid andmeid,» ütleb Kalev Leetaru, Eesti päritolu USA arvutiteadlane, kelle erihuvi on suurte tekstimassiivide töötlus. «Nüüd saame esmakordselt andmekogumeid.»

Viimastel aastatel on ilmunud hulk intrigeerivaid uurimistulemusi, mis näitavad (sotsiaal)meedia võimalusi. Näib, et blogides uue filmi kohta kirjutatut analüüsides on üpris hästi võimalik ennustada, kui suure kassa see toob. Säutsudest kumav rahulikkus või ärevus kattub hästi sellega, mis suunas liigub börsiindeks. Hinnangud, mis kõlavad säutsudes poliitiku kohta, langevad kokku sellega, mida näitavad tema populaarsuse kohta klassikalised sotsioloogilised küsitlused.

Leetaru enda kõige laiemat tähelepanu pälvinud uurimus vaatles Osama bin Ladenist enne tema tabamist avaldatud uudistes mainitud geograafilisi paiku. Ta leidis, et miljonite uudiste geograafiline fookus koondus paarisajakilomeetrise läbimõõduga ringile Pakistanis. Selles ringis asus ka Abbottabad, Al-Qaeda liidri tegelik pelgupaik, olgugi et linna enda nime mainiti vaid ühes uudises.

«Suur osa sellest, mida teeme, leiab aset digitaalses maailmas, mis lubab arvutite abil meid jälgida. Meedia, eriti sotsiaalmeedia, on kiirem ja vahetum,» kõneleb Illinoisi ülikooli sotsiaalteaduskonna arvutusinstituudi asejuht Leetaru. «Andmed on ühiskonna arengute tabamiseks piisavalt head.»

Paljuski on selle võimalikuks teinud asjaolu, et meedia ei ole enam elitaarne institutsioon, tõdeb John Kelly, firma Morningside Analytics asutaja ning Harvardi ülikooli juures asuva Berkmani keskuse teadlane. Oma sõnumit saab tänu uutele kanalitele levitada nüüd igaüks, mis teeb infovoo ühiskonna suhtes representatiivsemaks.

«Kuid demokratiseerumise kõrval tasub mõelda ka sotsiaalsele skaalale, mis ulatub indiviidi tasandilt rahvusriigi kujutletud kogukonna tasandile.» lisab Kelly. «Traditsiooniliselt keskendus kommunikatsioonianalüüs kahele täiesti eri tasandile. Üks neist on mikrotasand: väikeste rühmade kommunikatsioon, inimestevaheline suhtlus. Teine on makrotasand: massikommunikatsioon.»

«Tõeliselt huvitav on aga see, mis toimub keskmisel tasandil,» jätkab Kelly. «Inimesed suhtlesid, tekitasid ja jagasid teadmisi ning koordineerisid tegevusi kesktasandil ka enne interneti ja sotsiaalmeedia tulekut, kuid seda korraldasid organisatsioonid. Sotsiaalmeedia lubab nüüd suhtlust paljudelt paljudele, võimaldades seda kesktasandit täita. Näideteks on Occupy-liikumine ja mõnede väidete kohaselt ka osa araabia kevadest. Enam ei ole tarvis organisatsioone, et täita teatud kesktasandi korralduslikke ülesandeid.»

Sotsiaalmeedia roll araabia rahutustes, Venemaa opositsiooniprotestides ja teistes samalaadsetes massiliikumistes on uue uurimisvaldkonna keskmesse kergitanud just küsimuse, kas ja kuidas oleks võimalik ära tabada ühiskonna meelestatust ja ennustada näiteks rahutuste või sõja puhkemist.

Selleks meedia kasutamises pole midagi uut. Luureagentuurid on aastakümneid monitoorinud maailma meediat, otsides märke hoiakute muutumisest, väikestest sündmustest, mis võivad üle kasvada suurteks. Mõnikord on märgid otsesemad, näiteks Pearl Harbori rünnaku eel muutus Jaapani raadio toon USA suhtes negatiivsemaks ning kadusid rahujutud, teinekord tuleb püüda lugeda ridade vahelt. Ent viimase ajani tegid seda kõik siiski inimesed.

«Nüüd on kõik elektroonilises formaadis. Arvutid saavad avaliku info kokku koguda ning öelda, millised on huvitavad mustrid,» märgib Leetaru, kes tutvustas oma uurimistööd Tallinnas ideedekonverentsil TEDxTallinn. See oli ühtlasi tema esimene külaskäik isa sünnimaale.

«Kasutan oma töös sadat miljonit uudisartiklit, nopin neist välja kümme miljardit inimest, kohta ja asja ning sada triljonit seost nende vahel,» loetleb Leetaru. «Masinad ei loe nii põhjalikult kui inimesed, kuid materjali kogust suurendades on võimalik isegi pinnapealselt lugedes leida samasugused mustrid kui [üksikuid artikleid] märksa põhjalikumalt analüüsides.»

Leetaru lähenemise keskmes on artiklite tonaalsuse hindamine: võttes aluseks nimekirja kindlatest märksõnadest, suudab arvutialgoritm hinnata, kui positiivne või negatiivne on kajastus. Rakendades seda miljonitele uudisartiklitele, väidab Leetaru, et riiki puudutava kajastuse eelnev negatiivsemaks muutumine ennustas edukalt Egiptuse, Tuneesia ja Liibüa revolutsioone, Balkani konflikti, aga ka Saudi Araabia stabiilsust.

Sel aastal on Leetaru töörühmal valmimas andmebaas 60 miljonist maailmas aset leidnud mässust, riigipöördest, protestist ja muust rahutusest, mille abil loodavad nad veel täpsemalt välja selgitada ulatusliku vägivalla tekke ja arengu mehhanisme.

Ka John Kelly usub, et Egiptuse revolutsiooni märgid olid olemas juba tükk aega enne leegi süttimist. «2009. aastal vaatasime tuhandeid araabia blogisid,» räägib ta. Võrreldes Leetaru arvutikeskse ja küllalt pinnapealse lähenemisega, läks Kelly rohkem süvitsi: blogisid lugesid ja tõlgendasid ka eksperdid. «Eriti Egiptuse puhul moodustunud klastritest tuli selgelt välja kaks asja.»

«Esiteks, juba kaks aastat enne araabia kevadet oli blogiandmete põhjal selge, et inimesed, kes muidu poliitikasse ei sekkunud, olid tugevalt režiimi vastu,» selgitab Kelly. «Teiseks leidsid need inimesed, kes seostasid end selgelt mõne Egiptuse poliitilise spektri osaga, teineteisega rääkides ühise keele. Põhimõtteliselt ütlesid nad, et tähtsam on teha koostööd Mubaraki režiimi vastu kui rõhutada omavahelisi erinevusi. Väga erinevate ideoloogiliste vaadetega inimesed ühendasid käed.»

Nii Kelly kui Leetaru rõhutavad aga, et (sotsiaal)meedia põhjal tehtavad ennustused ei ole täppisteaduslikud, vaid on võrreldavad pigem ilmaennustusega. «Paljud araabia kevade sarnased sündmused on keerukad sotsiaalsed nähtused, mis levivad tänu sotsiaalsetele võrgustikele, inimeste interaktsioonidele,» sõnab Kelly. «Levi on olemuslikult kaootiline nähtus, seal Newtoni seadused ei kehti.»

«[Algoritmid] ei ütle sulle, et rahutused puhkevad järgmisel reedel kell 17.05 sel tänavanurgal, vaid seda, et tingimused on selleks küpsed,» sõnab Leetaru. «Just nagu ilmaennustus ütleb, et vihmasaju tõenäosus homme on 70 protsenti.»

«Metsatulekahju ei ole võimalik ennustada, küll saab öelda, mil metsaalune on kuiv,» märgib Kelly. «Sotsiaalmeedia võib olla väga hea näitaja selle kohta, kui kuiv metsaalune on. Sa lihtsalt ei tea, millal tuleb säde.»

«Sütikut on raske ennustada,» nõustub Leetaru. «Võtkem Londoni rahutused. Noorte tööpuudus oli kõrge olnud pikka aega, võimaluste ja kodanikuõiguste nappus ei olnud ka uudis. Kuid selleks, et latentsest frustratsioonist kasvaks füüsiline vägivald, on vaja katalüsaatorit.»

«Revolutsioonid ei tugine kunagi faktidele, vaid emotsioonidele,» jätkab ta. «Sügavam põhjus on alati inimeste rahulolematus, kuid pinna peal on asjalood iga revolutsiooni puhul isesugused, tegelik murdepunkt on erinev.»

Mõõta saab aga just üldist meelsust, mis annab märku, kui olud on millegi suurema puhkemiseks küpsed, ütleb Leetaru. «Latentne emotsionaalsus pulbitseb pinnale, just nagu õhumullid akvaariumis.»

Emotsioonide mõõtmisega tegeleb ka Les Servi. USA armeega tihedalt seotud uurimisasutuse MITRE matemaatik töötab välja algoritme, mis püüavad leida mustreid inimeste meeleoludes ja nende muutustes, taas tuginedes postitustele, mida inimesed ise sotsiaalmeediasse paiskavad.

«Me ei mõista emotsioonide dünaamikat,» tõdeb Servi. «Kui jääme aina kurvemaks ja kurvemaks, kas sellest tuleneb, et kurbus süveneb veelgi või hakkame seda kuidagi kompenseerima? Sotsiaalmeediat vaadates saame sellest aru.»

Servi ei tunne huvi üksikisikute tundekõverate vastu, vaid uurib just suurte inimrühmade oma, vaadates, millised emotsioonid on postitustes valdavad. «Püüan seejärel matemaatiliselt oletada, kuhu see tulevikus viib,» selgitab ta. «Sotsiaalmeedia kasutamine on võimalus jälgida ja mõista rahvastiku dialoogi. Mida rohkem tead, seda rohkem on võimalik teha. Kui tead, kuhu asjad arenevad, on võimalik reageerida.»

Tegemist on siiski vaid ühe võimaliku infoallikaga, mis tuleb integreerida teiste allikatega, rõhutab Servi kolleeg Jennifer Mathieu.

Kelly, Mathieu ja Servi esinesid eelmisel kuul Tallinnas toimunud NATO konverentsil «Sotsiaalmeedia riskid ja võimalused militaarrakendustes». Sotsiaalmeediast pärit andmete analüüsile oli sel konverentsil pühendatud terve sessioon.

«Me vajame tööriistu,» võttis valdkonna ees seisvad ülesanded kokku seda sessiooni juhtinud Kanada kaitseministeeriumi teadlane Zhigang Wang. Võimalused, mille on välja töötanud Kelly, Servi, Leetaru ja teised teadlased, suudavad pakkuda vaadet teatud vinklist, kuid täieliku pildi saamiseks peab tööriistakast olema märksa kopsakam.

«Sotsiaalmeedia kasutajad postitavad vahel multimeediat: fotosid ja videoid,» toob Wang näite. Praegu ei ole nende analüüsiks samaväärseid vahendeid kui tekstianalüüsiks.

«Teine valdkond, millel näen tulevikupotentsiaali, on dünaamika,» lisab ta. «Inimesed võivad võtta infot minu postitusest ja saata seda sõpradele edasi. Võib-olla paneb see info neid kuidagi tegutsema. Sooviksin näha, kuidas sõnum muutub, kuidas see levib ühelt inimeselt tervele populatsioonile. Ajas ja ruumis dünaamiliste andmete analüüsiks ei ole meil praegu veel täiuslikku tööriista.»

Kui uskuda USA õhujõudude peateadlast Mark Mayburyt, siis varsti võib selline täiuslik vahend siiski leiduda. Tema algatatud on nõndanimetatud sotsiaalse radari projekt, mida viib ellu MITRE.

«Sotsiaalne radar on meie metafoor sotsiaalse keskkonna kiire mõistmise kohta,» selgitab MITREs sotsiaalse radari töörühma juhtiv Barry Costa. «Soovime kiiremini mõista, mida öeldakse, et asuda kaasama ja kommunikeerida tõhusamalt.»

Radari metafoor ei viita ainult suutlikkusele seirata ja avastada – laevade ja lennumasinate asemel hoiakuid ja tundeid –, vaid kannab endas ka lootust, et sotsiaalne radar avaldab tulevikukonfliktide haldamisele sama pöördelist mõju, nagu seda tegi päris radar Teises maailmasõjas. Sotsiaalse radari mõiste haakub hästi raskuskeskme muutumisega, kus järjest enam tunnistatakse inimkomponendi tähtsust.

«Üks mässulistevastasest võitlusest saadud õppetund on see, et kuigi teatud isikud või rühmad jäävad alati eesmärgile pühendunud karmi joone ajajateks, kes alistuvad ainult toorele jõule, on ainus edukas ülestõusust väljumise strateegia rahulolematute jõudude taastoomine poliitilisse protsessi,» kirjutas Maybury sotsiaalset radarit tutvustavas kirjatükis.

«Edukas sotsiaalne radar peaks olema suuteline tunnetama ja hindama sotsiaalse kaasamise trende ja varustama meid indikaatoritega kaasamisprotsessi positiivsete ja negatiivsete mõjude kohta.»

Sotsiaalne radar ei ole üks arvutiprogramm või konkreetne seade, pigem raamistik, mis hõlmab eri lahendusi, selgitab Mathieu. «Me eelistame kirjeldada seda keskkonnana, milles analüütik töötab andmeallikate paremaks mõistmiseks,» ütleb ta.

«Nende tööriistade kasulikkus on analüütiku hoiatamine,» märgib Costa. «Meie eesmärk on anda inimesele märku, kui midagi on toimumas. Ekspert vaatab ja teeb otsuse.»

«Oleme väga varases järgus olnud arendustöö faasist jõudnud selleni, et meil on paar asja USA armee käsutuses,» räägib Costa. «Need on küll tagasihoidlikud, kuid neist on palju abi.»

Tsiviilvallas mõeldavatest rakendustest toob Leetaru esile, et suur osa investeerimisfirmasid juba kasutab meediaanalüüsi ühel või teisel moel otsuste tegemiseks, hinnates sotsiaalmeedia hoiakute põhjal ühe või teise firma aktsia kurssi.

Kuid see võib olla ka vahend meie enda kultuuri ja ühiskonna paremaks mõistmiseks. Ajakirjas Science 2010. aastal ilmunud artikkel tõi käibesse mõiste «kulturoomika». Seal tutvustatud projekt (www.culturomics.org) lubab Google’isse skaneeritud raamatute põhjal otsida, kuidas ühe või teise sõna kasutussagedus aja jooksul on muutunud.

Leetaru, kes nimetab oma tööd kulturoomika versiooniks 2.0, loodab tohutu infokogumi abil välja tuua veel rohkem varjatud mustreid, kas või näidates, kuidas samasse sündmusse eri paikades erinevalt suhtutakse.

Kelly, kes palub end nimetada küberruumi sotsiaalseks geograafiks, püüab blogosfääride abil välja joonistada eri ühiskondade ruumilisi struktuure, omamoodi kübermaastikke.

«Sotsiaalvõrgustike andmeid analüüsitakse enamasti väga piiratud moel,» kõneleb ta.

«Vaadatakse kas globaalset tasandit ehk kellel on kõige enam jälgijaid või kelle lehekülje reastus otsimootoreis on kõrgeim. Või siis kes on ühe rühma piires kellega seotud.»

Kelly edendab lähenemist, mis kaardistab kõik ühendused, näiteks viitamised blogides, säutsude edastamised jne. Nende ühenduste ja teemade kaudu tekivad rühmitades kolmemõõtmelised kübermaastikud, mis annavad aimu ühiskonna sügavamast struktuurist.

Nii selgus tema analüüsidest, et Venemaa blogijad viitavad peaaegu eksklusiivselt sama platvormi kasutavaid teisi blogijaid ning ei vasta tõele arvamus, et Iraanis kasutavad interneti võimalusi ainult noored režiimivastased. Et sellised võrgustikud peegeldavad sügavamaid struktuure, viitab Iraani blogosfääride võrdlus 2008. ja 2011. aastal. «Makrostruktuur oli sama, kuigi kattus vaid 15 protsenti blogidest,» ütleb Kelly.

Kõik eksperdid on ühel meelel, et valdkond on alles väga noor ning praegu näeme esimesi arglikke katsetusi (sotsiaal)meedia andmete suuremahulisel kasutamisel. Selle võimaluste tulevikus ei kahtle aga keegi.

«Öeldakse, et valitsus, kes teeb kõige paremat tööd sotsiaalmeedia andmete kogumisel, et neist oma tegevuses juhinduda, on Hiina,» sõnab Kelly. «Ühest uurimistööst selgus, et online-diskursus ja hilisemad kohtuotsused paistsid kattuvad. See lubaks väita, et Hiina valitsus jälgib veebidiskussioone ja kannab hoolt, et kohtuotsused rahuldaksid avalikkust.»

«Mõned inimesed kutsuvad seda juba demokraatiaks 2.0, mis tähendab, et meil on demokraatia Durkheimi mõistes, kus ühiskonna üksused suhtlevad üksteisega ja otsustajad saavad inimestelt tagasisidet, ilma et peaks korraldama valimisi.»

Peidetud seoste jälil

Illinoisi ülikooli teadlase Kalev Leetaru sõnul lubavad suured andmekogumid leida seoseid, mida me varem ei osanud otsidagi.

«Tavaliselt alustatakse uurimistööd hüpoteesist ja soovitakse seda tõestada. Nüüd võime teha vastupidist: lasta andmetel meiega kõneleda. Võib võtta andmekogu ja käskida sel esile tuua kõik mustrid, kõik korrelatsioonid, arvestades miljonit muutujat.

Mõne aasta eest oli firma, kes suutis ennustada suure autotooja aastast läbimüüki kümne tuhande auto piires. See on imetlusväärne täpsus. Nemad sisestasid programmi umbes 50 000 muutujat.

Hämmastava kombel selgus, et kõige paremini ennustas autode läbimüüki haamrite läbimüük ehituspoodides. See viitas, et inimesed teevad kodus ise rohkem remonti, mis läbi mitme teguri seostus lõpuks vajadusega osta teatud auto.

Vanasti vaadati autode läbimüüki ennustades bensiini hinda, inimeste elukoha kaugust ja teisi intuitiivseid tegureid. Kuid ilmselt ei ole sellised tegurid kõige tugevama ennustusvõimega.

Võib olla, et nisu hind India lõunaosas on seotud kulla hinnaga Londonis. Suudame otse mõõta vaid väikest osa inimühiskonnast, tegelikult võib neid kaht ühendada tohutult keerukas võrgustik. Kui seos selgub, saab hakata seda võrgustikku välja selgitama.»

Arko Olesk: inimhingede radar

Märksõnad