Täringumängust teaduseni – p-väärtus kui tööriist uute teadmiste saamisel (1)

Juhime tähelepanu, et artikkel on rohkem kui viis aastat vana ning kuulub meie arhiivi. Ajakirjandusväljaanne ei uuenda arhiivide sisu, seega võib olla vajalik tutvuda ka uuemate allikatega.

Krista Fischer

5. oktoober 2018, 23:55

Maailm on täis juhuseid ja juhuslikkust, olgu tegu täringumängu või teadusuuringuga. Mis hetkest muutub juhuslikkuse hindamine teaduspettuseks, kirjutab Tartu Ülikooli matemaatilise statistika professor Krista Fischer.

Hiljuti avaldas Postimees loo ilmsiks tulnud teaduspettusest, kus oli tegemist nn p-häkkimisega (Kaur Maran, „Tippteadlaseks peetu osutus šarlataniks“, 24.09). Ma arvan, et siinkohal oleks kasulik veidi selgitada, mis asi on p-väärtus (ingl p-value) ja kuidas saab seda häkkida.

Nimelt on olulisuse tõenäosus ehk p-väärtus üks neist indikaatoritest, millega tänapäeva loodusteadustes väidete tõenduspõhisust hinnatakse. Just p-väärtuse jt statistiliste näitajate esitamine, mis on saadud piisavalt suurte andmemahtude analüüsi põhjal, eristab päris teadust pseudoteadusest. Tuleb märkida, et ka analüüsitavad andmed ise saadakse hoolikalt planeeritud uuringu tulemusena.

Eristamaks juhust ja seaduspära on loodud terve teadusharu – matemaatiline statistika.

Olulisuse tõenäosus ehk p-väärtus on üks neist tööriistadest, mille abil saab teadusuuringutes hinnata, kas uuringus tehtud avastus või leitud seos võis tekkida juhuse tahtel.

Mida väiksem on p-väärtus, seda rohkem pakuvad andmed tõendust selle kohta, et saadud tulemused peavad tõepoolest paika ja iseloomustavad üldist seaduspära.

Kes meist ei oleks lapsepõlves mänginud klassikalisi täringumänge, nagu „Reis ümber maailma“ või uuemal ajal ka „Monopol“. Just täringumängudele mõtlemine aitab meil aru saada ka teadusuuringute analüüsi põhimõttest, sest kuuetahuline täring pakub meile lihtsa näite juhuslikust sündmusest – sellest, milline silmade arv jääb veeremise lõpetanud täringu ülemisele tahule.

Oletame, et neli last mängivad „Reisi ümber maailma“ ja üks neist, olgu ta nimi Peeter, veeretab kolm kuut järjest. Teised lapsed heidavad talle selle peale ette, et ta tegi sohki. Aga kas tegi siis?

Küsime hoopis nii: kui suur on tõenäosus, et Peeter sai need kolm kuut täiesti juhuslikult? Arvutused näitavad, et selle tõenäosus on 1/(6*6*6) = 1/216 ≈ 0,0046 ehk veidi alla 0,5 protsendi. See 0,0046 ongi nn p-väärtus, mis aitab kontrollida väidet ehk hüpoteesi „Peeter tegi sohki“. Et teaduses on kokkuleppeline tava, et hüpotees loetakse tõestatuks (ehk nullhüpotees kummutatuks), kui p on väiksem kui 0,05, siis võikski ju Peetrit sohitegemises süüdistada!?

Aga… oot-oot, ikka on ju juhtunud, et keegi saab täringumängus kolm kuut järjest – isegi olen saanud. Enamasti juhtub see ju ikka täitsa juhuslikult, ilma mingi sohita. Kuis siis teadus nii saab toimida, et inimesi alusetult sohitegemises süüdistatakse?

Meil jäi tähelepanuta üks oluline asjaolu: enamasti ei koosne ju mäng ühestainsast täringuviskest! Kui edasi arvutada, siis saame, et juba kümne viskekorraga kasvab tõenäosus, et vähemalt korra saadakse kolm kuut järjest, ligi viie protsendini. Kolmekümne viskekorraga on see aga juba 13 protsenti. Kui mängu jooksul jõuab aga viskekord iga lapseni 30 korral (st nelja lapse peale kokku on 120 viskekorda), siis on tõenäosus, et keegi saab mängu jooksul kolm kuut järjest, juba 43 protsenti. See on juba nii tõenäoline, et polegi midagi imestada, et me kõik oleme neid kuute kolmikuid kunagi ka ise visanud.

Tõenäosus saada täringuviskel kuus on 1/6.

Tõenäosus saada kahel viskel kaks kuut on 1/(6*6) = 1/36 = 2,7 protsenti.

Tõenäosus saada kolm kuut on 1/(6*6*6) = 1/216 = 0,46 protsenti.

Tõenäosus saada kolm kuut vähemalt ühel viskekorral 120st on 43 protsenti.

Kuidas aga puutub siia teadus? Nimelt kehtib siin samasugune põhimõte. Kui uuring on planeeritud üheleainsale küsimusele vastamiseks (nt kas uue ravimiga ravitud patsiendid paranevad kiiremini kui seniste vahenditega ravitud), siis me teeks nagu ühe täringuviske – mis siis, et täringuid ehk katsealuseid võib olla palju rohkem kui kolm. Kui uuringu tulemusena saadud andmed on piisavalt tugevalt uurija väidete poole kaldu, siis saame ka väikese p-väärtuse, nii nagu see on ka kolme kuue tõenäosusega ühel täringuviskel.

Kui p on väiksem kui 0,05, siis on piisavalt alust täiesti ausalt väita, et meie andmed annavad meie väite (nt et uus ravim on parem) toetuseks piisavalt tõendusmaterjali. Samal ajal peab silmas pidama, et sündmused, mille tõenäosus on viis või ka pool protsenti, siiski juhtuvad aeg-ajalt (sh ka kolm kuut kohe täringumängu esimese viskena). Seega, ka igati ausalt korraldatud teadusuuringu tulemusena esitatud väited ei ole kunagi sada protsenti kindlalt tõesed, vaid ikka jääb võimalus, et tegu oli juhusliku fenomeniga. Kui aga samale järeldusele on jõudnud juba mitu uuringut järjest ja kui lisaks sellele ühele p-väärtusele on ka muud tõendust väite kehtivuse kohta, siis saame tõesti juba mõnes asjas üsna kindlad olla.

Mis siis ikkagi on „p-häkkimine“? Kirjeldatud loos toimus mõnevõrra samasugune asi nagu täringumängus, kus paljude viskekordade jooksul jõuab kätte hetk, kus keegi saab kolm kuut järjest. Just samamoodi ei teinud teadlane mitte ühte statistilist testi (ehk viset), vaid tegi neid näiteks 30 või rohkemgi (nt võrdles kõikvõimalike tunnuste alustel eristuvaid gruppe andmetes). Saab näidata, et ka siis, kui andmetes puuduvad vähimadki seaduspärad, on 30 testi või analüüsi tulemusel juba väga tõenäoline (tõenäosus ligi 80 protsenti), et vähemalt üks kord saadakse p on väiksem kui0,05 – ehk siis „statistiliselt oluline“ tulemus. Seega, kui andmetes piisavalt kaevata, saaks niimoodi „tõestada“ kõikvõimalikke üllatavaid seoseid ja fakte, mida aga tegelikkuses pole olemas!

Kas see tähendab siis, et andmetes kaevata ja mustreid otsida ei tohi ja igas uuringus tohib teha vaid ühe testi või võrdluse?

Päris nii see pole: esiteks on igati võimalik teha ausat teadustööd ka nii, et ühe projekti käigus tehakse palju statistilisi võrdlusi ja teste. Sellisel juhul tuleb aga otsustusreeglit (nt p-väärtuse otsusepiiri) muuta – nii toimub see näiteks suurtes ülegenoomsetes uuringutes, kus korraga testitakse enam kui miljoni DNA-markeri seost mõne haiguse või tunnusega. Neis uuringuis otsustatakse, et mõni marker või geen on seotud haigusega, vaid siis, kui selle kinnitamiseks on tõepoolest piisavalt tõendust ja ka suurt testide hulka arvestades on juhuslik seosemuster äärmiselt ebatõenäoline. Et olla veelgi kindlam tulemuste paikapidavuses, kehtib neis uuringuis ka tulemuste replitseerimise nõue – iga leitud seos peab leidma kinnitust ka teises, sõltumatus andmestikus.

Samuti tehakse viimasel ajal, andmeteaduse võidukäigu ajastul, üha enam selliseid uurimistöid, kus ei püstitatagi mingeid selgeid küsimusi või hüpoteese, vaid otsitakse keeruliste masinõppe algoritmide abil seoseid ja mustreid andmetes, mille peale pole varem keegi tulla osanudki. Ka ammu enne nende algoritmide leiutamist said paljud olulised teadusteemad alguse just mõnest andmetes nähtud mustrist.

Kas see ei ole siis häkkimine?

Siiski mitte, kui juhuslikult avastatud mustrit ei esitata kui absoluutset tõde, vaid uuritakse, kas need seosed kehtivad ka teistes samalaadsetes andmebaasides, ja kasutatakse erinevaid meetodeid tuvastamaks, kas avastatud mustri näol on ikka tegemist seaduspäraga, mitte aga juhusliku kolme kuuega.

Häkkimiseks muutub asi aga siis, kui esialgu silma jäänud mustrit tõlgendataksegi kui uut avastust – sisuliselt väites, et kolm kuut saadi ühe viskega, kuigi tegelikult tehti selle tulemuse saavutamiseks sadu viskeid ehk analüüse.

Kokkuvõttes võibki öelda, et teadusetegemine on tänapäeval muutunud märksa andme- ja analüüsimahukamaks, kusjuures matemaatikal ja statistikal on väga suur roll selles, et eristada juhuslikult tekkinud andmemustreid tõelistest seostest ja seaduspäradest. Ajaloo jooksul on ikka tulnud ette ka neid, kes ebaausate võtete abil kiiret edu loodavad saavutada – kuid ajalugu on ka näidanud, et selliste „teadlaste“ tähelend lõpeb varem või hiljem suure pauguga.

Õnneks juhtub seda päriselt siiski üsna harva – kõik teadusartiklid läbivad üsna karmi ja tiheda eelretsenseerimise sõela, kus nii sellised kui ka muud tahtlikud või ka lihtsalt teadmatusest tehtud vead enamasti üles leitakse.

Paraku ei saa sama väita n-ö pseudoteaduse praktiseerijate kohta. Nad on mõnes mõttes kavalad – selle asemel, et ette võtta mahukas andmekogumise ja -analüüsi töö, mis aga ei pruugi ilma häkkimata soovitud tulemust anda, rõhuvad nad hoopis muule: emotsioonidest nõretavad videod Youtube’is, „uskujate“ grupid Facebookis jne. Millegipärast ei teki kloordioksiidi imeomadustesse uskujail küsimust; kui tegemist on millegi nii efektiivsega, siis ei tohiks ju üldse keeruline olla korraldada reeglitele vastav ravimuuring ja oma väidetele teaduslike andmeanalüüsi meetoditega tõendust saada.

Märksõnad

Krista Fischer