Andrus Veerpalu protsessis osalenud biostatistik Krista Fischer kirjutab testide olemusest ja nende usaldusväärsusest. Dopinguproove võetakse sportlastelt, ent samalaadsete testidega puutuvad alatasa kokku ka tavalised inimesed – perearsti juures antud vereproov, politseiniku alkomeetrisse puhumine, rasedustest jne. Kuidas otsustatakse, et test näitab õiget tulemust?
Mõõtmise dilemmad – et süütut ei kuulutataks kurjategijaks, et haigused ei jääks avastamata
Möödunud nädalal küttis järjekordselt kirgi üks mõõtmistulemus ja sellest tulenev kohtuotsus – sportlane tunnistati õigeks, sest dopingutest koos oma otsusepiiridega ei olnud piisavalt valideeritud. Hoolimata otsuse positiivsusest, tekitas see siiski mitmeid lahkarvamusi ja küsimusi: kas otsuse tingis tühine «statistiline nüanss» või oli tegu siiski sügavamate, põhimõtteliste probleemidega testi juures? Sellest ajendatuna tekkiski siinkirjutajal soov veidi lahata testide ja mõõtmiste küsimust just statistiku pilgu läbi.
Nimelt, samalaadsete testidega puutub pea igaüks meist ju alatasa kokku: liikluses hoiavad meil silma peal kiirusemõõtjaid ja alkomeetrid, arsti juures tehakse otsuseid vereanalüüsi näitude põhjal, apteegiletist võib osta teste nii raseduse kui tsöliaakia (nisuvalgu ehk gluteeni talumatus) tuvastamiseks. Omamoodi testiks on ka iga kohtuprotsess, mis tõendite hulka ja kaalukust arvestades peab tegema otsuse inimese süü või süütuse kohta.
Testide olemuse ja tausta üle hakatakse sügavamalt järele mõtlema siiski vaid siis, kui nende töös esineb tõrkeid – alkomeeter tunnistab karsklase roolijoodikuks või vereanalüüs terve inimese haigeks (või vastupidi, haige terveks). Alles sellistel juhtudel jõuab kohale teadmine, et ideaalseid teste on tegelikult vähe ja iga «jah/ei» vastust andva nn kaudse testi puhul peame mõtlema ka eksimise võimalusele.
Statistiku pilgu läbi vaadates on alati oluline teada kahte olulist parameetrit: testi tundlikkus ja spetsiifilisus. Neist esimene, tundlikkus, iseloomustab testi võimet anda «õigeid positiivseid» tulemusi: anda positiivne tulemus neil, kellel testitav haigus või «süü» tõepoolest ka olemas on. Kui testi tundlikkus on sada protsenti, siis ei saa see test anda valenegatiivseid tulemusi, sest kõik haiged või «süüdlased» leitakse testi abil üles. Testi spetsiifilisus, vastupidi, iseloomustab testi võimet anda negatiivne tulemus neil, kellel testitavat omadust (haigus, dopingu või alkoholi tarvitamine, vms) ei ole. Spetsiifilisus sada protsenti tähendab seda, et test ei anna valepositiivseid tulemusi – ehk, iga positiivne tulemus tähendab üheselt ka testitava omaduse olemasolu (vt tabelit 1).
Enamasti siiski on kas nii spetsiifilisus kui tundlikkus või siis vähemalt üks kahest alla saja protsendi. See tähendab seda, et test võib anda valepositiivseid ja/või valenegatiivseid tulemusi. Siin on omal kohal küsimus, millise spetsiifilisuse ja tundlikkuse korral test veel kasutuskõlblik on.
Kujutame hetkeks ette olukorda, kus «test» seisneb loositõmbamises. Üks loosipilet 100st annab «positiivse» tulemuse. Kui samast loosikastist tõmbavad pileteid nii «puhtad» (või terved) kui «patustajad» (või haiged), siis ei sõltu positiivse tulemuse saamine testitava omaduse tegelikust olemasolust. Samas, kui testitakse inimest, kellel testitavat seisundit (haigust, dopingutarvitamist vms) ei ole, siis tõenäosusega üks protsent on tulemus valepositiivne. Seega oleks sellise testi spetsiifilisus 99 protsenti, mis võib ju tunduda pealtnäha hea näitajana. Paraku on testi tundlikkus ainult üks protsent, sest 99 protsenti haigetest (või «patustest») saaks samuti negatiivse tulemuse. Siit on selge, et testi «headust» ei saa iseloomustada ainult ühe parameetri abil, vaid alati on vaja vaadata koos nii tundlikkust kui spetsiifilisust.
Samas, ka siin pole asi mustvalge. Allakirjutanu andmetel on tänapäevaste HIV-testide spetsiifilisus küll juba praktiliselt sada protsenti ja tundlikkus 99,7 protsenti, aga veel kümmekond aastat tagasi raporteeriti spetsiifilisuseks 99,9 protsenti. See, pealtnäha tühine erinevus perfektsusest võib olla määrava tähtsusega, kui testi kasutatakse sellises populatsioonis, kus haiguse levimus on väike.
Oletame nimelt, et testitakse 10 000 inimest, kellest vaid 0,1 protsenti ehk 10 inimest on tegelikult HI-viiruse kandjad. 99,7-protsendilise tundlikkuse korral saaks kõik need 10 inimest tõenäoliselt ka positiivse testitulemuse. Ülejäänud 9990 inimesest saaks 99,9 protsenti ehk ligikaudu 9980 inimest negatiivse tulemuse – seega tekiks 10 valepositiivset juhtumit. Kokku annaks see test siis 20 positiivset tulemust, millest vaid 50 protsendi puhul oleks tegu tegeliku viirusekandjaga. Niisiis, kuigi testi parameetrid viitavad suurepärastele omadustele, on vaid pooled positiivse tulemuse saanutest tegelikult haiged.
Just kohtumeditsiini praktikas on ette tulnud ekslikke kohtuotsuseid, mis on jätnud arvestamata testi tegeliku positiivse prognoosiväärtuse – ehk tõenäosuse olla süüdi positiivse testitulemuse (nt kuriteopaigalt leitud DNA-analüüsi) korral, hinnates petlikult heade omadustega testi põhjal saadud tulemust absoluutseks tõeks. Sellist nähtust, kus kõrge tundlikkuse ja spetsiifilisusega testi korral on positiivne prognoosiväärtus tegelikult madal (olukorras, kus «süüdlaste» protsent testitute hulgas on väike), nimetatakse juriidikas ingliskeelse terminiga prosecutor’s fallacy (prokuröri eksimus).
Samas võib tähelepanu juhtida sellele, et selle testi kasutamisel riskigruppides, kus HIV levimus on näiteks 50 protsenti, saame hoopis teistsuguseid tulemusi. Kui 10 000 testitust 5000 oleks viirusekandjad, siis see test annaks 4985 õiget positiivset ja 5 valepositiivset (0,1 protsendil 5000st) tulemust – ehk vaid 0,1 protsenti positiivsetest tulemustest oleks valepositiivsed.
Siit näeme, et on veel kolmas oluline parameeter – testitava haiguse, omaduse või seisundi levimus. Harvaesinevate seisundite avastamiseks on vaja kas kõrge tundlikkuse ja spetsiifilisusega testi või alternatiivset testimeetodit, mis positiivse tulemuse saanud isikute hulgas eristaks valepositiivseid õigetest positiivsetest. Viimane idee ongi kasutusel vähi jm haiguste sõeluuringutes, kus esmane test (nt mammograafia rinnavähi puhul) eristab haiguskahtlusega isikud, kuid diagnoos pannakse alles siis, kui seda kinnitavad täiendavad, tavaliselt kallimad ja invasiivsemad uuringud (nt koeproovi võtmine ja analüüs). Selliste testide hulka kuulub ka rasedatele tehtav nn triple-test Downi sündroomi avastamiseks lootel. Kahjuks jääb enamiku sõeluuringutes kasutatavate testide puhul ka tundlikkus oluliselt alla saja protsendi, mistõttu jääb nende käigus siiski osa haigeid avastamata (vt tabelit 2 ja 3).
Ühe väga levinud kategooria testidest moodustavad testid, kus otsus (positiivne või negatiivne) tehakse teatud mõõtmistulemuse alusel. Nii näiteks viitab inimese haigusseisundile kehatemperatuur üle 37 kraadi, ja tavaline rasedustest annab positiivse tulemuse, kui hCG-nimelise hormooni tase veres ületab teatud piiri. Selliste testide korral on oluline kehtestada nn otsusepiir – väärtus, millest kõrgemale jääva mõõtmistulemuse korral loetakse testitulemus positiivseks. Otsusepiiri kehtestamiseks on vaja uurida mõõdetava näitaja jaotust nii uuritava seisundiga inimestel kui neil, kellel seda pole. See tähendab seda, et tehakse kindlaks, millistes piirides varieerub mõõtmistulemus kummaski grupis ja kas saab leida gruppe eristavat otsusepiiri, mis annaks võimalikult hea tundlikkuse ja spetsiifilisuse.
Tulles tagasi teemat motiveerinud sündmuse juurde, võime küsida, milline on parim dopingutest, kui perfektselt eristavat otsusepiiri pole võimalik leida. Kui ühe testitulemuse korral tehakse lõplik otsus, siis peaks valepositiivsed tulemused olema lubamatud. Näeme, et joonistel 2 ja 3 kujutatud olukordade juures oleks see keeruline, sest sellisele tingimusele vastava otsusepiiri korral jääks pooled või isegi enamik dopingutarvitajatest karistuseta. Samas, piiri nihutamine allapoole tooks kaasa süütute sportlaste karistamise (vt tabelit 4).
Arvestades fakti, et Andrus Veerpalule positiivse tulemuse andnud testi korral oli positiivsete tulemuste koguarv vaid 12 enam kui 10 000 testi kohta, võib arvata, et kas testi tundlikkus või dopingutarvitamise levimus olid kõnealusel juhul veelgi väiksemad – seega võisid positiivse testitulemuse saanutest vaid alla poolte olla tegelikud dopingutarvitajad.
Krista Fischer on matemaatilise statistika doktor. Ta töötab vanemteadurina Tartu Ülikooli Eesti Geenivaramus.
Kuidas teha töötavat dopingutesti?
Dopingutestil on üks oluline erinevus võrreldes meditsiinidiagnostikas kasutatavate testidega: teistkordset testimist ei toimu ja otsus dopingutarvitamise kohta tehaksegi vaid ühe testitulemuse põhjal. Seetõttu on eriti oluline kasutada väga kõrge spetsiifilisusega testi, mis sama hästi kui välistaks valepositiivsed tulemused. Kui aga selle saavutamisel jääb testi tundlikkus väga väikeseks, st test jätab enamiku patustajaid avastamata, kaotab test mõtte.
1. Biokeemilise mõõtmismeetodi väljatöötamine. Eeldus on meetodi tõestatud tööprintsiip - teame, mida verest määrame, kuidas seda teema ning kui hästi korreleerub saadud tulemus organismis toimuvaga. Kui keelatud aine äratundmiseks kasutatakse nn antikeha, peab olema tõestatud, et antikeha leiab just õige aine ega tohi reageerida millelegi muule. Tõestamiseks tuleb kasutada sõltumatut meetodit ning mõõtmistulemused peavad ühtima või olema väga lähedased.
2. Eksperimentaalsed uuringud. Tavaliselt tehakse neid mitmes järgus, et nõuetele mittevastav test saaks välistatud võimalikult väikeste rahaliste kulutustega. Need järgud võiksid olla sellised.
a) Esialgsed laboriuuringud kunstlikult tekitatud positiivseid ja negatiivseid proove kasutades, et saada esialgne info mõõdetava näitaja varieeruvuse ja testi eristusvõime kohta. Oluline on ka testi ajaline tundlikkus - kaua dopinguaine veres püsib ja on veel tuvastatav.
b) Katsed laboriloomadel (rotid, hiired), et näha aine manustamise mõju elusorganismi verebiokeemias ja testi võimet ainet manustanud indiviide eristada.
c) Esimene uuring inimestel. Leitakse suhteliselt väike arv vabatahtlikke, kes jagatakse juhuvaliku teel kaheks grupiks: pooltele manustatakse dopinguainet, pooltele mitte. Ülejäänud osas jälgitakse, et gruppide vahel poleks mingeid süstemaatilisi erinevusi. (On vähetõenäoline, et dopinguaine ühekordne manustamine inimesele kahjulik on – vastasel juhul ei saaks ju sportlased ainet regulaarselt tarvitada. Uuringuid, kus teatud aineid manustatakse tervetele vabatahtlikele, kasutatakse palju ka ravimitööstuses ja seal on välja töötatud standardid, mis garanteerivad uuringu eetilisuse.)
d) Suuremahuline uuring, mis kirjeldab mõõdetava näitaja loomulikku varieeruvust tippsportlaste seas. Oleks oluline, et uuritavad ei kasutaks testitavat ainet – praktikas võib see osutuda keerukaks, kuid siiski teostatavaks. On väga tähtis, et selles faasis ei kasutata keelatud aine tarvitamise kindlakstegemiseks väljatöötatavat testi. Uuritakse, kas ja millest sõltub mõõdetav näitaja: vanus, sugu, kehakaal, pikkus, spordiala, treeningu intensiivsus, proovi võtmise kellaaeg jne. Nüüd saab hinnata otsusepiiri kasutamisel saadud testi spetsiifilisust – tuleb silmas pidada, et see ei pruugi olla kõigis sportlaste gruppides samasugune, ning võimalikke erinevusi peaks statistiliste meetodite abil testima. Kui esialgne otsusepiir annab liiga suure hulga valepositiivseid, tuleks seda nihutada.
e) Testi valideerimine rutiinseks kasutuseks. Testi hakatakse kasutama samamoodi, nagu teda on plaanis kasutada rutiinses dopingukontrollis. Selles etapis ei tehta testi põhjal veel süüdimõistvaid otsuseid, vaid üritatakse positiivsete leidude korral alternatiivsete meetodite abil kindlaks teha, kas tegu on tegeliku dopingutarbimisega. Selle põhjal saadakse täpsustatud hinnangud testi tundlikkusele ja spetsiifilisusele.
f) Kui eelnevad uuringud kinnitavad testi mõõtmismeetodi ja otsusepiiride valiidsust, siis võib testi hakata kasutama dopingukontrollis. Selleks ajaks on olemas täielik ja tõestatud informatsioon, kuidas vereproovi võtta, kuidas seda peab säilitama, transportima jne. Nende eelkatsete alusel moodustub standardne protokoll (SOP), mida peavad kõik laborid järgima.