2020. ápr 17.

COVID-19 4.: Hamis a pozitív, avagy az antitest tesztek eredményeinek értelmezéséről...

írta: _Maverick
COVID-19 4.: Hamis a pozitív, avagy az antitest tesztek eredményeinek értelmezéséről...

roche-740x520.jpgRégóta tervezek - vagy inkább halogatok - egy bejegyzést, amelynek témája a némiképp megtévesztő módon “mesterséges intelligenciának” nevezett gépi tanulási algoritmusok előrejelzéseinek értelmezése, és ezen feladat első látásra nem nyilvánvaló komplexitása. A koronavírus most megadta a végső lökést, mert a járványnak köszönhetően napi rendszerességgel olvashatunk tesztekről, pozitív és negatív eredményekről, hibaszázalékokról, amelyek látszólag egyértelmű fogalmak, valójában azonban nagyon is magyarázatra szorulnak.

Az alapprobléma mind a két esetben - gépi tanulás és orvosi diagnosztikai tesztek - ugyanaz: adott egy halmaz, amelynek minden eleme két lehetséges érték egyikét veheti fel; és adott egy modell/teszt, amely megpróbálja előrejelezni, megállapítani ezt az értéket. Mivel a későbbiekben elsősorban diagnosztikai tesztekről lesz szó, így maradjunk az ehhez kapcsolódó szokványos szóhasználatnál: a két lehetséges kimenetelt a továbbiakban nevezzük pozitívnak (a páciens beteg) és negatívnak (a páciens egészséges).

A lehetőségek mátrixa

generalmatrix.png

Noha ebben az egyszerű példában a vizsgált halmaz minden eleme vagy pozitív vagy negatív, azaz csak két állapot létezik, a teszteredményeket a valósággal való viszonyuk szempontjából már az ábrának megfelelő 2x2 csoportba sorolhatjuk:

  • Helyes Pozitív (H+): az adott elem a valóságban pozitív (például a páciens ténylegesen beteg), és a modell/teszt helyesen ténylegesen pozitívként azonosítja,
  • Téves Pozitív (T+): a kategorizálandó elem negatív, de a modell ennek ellenére pozitívként sorolja be,
  • Téves Negatív (T-): a valós pozitív érték helyett a modell negatív eredményt ad (például a beteg páciens tesztje valamilyen hiba folytán negatív lesz, azaz nem sikerül kimutatni a jelenlévő fertőzést),
  • Helyes Negatív (H-): a minta egy negatív elemét vizsgálva ténylegesen negatív eredményt kapunk.

A lehetőségek számbavétele után adódik a kérdés: mikor jó egy modell?

Mikor jó egy modell?

A nyilvánvalónak tűnő intuitív válasz az, hogy annál jobb a modell, minél több elemet kategorizál helyesen, azaz minél több elem kerül a kékkel jelzett H+ és H- kategóriákba. Ezt nevezzük a modell pontosságának. Az a meglepő, hogy a céljainktól és a valóságban előforduló pozitív és negatív esetek arányától függően egy nagyon pontos modell még lehet éppenséggel teljesen használhatatlan is. Nézzük az alábbi példát!

nagyonpontos.png

Tételezzük fel, hogy egy ritka betegséget szeretnénk diagnosztizálni, amely 1000 ember közül csak 10-et érint. Amint az látható, az 1000 vizsgált esetből 990=989+1 a kékkel jelölt H- és H+ kategóriákba került, azaz a tesztünk az esetek 99%-ban pontos eredményt ad. Ez nagyszerűnek tűnik, de vegyük egy kicsit közelebbről szemügyre a táblázat első oszlopát! Itt azt láthatjuk, hogy a 10 ténylegesen beteg emberből a teszt mindösszesen egyet, azaz 10%-ot azonosított pozitívként. Ebből a szempontból nézve a 99% pontosságú teszt egyáltalán nem látja el a feladatát, használhatatlan.

A gépi tanulási algoritmusok esetében a modellek általában nem tisztán pozitív vagy negatív eredményt adnak, hanem egy valószínűséget: például az adott elem 84% eséllyel tartozik a pozitív kategóriába. Ebben az esetben a modellezőnek kell megállapítania egy határértéket (mérlegelve a célkitűzéseket, a rendelkezésre álló adatokat, esettanulmányokat, stb.), ami felett ténylegesen a pozitív kategóriába sorolja az eredményt. Például mondhatja azt, hogy minden olyan elem a pozitív sorba kerül, amely a modell szerint legalább 60% valószínűséggel pozitív. Ilymódon el lehet tolni a hangsúlyt. Mérlegelni kell, hogy mi a fontosabb: a valódi pozitív elemek minél nagyobb arányú megtalálása vagy esetleg a téves pozitív előrejelzések számának minimalizálása? A válasz nem egyértelmű, nagyban függ a konkrét feladattól:

  • Ha például rákos betegeket diagnosztizálunk, akkor az első szűrés alkalmával súlyosabb következménye van annak, ha egy beteget egészségesként azonosítunk, és elküldünk, mintha néhány egészséges téves pozitív eredményt produkál, és további vizsgálatokra vissza kell hívni őket. A T- esetek minimalizálása fontosabb a T+ esetek számának csökkentésénél.
  • Ha egy email szolgáltató egy automatikus spam-szűrőt fejleszt (tekintsük pozitívnak az eredményt, ha egy emailt spamként azonosít a program), akkor fontos az, hogy egyetlen fontos email se landoljon a spam mappában (T+ legyen minimális). Ehhez képest ugyan kellemetlen ha néha egy-egy spam mégis a beérkező levelek közé kerül (T-), de nagyobb horderejű következménnyel mindez nem jár. Itt a T+ csökkentése felé billen a mérleg nyelve.

Ennyi általános bevezető után rátérhetünk a koronavírus tesztek kérdésére, azon belül is a nagy reményeket tápláló szerológiai, vagy más néven antitest tesztek megbízhatóságára, eredményeik értelmezésére.

Vadnyugat

A szerológiai tesztek működéséről egy későbbi, önálló bejegyzésben szeretnék majd részletesen írni. A mostani gondolatmenet szempontjából elegendő az Orvostovábbképző Szemle Online-on található rövid összefoglalóra támaszkodni:

„A koronavírus-fertőzöttség kimutatásának egyszerűbb és költségkímélőbb módszere [az előző bejegyzésben említett PCR-hez képest] a fertőzést követően a szervezetben a vírus ellen termelt védekező molekulák, ellenanyagok (vagy más néven antitestek) kimutatása. A fertőzés után 5-9 nappal a korai ellenanyag, az IgM, a fertőzés után 10-12 nappal a késői ellenanyag, az IgG van jelen a vérben és mutatható ki a tesztekkel az ujjbegyből vagy a vénából vett vérből (teljes vérből, vérszérumból vagy vérplazmából). A vírus ellen termelődött specifikus IgM ellenanyag mennyisége hetek alatt fokozatosan csökken, majd eltűnik a vérből, az IgG pedig valószínűleg tartósan ott marad, és mai tudásunk szerint ez biztosíthatja a fertőzéssel szembeni, feltehetően 1-3 évig fennálló védettséget.”

(Az utolsó mondatban a „mai tudásunk” helyett talán megfelelőbb a legfrissebb információk fényében a „reményeink” kifejezést használni. Egyelőre nem tudjuk, hogy mennyi IgG jelent védettséget, és azt sem, hogy mennyi ideig tarthat ez a szerzett immunitás. Az 1-3 év a SARS-COV-2-vel rokon koronavírusokkal kapcsolatos tapasztalatokra alapuló becslés.)

A szerológiai tesztek jelentőségét az adja, hogy viszonylag gyorsan, olcsón és nagy számban elvégezhetőek, segítségükkel pedig a betegség lefolyása után azonosíthatóak azok az egyének is, akik tünetmentesen estek át a fertőzésen. Ez két eltérő szinten vizsgálva is fontos:

  • A társadalom szintjén: megállapítható, hogy a lakosság mekkora része „van túl” a járványon, hogy mekkora a még mindig veszélyeztetett populáció mérete, milyen messze van az oly sokat emlegetett „nyájimmunitás”.
  • Az egyén szintjén: ahogy számos híradásban olvashatjuk, sokan – dolgozók, politikusok, gazdasági szereplők, stb. - abban reménykednek, hogy idővel megállapítható lesz, hogy kik immunisak már a vírusra, azaz kik azok, akiknek az élete visszatérhet a normális kerékvágásba. Rengetegen remélik ezekben a napokban is, hogy ők talán már tünetmentesen, „lábon” kihordták a betegséget, és csak egy teszt választja el őket attól, hogy újra szabadabban élhessenek.

A fentiek miatt óriási az igény az antitest tesztekre, és ennek megfelelően óriási a hiány is. Mindez ahhoz vezetett, hogy az engedélyező hatóságok (például az amerikai Food and Drug Administration) a rendkívüli helyzetre való tekintettel jelentősen lazítottak az engedélyezés feltételein… a piacot pedig elárasztották a kérdéses minőségű tesztek.

Egy teszteredmény lehet egyaránt téves negatív és téves pozitív is. Téves negatív például akkor, ha szervezet vagy még nem termelt elegendő antitestet a fertőzés első napjaiban, vagy valamiért egyáltalán nem éri el az antitestek koncentrációja a detektáláshoz szükséges küszöbértéket. Ahogy azt már az előző bejegyzésben is láttuk a PCR kapcsán: ezek az eljárások kémiai reakciókon, molekulák találkozásain alapulnak, csak statisztikailag értelmezhetőek. Az eredmény lehet téves pozitív is. Előfordulhat ugyanis, hogy különböző, egymással rokon vírusok hasonló szerkezetű antitestek generálásához vezetnek, amelyek megkülönböztetése nehéz feladat. A SARS-COV-2 esetében különösen nagy az esélye annak, hogy egy teszt véletlenül a közönséges nátha ellen csatasorba állított antitesteket találja meg. Felmerül hát a kérdés: hogyan jellemezhető a tesztek minősége?

Erre a célra általában két paramétert szoktak használni (Fidy Judit és Makara Gábor Biostatisztika könyvének definícióit használva):

  • Szenzitivitás: annak a valószínűsége, hogy a diagnosztikus teszt értéke pozitív lesz egy olyan páciensen, akiben fennáll a betegség. A szenzitivitás azt jellemzi, hogy a teszt milyen megbízhatóan detektálja a betegség fennállását. Az első táblázat jelöléseit használva: H+ valamint a H+ és a T- értékek összegének hányadosa.

  • Specificitás: annak a valószínűsége, hogy a diagnosztikus teszt értéke negatív lesz egy olyan páciensen, akiben nem áll fenn a vizsgált betegség. A specificitás tehát azt jellemzi, hogy a teszt milyen megbízhatóan azonosítja azokat, akikben nem kóros a vizsgált paraméter. H- osztva H- és T+ összegével.

Hogyan állapíthatóak meg ezek az értékek? Egy hosszas validálási folyamat eredményeként, amelynek a során a tesztek eredményeit összevetik más – precízebb, ugyanakkor sokkal lassabb és többnyire költségesebb – hitelesített eljárások eredményeivel (erről szintén lesz még szó egy másik bejegyzésben). A validálási eljárás részleteit és adatait normális körülmények között elérhetővé kell tenni. Most viszont arra is van példa, hogy ez a lépés teljesen kimarad. A BioMedomics cég például minden bizonyíték nélkül közli, hogy az általuk forgalmazott (FDA által egyébként nem engedélyezett) tesztjük szenzitivitása 88.66%, specificitása pedig 90.63%. Nem túlzás azt mondani, hogy az elérhető tesztek piacán vadnyugati káosz uralkodik jelen pillanatban, ami egyáltalán nem könnyíti meg azt, hogy a hatóságok egy koherens összképet nyerjenek az adott ország járványügyi helyzetéről… Ezzel együtt természetesen vannak ellenőrzött, hitelesített tesztek is. Ahogy a hozzászólások között felhívták a figyelmet rá, a BuzzFeed a lentebb hivatkozott cikkben felcserélt két számot, és az Ortho Clinical Diagnostics FDA által hitelesített tesztje egy 400 elemű mintán vizsgálva 95% konfidencia mellett 99,1%-nál jobb specificitású. Az előttünk álló időszak egyik legfontosabb feladata, hogy az illetékes hatóságok biztosítani tudják: a megfelelő minőségű tesztek terjednek el. 

Mit jelent az eredmény?

Tegyük most félre egy kicsit a hitelesség kérdését, és tételezzük fel, hogy egy adott teszt megbízható, a feltüntetett paraméterei tényleg megfelelnek a valóságnak. Az FDA által elsőként engedélyezett Cellex terméke esetében a szenzitivitás 93.8% (azaz a betegek 93.8%-a produkál pozitív eredményt), a specificitás pedig 96.4% (vagyis az egészséges páciensek 3.6%-át tévesen pozitívként diagnosztizálja). A számok látszólag magukért beszélnek, de érdemes kicsit mélyebbre ásni!

Először is szögezzük le, hogy a társadalom szintjén vizsgálva még egy 90%-os megbízhatóságú teszt is nagyon fontos információval szolgál. Járványügyi szempontból nagyon nem mindegy, hogy a lakosság 4-5 vagy éppenséggel 40-50%-a esett-e már át a fertőzésen. Hogy a pontos szám éppenséggel 43.2 vagy 44.1%, az közel lényegtelen a meghozandó intézkedések szempontjából. A lakosság széles körű tesztelése tehát igenis informatív még alacsonyabb megbízhatóság esetén is.

Az igazán érdekes kérdés az, hogy mit jelent mindez az egyén szintjén. A következő gondolatmenet nem egy konkrét - főleg nem minden - tesztet minősít, hanem azt a célt szolgálja, hogy a példa számain keresztül az olvasó jobban megérthesse, hogy mit is jelentenek az egyes paraméterek, és mire kell figyelni az értelmezésnél. Az egyszerűbb számolás kedvéért vegyünk egy hipotetikus tesztet 98% szenzitivitással és 96% specificitással. Tételezzük fel továbbá, hogy a lakosság 4%-a fertőződött, azaz 10000 emberből mindösszesen 400. Ebből a 400-ból 400*0.98=392 produkál pozitív mintát. Az egészséges 9600-ból pedig 9600*0.96=9216 negatívat.

4percent.png

Azt kapjuk tehát, hogy a 10000 páciensből 9216+392=9608 diagnózisa helyes, ami meglehetősen ígéretesen hangzik, ráadásul a 400 betegből is megtaláltunk 392-t. Az intuíció ott hagy cserben minket, ha azt nézzük meg, hogy mit mondhat magáról egy adott személy, akinek a tesztje pozitív lesz: mennyire valószínű, hogy valóban megtalálhatóak az antitestek a szervezetében, hogy tényleg átesett már a betegségen? A pozitív teszteredmények a táblázat felső sorában láthatóak: 392 helyes pozitív mellé jut 384 téves pozitív is. Azaz annak a valószínűsége, hogy egy pozitív teszt tényleg egy pozitív esetet talált meg 392/(392+384), vagyis csupán 50,5%! Mindez annak köszönhető, hogy 4 százalékos átfertőzöttség mellett a valójában negatív páciensek számához viszonyítva arányaiban kevés téves pozitív eredmény is összemérhetővé válik a helyes pozitív eredmények számával. Fontos azonban azt is látni, hogy egy negatív teszteredmény 99,9% eséllyel /9504/(9504+2)/ tényleg azt jelenti, hogy az illető nem találkozott a vírussal.

Még rosszabb a helyzet, ha a lakosság csak 1%-a fertőzött:

1percent.png

Ekkor a pozitív teszteredmény csak 19,8% valószínűséggel jelent ténylegesen pozitív állapotot /98/(98+396)/. Mi a helyzet akkor, ha az átfertőzöttség 50%-ra nő?

50percent.png

A valószínűség ekkor 96%-ra ugrik /4900/(4900+200)/.

A konklúzió tehát az, hogy a járvány jelenlegi szakaszában (maximum néhány százalékos átfertőzöttség) nem reális azt várni, hogy pusztán egyetlen pozitív antitest teszteredmény alapján „járványigazolványt” állítsanak ki, amely segítségével a betegségen tünetmentesen áteső személy ismét szabadon mozoghat. Ehhez minimum többszöri tesztelés általi megerősítésre lenne szükség még akkor is, ha feltételezzük, hogy az alkalmazott tesztek paraméterei hitelesek. Mivel jelen pillanatban még számos kérdéses minőségű teszt van forgalomban, így igazán megbízható eredményt akkor kapnánk, ha a pozitív antitest teszteredményt produkálókat utána precízebb (egyszersmind időigényesebb) eljárásokkal is megvizsgálnák, amire az elkövetkezendő időszakban aligha lesz kapacitás. A széles körben elérhető antitest tesztek azért fontosak most, hogy végre képet kapjunk arról, hogy mekkora és hogyan alakul a társadalom átfertőzöttsége. Ez a nagy kép határozza meg azt, hogy milyen intézkedéseket kell hozni országos vagy nemzetközi szinten. Ahogy nő ez az érték, úgy lesz relevánsabb az egyes emberek teszteredménye is.

-----------------------------

Forrás (a szövegben linkelteken túl)

Dan Vergano, Stephanie M. Lee: Coronavirus Antibody Tests Could Help Us Get Back To Normal — Or They Could Be The Next Testing Crisis

Corona Podcast 

Ed Yong: Our Pandemic Summer

-----------------------------

Kapcsolódó korábbi írás

COVID-19 3.: Az újrafertőződésről...

Szólj hozzá