De kern
-
De bekende ezelsbruggetjes SPIN (hoge SPecificiteit rules IN) en SNOUT (hoge SeNsitiviteit rules OUT) zijn van beperkte waarde.
-
Kennis van de prevalentie van de aandoening in de geteste populatie is essentieel om een testuitslag goed te kunnen interpreteren.
De Voorsteschuifladetest
Aios en opleider bespreken een artikel over de diagnostische waarde van de voorsteschuifladetest bij een vermoeden van een voorstekruisbandruptuur. Het artikel meldt dat de sensitiviteit van de voorsteschuifladetest 67% is, en de specificiteit 88%. De opleider vraagt de aios voor welk doel de voorsteschuifladetest het meest geschikt is. Welk antwoord is correct?
A. Voor het aantonen van een ruptuur.
B. Voor het uitsluiten van een ruptuur.
De vragenstellers hebben duidelijk de bedoeling om naar de ezelsbruggetjes SPIN en SNOUT te vragen. SPIN: bij een hoge specificiteit helpt een positieve testuitslag om de ziekte aan te tonen. SNOUT: bij een hoge sensitiviteit helpt een negatieve testuitslag om de ziekte uit te sluiten. Maar klopt dat wel?
Hoe zat het ook alweer? Sensitiviteit en specificiteit zijn de bekendste eigenschappen van een diagnostische test. Sensitiviteit staat voor het deel van de mensen dat de ziekte heeft en ook een positieve testuitslag krijgt, specificiteit staat voor het deel dat de ziekte niet heeft en ook een negatieve testuitslag krijgt [tabel].
Maar sensitiviteit en specificiteit zijn niet de enige kenmerken die ertoe doen. Degene die de test uitvoert, is op dat moment nog niet op de hoogte van de diagnose, anders was de test immers niet nodig. De vraag waar de testuitvoerder voor staat is: wat zegt de uitslag van mijn test? Stel dat de testuitslag positief is, hoe groot is dan de kans dat de patiënt ook echt de ziekte heeft? Dit noemen we de positief voorspellende waarde. Daartegenover staat de negatief voorspellende waarde: hoe groot is de kans dat de patiënt niet ziek is als de testuitslag negatief is?
Kennis van de prevalentie is cruciaal
Om de positief en de negatief voorspellende waarde te bepalen moet men in de eerste plaats de sensitiviteit en specificiteit van de test kennen, bij voorkeur voor de setting waarin de test wordt uitgevoerd. Maar ook moet men de verhouding kennen tussen het aantal zieken en het aantal niet-zieken binnen de geteste populatie. In deze context spreken we vaak van de ‘prevalentie’ van de aandoening. Om verwarring te voorkomen: het gaat hier niet om de prevalentie in de bevolking, maar om de prevalentie bij de mensen bij wie de test wordt afgenomen.
Ik werk twee voorbeelden uit van een test die, net als in de kennistoetsvraag, een sensitiviteit heeft van 67% en een specificiteit van 88% en die uitgevoerd wordt in twee verschillende populaties, met prevalenties van respectievelijk 50% en 10%.
Bij een prevalentie van 50%, dus wanneer de helft van de geteste populatie ziek is, is de positief voorspellende waarde 67/79, dat wil zeggen 85% van de positief getesten is daadwerkelijk ziek [figuur 1]. De negatief voorspellende waarde is 88/121, dat wil zeggen 73% van de negatief getesten is daadwerkelijk niet ziek. Bij deze prevalentie helpt een hoge specificiteit dus inderdaad om de ziekte aan te tonen: de positief voorspellende waarde is groter dan de negatief voorspellende waarde. Antwoord ‘A’ zou correct zijn.
Figuur 1 | Sensitiviteit 67% en specificiteit 88% bij een prevalentie van 50%
Hoe anders wordt het beeld als de prevalentie niet 50% is, maar slechts 10%. De positief voorspellende waarde is nu 67/175, dus slechts 38% van de positief getesten is daadwerkelijk ziek. De negatief voorspellende waarde is 792/825, dus van de mensen met een negatieve testuitslag is maar liefst 96% daadwerkelijk niet ziek [figuur 2]. Bij deze lage prevalentie is de specificiteit onvoldoende: doordat een veel groter deel van de geteste mensen niet ziek is, gooien de maar liefst 108 foutpositieven roet in het eten. Het gevolg is dat het merendeel van de mensen met een positieve testuitslag geen ziekte heeft. We hebben nu meer aan de negatieve testuitslagen, antwoord ‘A’ van de kennistoetsvraag is dus onjuist.
Figuur 2 | Sensitiviteit 67% en specificiteit 88% bij een prevalentie van 10%
Wees voorzichtig!
De oorspronkelijke publicatie waarin SPIN en SNOUT werden geïntroduceerd (volledigheidshalve: als SpPin en SnNout) vermeldt wel dat beide ezelsbruggetjes alleen bruikbaar zijn bij tests met een zeer hoge specificiteit of sensitiviteit. 1 Maar ook dan kan men zich situaties voorstellen waarin een extreem lage of hoge prevalentie de gebruiker op het verkeerde been zet. Wanneer het ezelsbruggetje nog wel opgaat en wanneer niet meer, hangt af van de balans tussen sensitiviteit en specificiteit enerzijds en de prevalentie anderzijds. Vuistregels hiervoor zijn mij niet bekend. Wanneer de prevalentie bij benadering bekend is, is het niet zo moeilijk om zelf de 2 × 2-tabel te maken en de voorspellende waarden te berekenen.
Concluderend: de vraag uit de kennistoets gaf onvoldoende informatie. Welk antwoord juist is, hangt mede af van de verhouding tussen het aantal zieken en niet-zieken in de geteste populatie. Bovendien waren de gekozen sensitiviteit en specificiteit niet erg hoog. Laten we SPIN en SNOUT voortaan beschouwen als krakkemikkige ezelsbruggetjes, te betreden op eigen risico.
Ziekte aanwezig | Ziekte afwezig | Totaal | |
---|---|---|---|
Test positief | ATerecht positief | BFout-positief | Alle mensen met een positieve testuitslag |
Test negatief | CFout-negatief | DTerecht negatief | Alle mensen met een negatieve testuitslag |
Totaal | Alle mensen met de ziekte | Alle mensen zonder de ziekte | Alle mensen die getest zijn |
Literatuur
- 1.↲Sackett DL, Straus S. On some clinically useful measures of the accuracy of diagnostic tests. ACP J Club 1998;129:A17-9.
Reacties (3)
Ik dank de auteurs van beide reacties voor hun nuttige commentaar. Ik erken uiteraard de meerwaarde van de likelihood ratio. Mijn ervaring is echter dat het voor huisartsen in opleiding en huisartsopleiders een begrip is dat niet makkelijk beklijft. ‘Even omrekenen naar odds’ (Saes) is makkelijk gezegd, maar de meerderheid van onze lezers weet niet hoe dat moet en brandt ook niet van nieuwsgierigheid om het te leren. Doel van mijn bijdrage was om te laten zien dat de ezelsbruggen SPIN en SNOUT vaak te kort door de bocht onthouden worden, en hoe een verschil in prevalentie ons parten kan spelen bij het interpreteren van een testuitslag.
Hans van der Wouden
- Login om te reageren
Onderstaande reactie is geplaatst door de redactie van H&W namens Niels Adriaenssens en Samuel Coenen.
In het navormingsartikel ‘Wat gaat er fout met SPIN en SNOUT?‘ in H&W nummer 12 stelt de auteur dat deze bekende ezelsbruggetjes van beperkte waarde zijn en illustreert dit aan de hand van een vraag uit de Landelijke Huisartsgeneeskundige Kennistoets van april 2019.1 Hij is het niet eens dat een voorsteschuifladetest (sensitiviteit 67%, specificiteit 88%) meer geschikt is voor het aantonen dan voor het uitsluiten van voorstekruisbandruptuur omdat bijvoorbeeld bij een prevalentie van deze aandoening in de geteste populatie (voorkans) van 10% de kans op voorstekruisbandruptuur na een positieve voorsteschuifladetest maar 38% is en de kans dat er geen ruptuur is na een negatieve test 96%.
We zijn het met hem eens dat kennis van de voorkans essentieel is voor goede diagnostiek, maar niet met het waardeoordeel over de ezelsbruggetjes en helemaal niet met vergelijken van positief en negatief voorspellende waarde (nakansen) om de diagnostische waarde van de voorsteschuiflade- of een andere test te bepalen. Zelfs als in het voorbeeld hierboven een negatieve test helemaal geen diagnostische winst zou opleveren, was de negatief voorspellende waarde nog steeds hoger dan de positief voorspellende waarde geweest. De kans dat het geen ruptuur is, zou na de negatieve test dan immers nog steeds 90% zijn geweest. Volgens de redenering van de auteur zou de diagnostische waarde van een test die totaal onbruikbaar is om uit te sluiten ook dan nog steeds groter zijn dan voor een test die wel iets oplevert.
Om de diagnostische waarde van de voorsteschuiflade- of een andere test te bepalen, dien je de diagnostische winst te vergelijken met een maat die onafhankelijk is van de voorkans, namelijk likelihood ratio’s of de aantonende en uitsluitende kracht.2,3 Daarvoor zijn SPIN en SNOUT juist wel heel bruikbaar. Hoe specifieker een positieve test hoe meer waarschijnlijk hij de ziekte zal maken (aantonen). Hoe sensitiever een negatieve test hoe minder waarschijnlijk hij de ziekte zal maken (uitsluiten). In de kennistoets zou daarom eventueel gevraagd kunnen worden welk van volgende antwoorden correct is: A. De aantonende kracht is groter dan de uitsluitende kracht. B. De uitsluitende kracht is groter dan de aantonende kracht. Het juist antwoord is dan ondubbelzinnig A. De aantonende kracht is immers twee keer groter dan de uitsluitende kracht.*
Daarnaast is de grootst mogelijke diagnostische zekerheid bereiken minder relevant dan het al dan niet bereiken van voldoende zekerheid om tot actie over te gaan (drempels).4 Je stuurt als huisarts een kind met koorts naar het ziekenhuis als je een meningitis vermoedt – die diagnose wil je niet missen - terwijl de kans op meningitis op dat moment nog steeds kleiner is dan de kans op minder ernstige infecties, en je wacht niet tot je zeker bent van je diagnose.
Meer informatie over het Vlaamse model van klinisch redeneren waarin bijzondere aandacht voor onder andere niet te missen diagnosen, voorkansen, krachten van argumenten, aantonen en uitsluiten en actiedrempels vind je in ons leerboek.3
Niels Adriaenssens, Samuel Coenen voor de lesgevers klinisch redeneren van de UAntwerpen.
* De aantonende kracht = 6 [= 67%/(100%-88%) = sensitiviteit/(100%-specificiteit) = likelihood ratio van de positieve test (LR+)]. De uitsluitende kracht = 3 [= 88%/(100%-33%) = specificiteit/(100% - sensitiviteit) = 1/likelihood ratio van de negatieve test (LR-)].3
Referenties
- Van der Wouden JC. Wat gaat er fout met SPIN en SNOUT? Huisarts Wet 2019;62:29-33.
- Sackett DL, Haynes RB, Guyatt GH, Tugwell P. 1991. Clinical Epidemiology: a basic science for clinical medicine, Boston, Little, Brown and Company.
- Jef Van den Ende met medewerking van docenten van de medische faculteiten van UAntwerpen, UGent, KU Leuven, en stafleden van Domus Medica,. Klinisch redeneren: van model naar competentie. 1 ed. Leuven: Acco; 2018. 128 p.
- Pauker S, Kassirer J. The threshold approach to clinical decision making. N Eng J Med 1980;302:1109-17.
- Login om te reageren
Niet zoveel mis met SPIN en SNOUT.
Het belang van de kennis van de voorafkans (of prevalentie) op een aandoening kan bij de interpretatie van een testuitslag niet voldoende benadrukt worden. Alleen al daarom is dit artikel relevant. De auteur laat mooi zien hoe de voorafkans op een aandoening met de uitslag van een test de achterafkans beïnvloedt.
Toch kan het antwoord op de toetsvraag uit de Landelijke Huisartsgeneeskundige Kennistoets gehandhaafd blijven: een test met een hogere specificiteit is geschikter om een diagnose aan te tonen en een test met een hoge sensitiviteit is geschikter om een diagnose uit te sluiten, SPIN en SNOUT.
Dat bij een lage voorafkans een test met hogere specificiteit bij een negatieve uitslag een kleine achterafkans geeft is geenszins het bewijs van het tegendeel.
Uit het voorbeeld: Bij een voorafkans van 10% is er -zoals de auteur laat zien- na een positieve test een achterafkans van 38% en na een negatieve test een achterafkans van 4%.
Met andere woorden: de voorafkans wordt door een positieve test bijna verviervoudigd en door een negatieve test iets meer dan gehalveerd.
Bij een hypothetisch lage voorafkans van 10% op een voorste kruisbandruptuur zou ik ook niet onder de indruk zijn van een achterafkans van 4% bij een negatieve test, maar misschien nog even nadenken over de 38% achterafkans na een positieve test. (Ik betwijfel overigens of ik bij zo’n lage voorafkans überhaupt deze test zou doen).
Sensitiviteit en specificiteit zijn testeigenschappen en volledig onafhankelijk van prevalentie.
Uit beide testeigenschappen kan de Likelihood Ratio voor een positieve en negatieve test berekend worden. In dit voorbeeld is Likelihood Ratio voor een positieve test 5,6 en de LR voor een negatieve test 0,37.
De LR zet de voorafkans op een aandoening om in de achterafkans op de volgende manier:
Post test odds=pre-test odds x Likelihood Ratio.
Omdat Likelihood Ratio’s niet werken met procentkansen moeten deze laatste wel even omgerekend naar odds en de zo verkregen Post-test odds kunnen dan weer omgerekend worden naar achterafkansen. (voorbeeld: 10% kans= 1/9 odds; 0,37/9 odds=4%)
Godfried Saes
- Login om te reageren