Beoordeling van de kwaliteit van rapportage van diagnostisch onderzoek

Samenvatting

Devillé WLJM, Bossuyt PMM. Beoordeling van de kwaliteit van rapportage van diagnostisch onderzoek. Huisarts Wet 2004;47(7):340-5. Diagnostisch onderzoek is gevoelig voor allerlei vormen van bias die hun invloed kunnen hebben op de interne validiteit van het onderzoek en op de generaliseerbaarheid van de onderzoeksresultaten. De lezer van dergelijk onderzoek heeft behalve handvatten ook voldoende informatie nodig om de kwaliteit van het onderzoek te beoordelen. Begin 2003 werden de Standards for reporting of diagnostic accuracy gepubliceerd om de rapportage van onderzoek naar diagnostische accuratesse te verbeteren. Dit artikel gaat in op de rationale achter en het belang van de verschillende items in de lijst, zodat deze gebruikt kan worden in de beoordeling van dergelijke publicaties. NIVEL, Nederlands Instituut voor onderzoek van de gezondheidszorg, Postbus 1568, 3500 BN Utrecht: dr. W.L.J.M. Devillé, arts-epidemioloog; AMC, Universiteit van Amsterdam, vakgroep Klinische Epidemiologie en Biostatistiek: prof.dr. P.M.M. Bossuyt, epidemioloog. Correspondentie: w.deville@nivel.nl Mogelijke belangenverstrengeling: PB is betrokken geweest bij de ontwikkeling van de STARD-richtlijnen.

Inleiding

Diagnostisch onderzoek heeft lange tijd veel minder aandacht gekregen dan therapeutisch onderzoek. Daardoor laat de kwaliteit van diagnostisch onderzoek nog steeds veel te wensen over. Een al oud overzicht van de diagnostische literatuur gepubliceerd in vier medische toptijdschriften van 1978 tot 1993 liet zien dat het met de kwaliteit van dit onderzoek droevig was gesteld: slechts in 50 tot 60% van de publicaties werden belangrijke oorzaken van bias (systematische fouten) vermeden.1 Toch is valide diagnostische informatie uitermate belangrijk voor een clinicus, omdat deze informatie richting geeft aan het verdere beleid ten aanzien van verrichtingen en behandelingen. Tests kunnen op verschillende manieren worden beoordeeld. Er bestaat onderzoek dat gericht is op de haalbaarheid, veiligheid of reproduceerbaarheid van tests; met ander onderzoek kan worden nagegaan of patiënten door het testen beter af zijn. Het gaat meer om de gevolgen van het testen. Een groot deel van het onderzoek naar tests is echter gericht op de diagnostische accuratesse. Dat diagnostisch onderzoek is gericht op het beoordelen van de validiteit van symptomen, lichamelijk onderzoek of aanvullende diagnostiek (verder aangeduid als ‘diagnostische test’). Dergelijk onderzoek beoordeelt het vermogen van een diagnostische test om zo accuraat mogelijk een onderscheid te maken tussen ‘zieken’ en ‘niet-zieken’, of tussen verschillende stadia van ziekte. In onderzoek naar de diagnostische accuratesse worden de resultaten van een test vergeleken met de bevindingen van de referentiestandaard: de beste manier om de aan- of afwezigheid van ziekte vast te kunnen stellen. De bevindingen worden vervolgens samengevat met behulp van kengetallen als de sensitiviteit en de specificiteit.

De kern

De STARD-checklist kan ook als handvat dienen voor de beoordeling van diagnostisch onderzoek.
Kwaliteit van diagnostisch onderzoek kan alleen goed beoordeeld worden indien voldoende en volledige informatie aanwezig is.
Bias in de opzet van diagnostisch onderzoek beïnvloedt de interne validiteit.
Bias in de samenstelling van de onderzoekspopulatie in diagnostisch onderzoek beïnvloedt de generaliseerbaarheid van de onderzoeksresultaten.

Beoordelen methodologie

De beoordeling van de methodologische kwaliteit van diagnostische onderzoeken wordt erg bemoeilijkt door de slechte kwaliteit van de rapportage. Naast bedreigingen voor de validiteit kunnen er ook beperkingen zijn wat betreft de toepasbaarheid. Tests zijn niet in alle omstandigheden op dezelfde manier toe te passen. Het is belangrijk te weten waar en hoe de tests zijn afgenomen, om vervolgens tot een oordeel te kunnen komen over de toepasbaarheid van de resultaten van het onderzoek. Als elk observationeel onderzoek staat het diagnostisch onderzoek bloot aan verschillende vormen van systematische fouten wanneer aan bepaalde methodologische criteria niet wordt voldaan. Een methode voor het evalueren van diagnostisch onderzoek werd al gepubliceerd in 1986,2 maar expliciete richtlijnen voor het beoordelen van de kwaliteit en voor het rapporteren van diagnostisch onderzoek kwamen slechts enkele jaren geleden beschikbaar.3 4 5 6 7 8 9 Over de methodologische beoordeling van publicaties van diagnostisch onderzoek voor eventuele inclusie in een systematische review publiceerden wij min of meer uitgebreid in andere tijdschriften.10 11 12

Cruciale informatie over de opzet en uitvoering van het onderzoek en een adequate presentatie van de resultaten ontbreken vaak. Daarom werd het initiatief genomen om allereerst de kwaliteit van rapportage te verbeteren door een aantal items te formuleren die minimaal in een publicatie over diagnostische accuratesse dienen voor te komen. In september 2000 werden tijdens een internationale workshop in Amsterdam, de STAndards for Reporting results of Diagnostic research (STARD) voorgesteld (www.consort-statement.org/stardstatement.htm). STARD heeft niet enkel als doel om als standaard voor het rapporteren van diagnostisch onderzoek aangenomen te worden door de belangrijkste medische tijdschriften, maar indirect ook om de kwaliteit van het diagnostisch onderzoek zelf te verbeteren. Met deze lijst kunnen dus de waarde en validiteit van een diagnostisch onderzoek zelf worden beoordeeld. Huisarts en Wetenschap, het Nederlands Tijdschrift voor Geneeskunde en meer dan tien internationale peer-reviewed tijdschriften hebben intussen deze richtlijnen gepubliceerd, zoals vorig jaar ook in H&W al werd aangegeven.13 14 15 We zullen hier de STARD-checklist ( tabel) volgen en trachten aan te geven waarom de verschillende items in die lijst belangrijk zijn voor een methodologische beoordeling van de kwaliteit van het uitgevoerde onderzoek. Een aantal van de items betreffen de interne validiteit van het onderzoek afhankelijk van de methodologische opzet, andere items hebben meer betrekking op de externe validiteit of de generaliseerbaarheid van de onderzoeksresultaten.

STARD-checklist

De checklist geeft de auteurs van een publicatie over diagnostisch onderzoek een overzicht van de informatie die je als lezer nodig hebt om de interne en externe validiteit van het onderzoek zo goed mogelijk te kunnen beoordelen. De lijst volgt dan ook de opbouw van een wetenschappelijke publicatie en behandelt achtereenvolgens titel en abstract, inleiding, methoden, resultaten en discussie. We beginnen met de inleiding.

TabelSTARD-checklist (www.consort-statement.org/stardstatement.htm)

Checklist bij de rapportage van een onderzoek naar diagnostische accuratesse

1	Maak het artikel herkenbaar als een verslag van een onderzoek naar diagnostische accuratesse (gebruik bij voorkeur de Mesh-termen en

2	Omschrijf het doel van het onderzoek en benoem de onderzoeksvragen, zoals het bepalen van de diagnostische accuratesse of het vergelijken van de diagnostische accuratesse tussen tests of tussen groepen patiënten.


Beschrijf:
3	de onderzoeksgroep: geef de in- en exclusiecriteria en beschrijf de plaats waar de gegevens werden verzameld.
4	de manier waarop patiënten werden ingesloten: werden deelnemers ingesloten op basis van bepaalde klachten of op grond van eerdere testuitslagen of op basis van het feit dat zij de indextest en/of de referentiestandaard hadden ondergaan?
5	eventuele verdere vormen van selectie: vormden de deelnemers een aaneengesloten reeks van personen zoals gedefinieerd in de 2 vorige items? Zo niet, hoe werd er verder geselecteerd?
6	het proces van gegevensverzameling: werd de verzameling van gegevens voorbereid voordat de indextest en de referentiestandaard werden uitgevoerd (prospectief onderzoek) of daarna (retrospectief onderzoek)?

7	Omschrijf de referentiestandaard en motiveer deze keuze.
Geef:
8	technische specificaties voor de gebruikte tests, zoals wanneer en hoe tests werden uitgevoerd, of geef referenties voor de indextest en de referentiestandaard;
9	definitie en motivering voor de eenheden, afkapwaarden en categorieën voor de resultaten van de indextest en de referentiestandaard;
10	aantal, achtergrond en ervaring van de personen die de indextest en de referentiestandaard uitvoerden en beoordeelden;
11	informatie over blindering van de beoordelaars van de indextest en de referentiestandaard voor de uitslag van de andere tests; geef aan welke andere klinische informatie zij tot hun.beschikking hadden bij de beoordeling.

Beschrijf:
12	de methoden voor het uitrekenen en vergelijken van maten van diagnostische accuratesse en de methoden om statistische onzekerheid aan te geven (bijvoorbeeld 95% – betrouwbaarheidsintervallen);
13	de methoden voor het berekenen van de reproduceerbaarheid van de indextest, voorzover uitgevoerd.


14	Geef aan wanneer het onderzoek werd uitgevoerd, met de datum van insluiten van de eerste en laatste deelnemer.
15	Beschrijf de demografische en klinische kenmerken van de onderzoeksgroep (waaronder leeftijd, ernst van de symptomen, comorbiditeit, huidige behandelingen, verwijscentra).
16	Geef aan of alle deelnemers die konden worden geïncludeerd ook de indextest en de referentiestandaard hebben ondergaan. Noem de eventuele redenen waarom deelnemers niet de indextest, niet de referentiestandaard of geen van beide hebben ondergaan.

17	Geef het tijdsinterval tussen de indextest en de referentiestandaard en de eventuele daarbinnen toegepaste behandelingen.
18	Beschrijf de ernst van de ziekte bij personen met de ziekte; beschrijf de andere diagnosen in de groep zonder die ziekte.
19	Geef een kruistabel met de resultaten van de indextest (inclusief onduidelijke en ontbrekende uitslagen) en die van de referentiestandaard; geef voor tests met een continue uitslag de respectieve verdelingen, opgesplitst naar de uitslag van de referentiestandaard.
20	Beschrijf eventuele bijwerkingen van de indextest en de referentiestandaard.

21	Geef schattingen van de maten van diagnostische accuratesse en hun statistische onzekerheid (bijvoorbeeld 95%-betrouwbaarheidsintervallen).
22	Geef aan hoe onduidelijke testuitslagen, ontbrekende uitslagen en uitbijters werden behandeld in de analyse.
23	Geef aan of en hoe maten van diagnostische accuratesse varieerden tussen groepen van deelnemers, tussen beoordelaars, of tussen centra, indien van toepassing.
24	Geef schattingen van de reproduceerbaarheid van de indextest, indien berekend.

25	Bediscussieer de klinische toepasbaarheid van de resultaten van het onderzoek.
Bron: Ned Tijdschr Geneeskd 2003;147:336-40.

Aanbevolen wordt in de titel en abstract duidelijk te maken dat het om een publicatie over diagnostische accuratesse gaat ( item 1). Auteurs zouden bij voorkeur de Mesh ( Medline subheading)-term sensitivity en specificity moeten gebruiken. Bovendien moet meteen duidelijk zijn wat het specifieke onderzoeksdoel is ( item 2): gaat het om onderzoek naar de accuratesse van een diagnostische test of gaat het om een vergelijking van de accuratesse tussen verschillende tests of tussen verschillende patiëntenpopulaties? Met dergelijke informatie kan de lezer gemakkelijker de tabellen met de resultaten lezen en weet hij wat hij mag verwachten in de resultatensectie.

De items 3-6 geven aan dat de populatie patiënten aan het onderzoek zo volledig mogelijk moet worden omschreven. Hoe groter het contrast tussen de personen met de ziekte en de deelnemers zonder de ziekte, hoe eenvoudiger een indextest dat onderscheid kan maken. Het contrast kan kunstmatig versterkt worden door de opzet van het onderzoek zelf en leiden tot overschatting van de accuratesse. In een reële klinische situatie wordt een diagnostische test slechts uitgevoerd bij een geïndiceerde populatie zieken met gemengde ziektebeelden; de indextest moet dan onderscheid kunnen maken tussen personen met de ziekte en diegenen met klachten maar zonder deze specifieke ziekte. Inclusie- en exclusiecriteria moeten bekend zijn, evenals de plaats (‘setting’) waar het onderzoek plaatsvond ( item 3). Dit heeft alles te maken met het patiëntenspectrum en mogelijke referralbias: een vorm van selectiebias die ontstaat door verwijzing, bijvoorbeeld door de huisarts.16 Het maakt natuurlijk nogal wat uit of patiënten in het begin van het ziektebeloop of in een gevorderd stadium van het ziekteproces aan het onderzoek deelnamen. Dit heeft vaak ook te maken met het niveau in het zorgsysteem waar het diagnostisch onderzoek werd uitgevoerd: de patiëntenpopulatie en de bijhorende pathologie bij een huisarts zal anders samengesteld zijn dan in een polikliniek of in een ziekenhuis bij de medisch specialist. Het patiëntenspectrum heeft een effect op de validiteit van een diagnostische test ( spectrumbias).17

In een meta-analyse naar de accuratesse van de urinedipstick bleek de nitriettest een significant hogere accuratesse te hebben in de polikliniek ten opzichte van de huisartsenpraktijk.18 Patiënten op een polikliniek werden vaak doorverwezen door de eerste lijn. In hetzelfde onderzoek bleek dat de prevalentie van urineweginfectie onder de geteste patiënten in de huisartsenpraktijk veel hoger was dan onder patiënten opgenomen in het ziekenhuis, waar de test vaak standaard toegepast wordt om patiënten te screenen op een mogelijke infectie. Gegevens over de patiëntenpopulatie en de setting moeten de lezer inzicht geven in welke mate de diagnostische test wel onderscheid kan maken tussen ‘zieken’ en ‘niet-zieken’. Hoe werden de patiënten ingesloten voor het onderzoek, welke informatie was al voorhanden? ( item 4) Gebeurde dit naar aanleiding van symptomen, eerdere diagnostische tests, op basis van de te onderzoeken test of op basis van de referentiestandaard, ook wel de ‘gouden standaard’ genoemd: de tot dan toe wetenschappelijk erkende standaardtest. Of – indien deze niet voorhanden is – op basis van het klinisch beloop van de ziekte over een gedefinieerde periode? Met andere woorden, door welk referral filter gingen de ingesloten deelnemers? Belangrijk is of men kan inschatten welke invloed deze selectie of bijkomende informatie gehad kan hebben op de testresultaten of de interpretatie van deze resultaten. Meestal staat een diagnostische test niet op zichzelf, maar maakt de test deel uit van een serie tests. Of patiënten door verwijzingen geselecteerd zijn of dat een bepaalde patiëntencategorie geïndiceerd is voor een test leidt tot onderlinge afhankelijkheid tussen verschillende tests.19 Verder is het belangrijk om te weten hoe de steekproef werd samengesteld: werd er een opeenvolgende serie patiënten ingesloten volgens de eerder vermelde criteria? ( item 5) Eerder onderzoek toonde aan dat diagnostische onderzoeken met een andere opzet – bijvoorbeeld case-controlonderzoeken met gezonde controles – gevoelig zijn voor spectrumbias en daardoor ten onrechte een te accuraat beeld van de test geven.20 Dit bleek ook zo te zijn wanneer de patiëntenpopulatie onvoldoende beschreven werd. Ten slotte kan het eveneens van belang zijn om te weten of het onderzoek vooraf (prospectief) gepland werd of achteraf (retrospectief) ( item 6), en dan waarschijnlijk gebruik moest maken van medische gegevens en metingen die niet voor onderzoek bedoeld waren. In het laatste geval is veel informatie over patiëntenselectie niet of onvolledig voorhanden, en gebeurde de praktische uitvoering van het onderzoek niet op een gestandaardiseerde wijze.

Onder de items7-9 wordt gedetailleerde informatie verwacht over de referentietest en de diagnostische test waarvan de diagnostische accuratesse onderzocht wordt (indextest). Men kan volstaan door naar referenties van de producent van de tests te verwijzen en te vermelden dat men volgens bepaalde richtlijnen heeft gehandeld. Het is omwille van standaardisatie, vergelijking van onderzoeksresultaten en mogelijke herhaling van het onderzoek belangrijk om te weten hoe de tests werden uitgevoerd, welke afkappunten voor positieve en negatieve testresultaten gehanteerd werden, of in welke categorieën testresultaten werden ingedeeld. Een belangrijke bron van variatie in de resultaten tussen verschillende onderzoeken over dezelfde diagnostische test is het hanteren van verschillende afkappunten. Bij laboratoriumtests worden directe – vaak getalsmatige – afkappunten gehanteerd. Bij beeldvormende diagnostiek maakt men gebruik van indirecte – vaak beschrijvende – afkappunten die afhankelijk zijn van de expertise van diegenen die één of beide tests hebben uitgevoerd ( item 10). Het al dan niet geblindeerd zijn voor de resultaten van de indextest en de referentietest kan leiden tot reviewer- of informatiebias ( item 11).20 21 Niet-geblindeerde onderzoeken geven meestal een overschatting van de accuratesse.20

In het geval van de urinedipstick is er bij de nitriettest geen hard afkappunt: de kleuromslag is gevoelig voor interpretatie van diegene die de test afleest. In een meta-analyse naar de accuratesse van de test van Lasègue meldden slechts 6 van de 11 onderzoeken het afkappunt voor een positief testresultaat en dit varieerde van een hoek van 70° tot een hoek van 90°.22

Men verwacht van de auteurs een beschrijving hoe men de maten van diagnostische accuratesse heeft berekend, met vermelding van de betrouwbaarheidsintervallen ( items 12-13). Hetzelfde geldt voor de reproduceerbaarheid van de indextest, voorzover dit in hetzelfde onderzoek werd uitgevoerd – wat zelden het geval is. Het is in elk geval belangrijk dat de lezer de maten voor accuratesse zelf kan uitrekenen om te zien of de berekeningen van de onderzoekers wel kloppen. Daarvoor heeft men een dusdanig minimaal aantal gegevens nodig dat men de diagnostische 2 x 2-tabel opnieuw kan reproduceren. Vaak is dit niet mogelijk door het gebrek aan absolute aantallen ‘zieken’ en ‘niet-zieken’ of aantallen positieve en/of negatieve testresultaten.

Zoals ook bij interventieonderzoek gebruikelijk is, dienen ook hier ( items 14-16) de deelnemers zo volledig en gedetailleerd mogelijk beschreven te worden en wel om twee redenen: alle mogelijke factoren die de testuitslagen zouden kunnen beïnvloeden, moeten bekend zijn en het moet duidelijk zijn voor welke patiënten de resultaten van dit onderzoek gelden. Het is uiterst belangrijk om te weten of alle deelnemers zowel de indextest als de referentiestandaard hebben ondergaan, om opnieuw zicht te krijgen op mogelijke selectie, die zou kunnen leiden tot verificatiebias.21 23 In sommige omstandigheden kan het bijvoorbeeld voorkomen dat alleen de deelnemers met een positief testresultaat op de indextest de referentiestandaard ondergaan. Dit komt vooral voor wanneer deze laatste een ingrijpende of belastende test is. In dat geval kunnen onderzoekers hun toevlucht zoeken bij een alternatieve, minder ingrijpende referentiestandaard voor deelnemers met een negatief testresultaat op de indextest. In het geval dat deze alternatieve standaard minder valide zou zijn, kan dit volgens Lijmer et al. leiden tot differential reference standard bias.20 In screeningsonderzoek is het omwille van efficiëntie vaak gebruikelijk om slechts een kleine proportie van de deelnemers met een negatieve uitslag op de indextest, ook aan de referentiestandaard te onderwerpen. Dit kan, wanneer dit aantal aselect getrokken werd en indien deze steekproeftrekking achteraf in de berekening van de maten van accuratesse verrekend wordt.

In de meta-analyse naar de accuratesse van de urinedipstick bleek de samenstelling van de patiëntenpopulatie in de verschillende afzonderlijke onderzoeken de belangrijkste bron voor de variatie in de accuratesse van de nitriettest.18 Zo heeft de test bijvoorbeeld een significant hogere accuratesse onder zwangere vrouwen en ouderen vergeleken met een doorsnee patiëntenpopulatie. In de meta-analyse naar de accuratesse van de test van Lasègue bleek één onderzoek een uitbijter te zijn.22 24 De ‘niet-zieke’ patiënten hadden ook lage-rugpijn, maar waren wegens een normaal myelogram niet geopereerd. De hernia van de ‘zieken’ daarentegen werd bevestigd door de operatie. De status ‘ziek/niet ziek’ werd dus bepaald op basis van twee verschillende referentiestandaarden en dit had zijn weerslag op de accuratesse van de Lasègue-test. In de overige onderzoeken waren zowel ‘zieken’ als ‘niet-zieken’ geopereerd en werd hun herniastatus bepaald door de uitslag tijdens de operatie. Het maakte echter opnieuw uit of eerder geopereerde patiënten al dan niet mee ingesloten werden in het onderzoek.

Het tijdinterval tussen indextest en referentiestandaard wordt bij voorkeur zo kort mogelijk gehouden, zodat bepaalde factoren of het ziektebeloop zelf de uitslagen tussen beide metingen niet kunnen beïnvloeden ( item 17). Nadat bij de opzet van het onderzoek de inclusie- en exclusiecriteria en verder de selectie van de patiënten zijn beschreven, is het voor de lezer informatief om de klinische kenmerken van de uiteindelijke populatie te weten: voor de personen met de aandoening gaat het om de ernst van de aandoening (het spectrum) en bij de personen zonder de aandoening betreft dit de alternatieve diagnoses in deze groep ( item 18). Een kruistabel geeft duidelijk inzicht zowel in het uiteindelijke aantal deelnemers die het volledige onderzoek hebben ondergaan, als in de verdeling van de resultaten over de indextest en de referentiestandaard. De kruistabel zou aan het licht moeten brengen of er uitval was, of er onduidelijke resultaten waren, of alle deelnemers beide tests hebben ondergaan en of alle berekeningen van effectschattingen wel kloppen ( item 19). Bijwerkingen van één of beide tests zouden hun invloed kunnen hebben op selectieve uitval of op de testresultaten, maar ook op de toepasbaarheid van de tests in de praktijk ( item 20).

Bij item 21 gaat het niet alleen om de effectschattingen voor de accuratesse (sensitiviteit, specificiteit, voorspellende waarden, odds-ratio of likelihood ratio) maar ook om de weergave van de precisie waarmee die maten geschat werden. Lezers weten dat deze schattingen nauwkeuriger zijn bij grotere aantallen dan bij kleine aantallen deelnemers, waardoor de betrouwbaarheidsintervallen dan ook kleiner worden. Ook moet beschreven worden of onduidelijke of ontbrekende testuitslagen al dan niet meegenomen werden in de berekening van de effectmaten: een onduidelijke uitslag kan bijvoorbeeld weggelaten worden uit de schattingen of als negatief beschouwd worden. Dit heeft natuurlijk zijn invloed op de schattingen van de accuratesse ( item 22). Ontbrekende resultaten kunnen samenhangen met de resultaten van de indextest en/of referentiestandaard en dan opnieuw tot bias leiden. Daarom verwacht de lezer informatie over alle onduidelijke en ontbrekende testuitslagen.

In 72 onderzoeken naar de accuratesse van de urinedipstick waren er 29 (40%) waarvan een aantal resultaten ontbraken of onduidelijk waren. In 8 van de 29 stond hierover verder geen informatie. De helft van de onderzoeken had geen informatie over mogelijke contaminatie van de urine. In de overige onderzoeken werden deze urinemonsters uitgesloten, als negatief beschouwd of er werd een tweede keer urine verzameld. Het hoeft geen betoog dat deze verschillen hun weerslag kunnen hebben op de accuratesse van de test. Zelden vormen de deelnemers aan een onderzoek een homogene groep. Bepaalde kenmerken van de deelnemers kunnen de testresultaten beïnvloeden. Indien dit het geval is, verwachten we dat de onderzoekers de variatie van de accuratesse bespreken tussen subgroepen van patiënten.17 Zo kunnen de resultaten geëxtrapoleerd worden naar specifieke doelgroepen. Indien het voor de testresultaten uitmaakt door wie of waar de tests uitgevoerd worden, verwacht de lezer ook hierover informatie in de publicatie ( item 23). Zoals eerder aangegeven, wordt de reproduceerbaarheid niet altijd in hetzelfde onderzoek gemeten of in éénzelfde publicatie vermeld ( item 24). Maar het zou de informatie over de waarde van de test wel compleet maken, zeker wanneer de indextest en/of de referentiestandaard gebaseerd zijn op subjectieve waarnemingen.

De lezer mag bij item 25 een vertaling van de resultaten naar de klinische praktijk verwachten. Het dient duidelijk te worden of het zinvol is deze test toe te passen en bij welke patiëntenpopulatie.

Conclusie

De STARD-checklist bevat een uitgebreide lijst van items die als handleiding kan dienen voor auteurs van publicaties over diagnostisch onderzoek maar ook voor de lezer daarvan. Naarmate er meer items in de publicatie beschreven worden, kan men zich een beter oordeel vormen over de kwaliteit van het gepubliceerde onderzoek en de mogelijke zwakke punten in de opzet van het besproken onderzoek. Wanneer de opzet van het onderzoek aanleiding geeft tot allerlei vormen van bias, kan men vraagtekens zetten bij de validiteit van de testuitslagen en dus de gepubliceerde accuratesse. De vereiste specifieke details over de deelnemers aan het onderzoek en de eventuele vermelding van testuitslagen in subgroepen moeten het de lezer mogelijk maken om deze te extrapoleren naar de eigen patiëntenpopulatie. Ontbreken deze gegevens, dan zijn de resultaten onvoldoende generaliseerbaar en eigenlijk van weinig nut voor de clinicus. Huisartsen zouden deze checklist dus ook kunnen gebruiken als een criterialijst voor het beoordelen van diagnostisch evaluatieonderzoek, zeker na lezing van dit artikel. Hopelijk hebben zij inzicht gekregen in het relatieve belang van en de rationale achter elk van de verschillende items in de lijst. Onderzoek om te beoordelen of de publicatie van deze STARD-checklist ook daadwerkelijk de kwaliteit van de publicaties over diagnostische onderzoeken verbetert, is in gang gezet.

Dankwoord

De auteurs danken prof.dr.ir. H.C.W. de Vet voor haar commentaar op dit artikel.

Literatuur

0.Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research: getting better but still not good. JAMA 1995;274:645-51.
0.Guyatt GH, Tugwell PX, Feeny DH, Haynes RB, Drummond M. A framework for clinical evaluation of diagnostic technologies. Can Med Assoc J 1986;134:587-94.
0.Mulrow CD, William DL, Gaul MK, Pugh JA. Assessing quality of a diagnostic test evaluation. J Gen Intern Med 1989;4:288-95.
0.Irwig L, Tosteson ANA, Gatsonis C, Lau J, Colditz G, Chalmers TC, et al. Guidelines for meta-analyses evaluating diagnostic tests. Ann Intern Med 1994;120:667-76.
0.Van der Schouw YT, Verbeek ALM, Ruijs SHJ. Guidelines for the assessment of new diagnostic tests. Invest Radiol 1995;30:334-40.
0.Jeaschke R, Guyatt GH, Sackett DL. User's guidelines to the medical literature, III: how to use an article about a diagnostic test, A: are the results of the study valid? JAMA 1994;271:389-91.
0.Wald N, Cuckle H. Reporting the assessment of screening and diagnostic tests. Br J Obs Gyn 1989;96:389-96.
0.Jeaschke R, Guyatt GH, Sackett DL. User's guidelines to the medical literature, III: how to use an article about a diagnostic test, B: what are the results and will they help me in caring for my patients? JAMA 1994;271:703-7.
0.Greenhalgh T. How to read a paper: papers that report diagnostic or screening tests. BMJ 1997;315:540-3.
0.Devillé WLJM, Bossuyt PMM, De Vet HCW, Bouter LM, Assendelft WJJ. De praktijk van systematische reviews. X. Zoeken, selecteren en methodologisch beoordelen van diagnostisch evaluatieonderzoek. Ned Tijdschr Geneeskd 2002;146:2281-4.
0.De Vet HCW, Van der Weijden T, Muris JWM, Heyman J, Buntinx F, Knottnerus JA. Systematic reviews of diagnostic research. Considerations about assessment and incorporation of methodological quality. Eur J Epid 2001;17:301-6.
0.Devillé W, Buntinx F, Bouter L, Montori V, De Vet H, Van Der Windt D, et al. Conducting systematic reviews of diagnostic studies: didactic guidelines. BMC Med Res Methodol 2002 Jul 3;2:e9.
0.Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Verslaglegging van diagnostisch evaluatieonderzoek volgens een standaardmethode; de ‘Standards for reporting of diagnostic accuracy’. Ned Tijdschr Geneeskd 2003;147:336-40.
0.Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD initiative. BMJ 2003;326:41-4.
0.Zaat J. Nieuwe richtlijnen voor rapportage over diagnostisch onderzoek. Huisarts Wet 2003;46:128.
0.Knottnerus JA, Leffers P. The influence of referral patterns on the characteristics of diagnostic tests. J Clin Epidemiol 1992;45:1143-54.
0.Ransohoff DF, Feinstein AR. Problems of spectrum and bias in evaluating efficacy of diagnostic tests. N Engl J Med 1978;299:926-30.
0.Devillé WLJM,Yzermans JC, Van Duijn NP, Bezemer PD, Van der Windt DAWM, Bouter LM. Which factors affect the accuracy of the urine dipstick test for the detection of bacteriuria or urinary tract infection? A meta-analysis. In: Devillé W. Evidence in diagnostic Research. Reviewing diagnostic accuracy from search to guidelines [Proefschrift]. Amsterdam: Vrije Universiteit, 2001.
0.Moons KGM, Van Es GA, Deckers JW, Habbema JDF, Grobbee DE. Limitations of sensitivity, specificity, likelihood ratio and Bayes’ theorem in assessing diagnostic probabilities: A clinical example. Epidemiology 1997;8:12-7.
0.Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, Van der Meulen JHP, et al. Empirical evidence of design-related bias in studies of diagnostic tests. JAMA 1999;282:1061-6.
0.Begg CB. Biases in the assessment of diagnostic tests. Stat Med 1987;6:411-23.
0.Devillé WLJM, Van der Windt DAWM, Dzaferagic A, Bezemer PD, Bouter LM. The test of Lasègue. Systematic review of the accuracy in diagnosing herniated discs. Spine 2000;25:1140-7.
0.Knottnerus JA. The effects of disease verification and referral on the relationship between symptoms and diseases. Med Decis Making 1987;7:139-48.
0.Kerr RSC, Cadoux-Hudson, Adams CBT. The value of accurate clinical assessment in the surgical management of the lumbar disc protrusion. J Neur Neurosurgery Psych 1988;51:169-73.

Reacties

Er zijn nog geen reacties.