Stel, we hebben een onderzoek waaruit blijkt dat middel A effectiever is dan middel B, dan zijn hiervoor in principe drie verklaringen:
-
Het klopt, middel A is inderdaad effectiever dan middel B.
-
Er zijn fouten gemaakt in opzet en uitvoering, er is dus bias.
-
Het gevonden verschil is toeval, en in werkelijkheid niet aanwezig.
We moeten dus eerst nauwkeurig het onderzoek nalopen of er geen fouten zijn gemaakt. Indien er reeds fouten worden ontdekt in het onderzoek kunnen we het artikel terzijde leggen. Indien blijkt dat het een goed onderzoek is, gaan we kijken of het gevonden verschil op toeval berust. Dit wordt gedaan door er een geschikte statistische toets op los te laten.
2
Dit gaat als volgt: we stellen een nulhypothese (H0) en een alternatieve hypothese (Ha) op. De nulhypothese luidt: er is geen verschil tussen middel A en middel B. De alternatieve hypothese luidt dat er wèl een verschil is tussen de twee middelen. Pas nadat we er in zijn geslaagd aan te tonen dat de (H0 met grote waarschijnlijkheid) kan worden verworpen, mogen we zeggen dat het gevonden verschil wèl bestaat. De Hamag dan geaccepteerd worden. Met andere woorden, pas als we vinden dat de kans op toeval klein is, gaan we ervan uit dat het gevonden verschil ‘klopt’.
Deze waarschijnlijkheid (de probability) wordt uitgedrukt in een p-waarde. Vinden we bijvoorbeeld een p-waarde van 0,10 dan is er 10% kans dat we de nulhypothese (‘er is geen verschil’) ten onrechte verwerpen. We zouden nog 10% kans hebben dat dit toch op toeval berust. Is de p-waarde 0,30 dan is er zelfs 30% kans dat het gevonden verschil op toeval berust. Bij een p-waarde van 0,01 is er toch nog 1% kans dat het verschil op toeval berust. In het medisch onderzoek wordt doorgaans een p-waarde van 0,05 als afkappunt beschouwd. Is er dus een p-waarde kleiner dan 0,05, dan spreken we van ‘statistisch significant’. We accepteren dan nog altijd dat er een kans van ten hoogste 5% is dat het gevonden verschil op toeval berust.
Vinden we geen significant verschil (dus een kans groter dan 5% dat het toeval is) dan mogen we in feite alleen maar zeggen dat we de nulhypothese niet hebben kunnen verwerpen. We mogen echter niet zeggen dat de twee middelen gelijk zijn. Dit volgt nu eenmaal uit de stelling van David Hume. We kunnen immers nooit bewijzen dat de H0 correct is en, in dit geval, dat er geen verschil is!
Er is natuurlijk nog meer over p-waarden te zeggen. Bekend is bijvoorbeeld dat grote onderzoeken met veel deelnemers al snel significante uitkomsten opleveren. Ook bij onderzoeken waarbij veel data worden vergeleken is er altijd kans dat er bij een van de vele variabelen een significante uitkomst is. Voor deze laatste situatie is correctie mogelijk.
Een betrouwbaarheidsinterval is informatiever: die laat zien wat de range is waarbinnen de onderzochte grootheid zich bevindt. We gaan hier in een afzonderlijke bijdrage uitgebreider op in.
We zullen daarnaast ook altijd moeten kijken of het gevonden statistisch significante resultaat ook klinisch relevant is. Klinisch relevant is een verschil waarvan een clinicus vindt dat het uitmaakt voor zijn handelen. Wanneer een nieuw middel tegen hypertensie significant effectiever is dan het oude middel, maar het gevonden verschil in bloeddrukdaling maar 2 mm is, dan heeft dit nauwelijks enige klinische betekenis.