Uit onderzoek blijkt, om maar wat te noemen, dat bloeddrukverlager A de bloeddruk significant verlaagt, terwijl bloeddrukverlager B daar niet in slaagt. Welke conclusie verbindt de gehaaide huisarts daaraan?
Allereerst natuurlijk dat de vergelijking wel zal zijn uitgevoerd door de fabrikant van middel A, en niet door de fabrikant van B of door onafhankelijke onderzoekers. Daar heeft de huisarts ook wel wetenschappelijke reden toe: een al wat ouder, maar nog steeds spectaculair onderzoek uit 2007 liet zien dat zoiets bij cholesterolverlagers in ieder geval wel opgaat.
1 Trials waarin statines direct met elkaar werden vergeleken, vallen significant vaker (oddsratio 34,6; 95%-BI 7,1 tot 168) in het voordeel van het middel van de sponsor uit. ‘Deze vertekening moet bij de besluitvorming in overweging worden genomen,’ schrijven de onderzoekers droogjes.
Maar dat bedoelen we hier niet. Er is nog iets anders waaraan gehaaide huisartsen moeten denken bij al dit soort vergelijkingen. Het lijkt eenvoudig, maar dat blijkt het, althans voor veel onderzoekers, bepaald niet te zijn: het feit dat middel A de bloeddruk significant verlaagt en middel B niet, betekent niet dat middel A significant beter is dan middel B. ‘Het verschil tussen ‘significant’ en ‘niet-significant’ is niet zelf significant,’ zoals statistici Andrew Gelman en Hal Stern het ooit verwoordden.
2 Heel toevallig gebruiken zij ook bloeddrukverlagers als voorbeeld.
Stel: het ene onderzoek, met middel A, vindt een bloeddrukverlaging van 25 mmHg met een standaardfout van 10 mmHg. Als de nulhypothese was dat we geen effect verwachtten, dan zitten we 25/10 = 2,5 standaardfout verwijderd van de nul, dus we hebben een duidelijk significant resultaat (p = 0,012, voor wie het weten wil). Met middel B zijn we minder gelukkig: daar vinden we in een even goed onderzoek slechts 10 mmHg verlaging met eveneens een standaardfout van 10 mmHg. Nu zijn we slechts 1 standaardfout van 0 verwijderd, dus het effect is zeker niet significant (p = 0,32). Het verschil is evident – kunnen wij daarom besluiten voortaan middel A te gebruiken en middel B te laten voor wat het is?
Nee, dat kunnen we niet. Het verschil tussen A en B is namelijk niet statistisch significant. Dat verschil komt immers uit op 25 - 10 = 15 mmHg, maar de standaardfout is volgens de stelling van Pythagoras 14,14 mmHg. Die 15 mmHg zit dus eveneens amper 1 standaardfout van de nul, p = 0,29). Gelman en Stern zijn in hun titel natuurlijk wat te stellig – het verschil kan zo groot zijn dat het weer wel significant wordt – maar de boodschap is duidelijk: om te bekijken of het verschil tussen een significante en een niet-significante uitslag significant is, is een aparte significantietoets nodig.