Main content

P-waarden en klinische relevantie

A. Knuistingh Neven

Praktijkprobleem

Differences were considered significant when p values were smaller than 0.05.’ Dit soort zinnen staat regelmatig in wetenschappelijke artikelen waarbij toetsende statistiek wordt gebruikt. Maar wat betekent dat, wat is statistische significantie en wanneer is een verschil ook klinisch relevant?

Achtergrond

In essentie gaat men uit van de stelling dat je ‘nooit kunt bewijzen dat iets niet bestaat’. De Schotse filosoof David Hume beschreef dit uitgangspunt in zijn Philosophy of Science.1 Wanneer de vraag wordt gesteld of de eenhoorn bestaat, is het aan degene die beweert dat de eenhoorn wèl bestaat om het bewijs te leveren en dus niet aan degene die dat ontkent. Bij wetenschappelijke bewijsvoering, hypothesetoetsing, volgt men in feite dezelfde gedachtegang.

Uitwerking

Stel, we hebben een onderzoek waaruit blijkt dat middel A effectiever is dan middel B, dan zijn hiervoor in principe drie verklaringen:

  • Het klopt, middel A is inderdaad effectiever dan middel B.
  • Er zijn fouten gemaakt in opzet en uitvoering, er is dus bias.
  • Het gevonden verschil is toeval, en in werkelijkheid niet aanwezig.

We moeten dus eerst nauwkeurig het onderzoek nalopen of er geen fouten zijn gemaakt. Indien er reeds fouten worden ontdekt in het onderzoek kunnen we het artikel terzijde leggen. Indien blijkt dat het een goed onderzoek is, gaan we kijken of het gevonden verschil op toeval berust. Dit wordt gedaan door er een geschikte statistische toets op los te laten.2
Dit gaat als volgt: we stellen een nulhypothese (H0) en een alternatieve hypothese (Ha) op. De nulhypothese luidt: er is geen verschil tussen middel A en middel B. De alternatieve hypothese luidt dat er wèl een verschil is tussen de twee middelen. Pas nadat we er in zijn geslaagd aan te tonen dat de (H0 met grote waarschijnlijkheid) kan worden verworpen, mogen we zeggen dat het gevonden verschil wèl bestaat. De Hamag dan geaccepteerd worden. Met andere woorden, pas als we vinden dat de kans op toeval klein is, gaan we ervan uit dat het gevonden verschil ‘klopt’.
Deze waarschijnlijkheid (de probability) wordt uitgedrukt in een p-waarde. Vinden we bijvoorbeeld een p-waarde van 0,10 dan is er 10% kans dat we de nulhypothese (‘er is geen verschil’) ten onrechte verwerpen. We zouden nog 10% kans hebben dat dit toch op toeval berust. Is de p-waarde 0,30 dan is er zelfs 30% kans dat het gevonden verschil op toeval berust. Bij een p-waarde van 0,01 is er toch nog 1% kans dat het verschil op toeval berust. In het medisch onderzoek wordt doorgaans een p-waarde van 0,05 als afkappunt beschouwd. Is er dus een p-waarde kleiner dan 0,05, dan spreken we van ‘statistisch significant’. We accepteren dan nog altijd dat er een kans van ten hoogste 5% is dat het gevonden verschil op toeval berust.
Vinden we geen significant verschil (dus een kans groter dan 5% dat het toeval is) dan mogen we in feite alleen maar zeggen dat we de nulhypothese niet hebben kunnen verwerpen. We mogen echter niet zeggen dat de twee middelen gelijk zijn. Dit volgt nu eenmaal uit de stelling van David Hume. We kunnen immers nooit bewijzen dat de H0 correct is en, in dit geval, dat er geen verschil is!
Er is natuurlijk nog meer over p-waarden te zeggen. Bekend is bijvoorbeeld dat grote onderzoeken met veel deelnemers al snel significante uitkomsten opleveren. Ook bij onderzoeken waarbij veel data worden vergeleken is er altijd kans dat er bij een van de vele variabelen een significante uitkomst is. Voor deze laatste situatie is correctie mogelijk.
Een betrouwbaarheidsinterval is informatiever: die laat zien wat de range is waarbinnen de onderzochte grootheid zich bevindt. We gaan hier in een afzonderlijke bijdrage uitgebreider op in.
We zullen daarnaast ook altijd moeten kijken of het gevonden statistisch significante resultaat ook klinisch relevant is. Klinisch relevant is een verschil waarvan een clinicus vindt dat het uitmaakt voor zijn handelen. Wanneer een nieuw middel tegen hypertensie significant effectiever is dan het oude middel, maar het gevonden verschil in bloeddrukdaling maar 2 mm is, dan heeft dit nauwelijks enige klinische betekenis.

Betekenis

Statistische significantie is een maat om aan te geven of een gevonden verschil in een onderzoek met grote waarschijnlijkheid een werkelijk verschil betreft. Niet elk gevonden statistisch significant verschil is relevant voor het handelen.

Literatuur

  1. 1. Streiner DL. Unicorns do exist: a tutorial on ‘proving’ the null hypothesis. Can J Psychiatry 2003;48:756-61.
  2. 2. Davies HT, Crombie IK. What are confidence intervals and P-values? .