Wetenschap

Stop met het onkritische gebruik van nulhypothesen

2 reacties
Gepubliceerd
10 september 2018
Conclusies op basis van medisch-wetenschappelijk onderzoek zijn dikwijls onjuist. Een belangrijke oorzaak is dat onderzoekers conclusies vaak trekken op basis van nulhypothesesignificantietoetsen (NHST). Veel artsen die hun praktijk afstemmen op wetenschappelijk onderzoek beseffen echter niet dat de zeggingskracht van de gebruikte p-waarden vaak beperkt is. Wij pleiten ervoor om te stoppen met het onkritische gebruik van NHST en het dichotome denken dat hieraan ten grondslag ligt. Onderzoekers zouden eigenlijk meer oog moeten hebben voor de grootte van verschillen en de (on)waarschijnlijkheid daarvan.
Statistiek
© iStock

De kern

  • De p-waarde uit een statistische toets geeft ons niet de kans dat de nulhypothese waar of onwaar is, terwijl we daar wel een conclusie over trekken.

  • De kans dat we terecht concluderen dat een bevinding ‘significant’ is, is vergelijkbaar met een voorspellende waarde van een positieve testuitslag: zonder informatie over de prevalentie zijn ze geen van beide uit te rekenen.

  • Het gebruik van nulhypothesesignificantietoetsen heeft ertoe geleid dat een deel van de conclusies uit onderzoek onjuist is.

  • Meer verantwoorde manieren van conclusies trekken vragen dat we onze dichotome manier van denken (wel of geen verschil) veranderen in een meer continue manier van denken (hoe waarschijnlijk is een bepaald verschil, hoe groot achten we dat verschil ongeveer en in welke mate zou het klinisch relevant kunnen zijn).

Ons onwankelbare geloof in p-waarden

Statistiek wordt door menig arts gezien als een noodzakelijk kwaad. In de geneeskundeopleiding is er relatief weinig aandacht voor statistiek vanwege de grote competitie met medisch-inhoudelijke vakken en het trainen van essentiële vaardigheden voor de praktijk. Het is dan ook niet verwonderlijk dat vele artsen al heel tevreden zijn wanneer ze een aantal basisprincipes in de praktijk kunnen toepassen. Dan is het vooral belangrijk om te kunnen concluderen dat bijvoorbeeld de effectiviteit van een behandeling bewezen is. Voor dat laatste is er een handige vuistregel: wanneer de p-waarde kleiner is dan 0,05 (p < 0,05), is aangetoond dat de behandeling inderdaad werkt.

De bedrieglijkheid van inverse gevolgtrekkingen

Wat velen waarschijnlijk niet meer weten is wat die p-waarde, de nulhypothese en de alternatieve hypothese precies betekenen.1 We gebruiken als voorbeeld het onderzoek van Bos en Buis uit het julinummer (2017) van dit tijdschrift, die automatische bloeddrukmeting gedurende 30 minuten (BD30) en conventionele spreekkamermetingen met elkaar hebben vergeleken.2 Daarnaast hebben ze onderzocht of het voor de grootte van het verschil tussen beide methoden uitmaakte tot welke subgroep de patiënten behoorden (leeftijd, geslacht, diabetes mellitus en hart- en vaatziekten). De alternatieve hypothesen in dit voorbeeld wijzen erop dat deze verschillen bestaan. De nulhypothese betreft het ontbreken van de verschillen. Een van de bevindingen die de onderzoekers rapporteerden was dat het verschil tussen BD30 en spreekkamermeting aanzienlijk groter was bij patiënten ≥ 70, dan in de groep jongere patiënten. Voor de diastolische bloeddruk rapporteerden de auteurs een gemiddeld verschil van 6,2 mmHg (p < 0,001). De betreffende p-waarde betekent dan dat als de nulhypothese juist is en we dit onderzoek oneindig vaak zouden herhalen, minder dan 0,1% daarvan 6,2 mmHg of een groter verschil zou laten zien.

De meeste huisartsen die over dit onderzoek lezen, zullen op basis ervan concluderen dat het verschil tussen beide methoden van bloeddrukmeting dus groter is bij patiënten ≥ 70. De (impliciete) redenering die we hierbij volgen is dat als de nulhypothese waar zou zijn, de kans op het gevonden resultaat of een extremer resultaat zo klein is, dat we de nulhypothese moeten verwerpen. Precies op dit punt gaan we de mist in. We trekken een conclusie over de nulhypothese (verschillen zijn niet afhankelijk van leeftijd) op basis van een voorwaardelijke kans op de gevonden onderzoeksgegevens of extremer (P(gevonden verschil of groter|H0)), terwijl we dus eigenlijk de kans dat de nulhypothese waar is zouden willen bepalen. Methodologen en statistici zijn al sinds nulhypothesesignificantietoetsen (NHST) bestaan bekend met dit probleem en het fenomeen heeft zelfs een officiële naam: de ‘bedrieglijkheid van inverse gevolgtrekkingen’.34 Dit besef is echter nog niet overal in de medische wetenschap doorgedrongen.

De consequenties

Misschien vraagt u zich af waarom we hier zo’n probleem van maken. Wanneer de resultaten van het onderzoek (of een extremere uitkomst) onwaarschijnlijk zijn als de nulhypothese juist is, dan is het toch logisch dat het onwaarschijnlijk is dat de nulhypothese klopt? En dus ook dat er in werkelijkheid wel een invloed van leeftijd is, ofwel dat ons vermoeden, de alternatieve hypothese, klopt? In de praktijk blijkt echter dat dit niet altijd opgaat. Toegepast op ons voorbeeld komt dat doordat de zeggingskracht van de p-waarde voor de conclusie mede afhangt van de voorafkans dat er werkelijk een verschil is wanneer we beide methoden van bloeddrukmeting vergelijken tussen patiënten ≥ 70 of jonger. Dit is te vergelijken met de voorspellende waarde van een positieve testuitslag in de diagnostiek, die sterk afhangt van de voorafkans op de ziekte (de prevalentie).5-7

Velen weten waarschijnlijk niet meer wat die p-waarde, de nulhypothese en de alternatieve hypothese precies betekenen

Neem het onderzoek van Schouten en Van de Putte in het afgelopen januarinummer (2018) van dit tijdschrift.8 Zij onderzochten de validiteit van SPUTOVAMO-R2, een checklist voor kindermishandeling. Ze hebben onder andere vergeleken met een melding bij Veilig Thuis. In [tabel1] staan in kruistabel A de gegevens zoals we die op basis van het artikel kunnen reconstrueren. De sensitiviteit is laag en de voorspellende waarde van een positieve testuitslag (VW+) ook. Wanneer de voorafkans (prevalentie) op kindermishandeling hoger is, zal de VW+ toenemen, ook al blijven sensitiviteit en specificiteit gelijk [tabel1, kruistabel B]. Hetzelfde gebeurt met conclusies op basis van NHST. De power en betrouwbaarheid van de toets (1-α) zijn vergelijkbaar met respectievelijk de sensitiviteit en specificiteit. De kans dat we bij een significant resultaat terecht zullen concluderen dat er een verschil is (in ons eerste voorbeeld tussen patiënten ≥ 70 of jonger) zal toenemen wanneer de voorafkans hierop groter is, oftewel wanneer we het vooraf waarschijnlijker achten dat dit verschil er echt is [tabel1, kruistabellen C en D]. Wanneer vooraf de kans klein geacht wordt (kruistabel C), dan is de VW+ rond de 0,5 – gelijk aan het opgooien van een muntje. Meestal hebben we bij onderzoek geen goed idee over wat de voorafkans op een werkelijk verschil is, en weten we in veel gevallen daarom niet wat de zeggingskracht van een p-waarde is. Als we op basis van die p-waarde dan wel een uitspraak doen over het verschil tussen beide bloeddrukmetingen, hebben we dus geen idee of die uitspraak klopt.

Verantwoorde conclusies trekken over onderzoeksgegevens

Op basis van het bovenstaande blijkt dat we decennialang massaal een methode hebben toegepast die ertoe leidt dat een deel van de conclusies over onderzoek niet juist is. Hoewel de tekortkomingen van NHST al vaak naar voren zijn gebracht,37911 is er in de praktijk niet veel veranderd.12 Er is nog weinig wetenschappelijk inzicht in de reden daarvan. Een van de vermoedelijke oorzaken is dat wetenschappers niet goed weten welke alternatieve methoden er zijn en ook de noodzaak niet voelen om zich hierin te verdiepen. Alternatieven zijn echter voorhanden en veel winst kan al gemaakt worden zonder dat daarvoor veel extra kennis of vaardigheden nodig zijn.

We hebben decennialang massaal een methode toegepast die ertoe leidt dat een deel van de conclusies over onderzoek niet juist is

Onzes inziens is de grootste winst te bereiken wanneer we onze dichotome manier van denken (wel een verschil of geen verschil) veranderen in een meer continue manier van denken (hoe waarschijnlijk is een bepaald verschil, hoe groot achten we dat verschil ongeveer en in welke mate zou het klinisch relevant kunnen zijn). Een belangrijke stok achter de deur voor onderzoekers hierbij is het beleid van een aantal tijdschriften om het woord ‘significant’ te vermijden.13 Dit vereist meer aandacht voor en interpretatie van beschrijvende gegevens.14 Aangevuld met betrouwbaarheidsintervallen geeft dit een indicatie van de precisie van de verschillen of effecten, mits er niet getoetst wordt op basis van de intervallen. In ons voorbeeldartikel van Bos en Buis wordt dit alles al deels gedaan door de puntschattingen en spreiding van de boven- en onderdruk van zowel de patiënten ≥ 70 jaar als die van < 70 jaar te geven. Ook benoemen de auteurs in de interpretatie van deze subgroepvergelijking de grootte van de verschillen. In het originele artikel in Family Practice tabelleren de auteurs ook de andere subgroepvergelijkingen en geven ze aan dat ze geen verschillen hebben gevonden (p > 0,15).15 Hier komen ze in de beschouwing of conclusie van het artikel helaas niet op terug. Dat maakt een betere interpretatie van de bevindingen niet mogelijk. De kruistabellen C en D van [tabel1] laten immers zien dat afhankelijk van de waarschijnlijkheid van echte verschillen tussen de subgroepen, de kans op werkelijke verschillen bij significantie (kruistabel C) of de kans op het ontbreken daarvan (kruistabel D) behoorlijk laag kan worden.

Ten slotte willen we niet onvermeld laten dat er ook andere statistische benaderingen zijn, waarvan bayesiaanse methoden het bekendst zijn. Bij bayesiaanse statistiek wordt de a priori verwachting geïncorporeerd in het statistische model. Grootschaliger gebruik van bayesiaanse methoden is onlangs mogelijk geworden dankzij gebruiksvriendelijke software (zie onder andere: https://jasp-stats.org/). Een ander recentelijk beschreven alternatief voor NHST is de a priori inferentiemethode.11 Deze lijkt op de welbekende sample size-berekening, maar heeft het voordeel dat achteraf geen toetsing meer nodig is. Een uitgebreidere inleiding in deze methoden is elders te vinden.1116

Tabel 1: Een illustratie van de overeenkomst tussen de voorspellende waarde van een positieve diagnostische testuitslag en de zeggingskracht van een p-waarde
A VT+ VT-   B VT+ VT-  
Checklist+ 9 99 VW+ = 0,01 Checklist+ 27 97 VW+ = 0,18
Checklist- 478 50085 VW- = 0,99 Checklist- 1434 49140 VW- = 0,97
  Sens = 0,02Prev = 0,01 Spec = 0,998     Sens = 0,02Prev = 0,03 Spec = 1,0  
C Voorafkans echt verschil Voorafkans geen verschil   D Voorafkans echt verschil Voorafkans geen verschil  
Significant 0,05 0,045 VW+ = 0,53 Significant 0,25 0,025 VW+ = 0,91
Niet-significant 0,05 0,905 VW- = 0,95 Niet-significant 0,25 0,475 VW- = 0,66
  Power = 0,5*Voorafkans = 0,1 Betrouwbaarheid = 0,95     Power = 0,5Voorafkans = 0,5 Betrouwbaarheid = 0,95  
De Boer MR, Van Grootel LE, Bouter LM. Stop met het onkritische gebruik van nulhypothesen. Huisarts Wet 2018;61:DOI:10.1007/s12445-018-0255-4.
Mogelijke belangenverstrengeling: niets aangegeven.

Literatuur

Reacties (2)

Godfried Saes 16 oktober 2018

 

Verkeerde gewoonten.

 

Dat ons intuïtieve brein niet goed is in statistiek is sinds het werk van Kahneman en Tversky al pijnlijk bekend.

Zo is het voor onze hersenen moeilijk onderscheid te maken tussen de kans op data gegeven een (nul) hypothese (p-waarde) en de kans op een hypothese gegeven de data (waar we eigenlijk naar op zoek zijn).

De omdraaiing maken we bijna automatisch en het vergt mentale inspanning om het verschil te zien.

Dat geldt niet alleen voor leken op het gebied van statistiek maar ook voor semi leken zoals artsen.

De auteurs laten aan de hand van een analogie met de invloed van prevalentie van een aandoening op de voorspellende waarde van een test fraai zien hoe de voorafkans van een hypothese van invloed is op de sterkte van die hypothese na nieuw bewijs (de data).

De auteurs doen in de titel van het stuk een oproep maar eigenlijk is het een hartenkreet.

Hoe kan het zijn dat er nog steeds op significantie en p-waarden wordt gejaagd terwijl we al decennia weten dat statistische significantie vaak niet meer is dan betekenisloze terminologie?

Het is zeker niet een gebrek aan kennis bij de experts, die waarschuwen ons al jaren, maar blijkbaar zijn er krachten aan het werk die een cultuuromslag tegenhouden.

Naast onvoldoende kennis bij artsen kan er ook sprake zijn van intellectuele gemakzucht.

Het is gemakkelijker door te gaan met een beproefde maar inadequate methode dan over te stappen op een totaal andere (Bayesiaanse) benadering.

Publicatiedruk voor academici zal zeker ook van invloed zijn.

En wat te denken van de rol van de redacties van medische tijdschriften?

Het is nu eenmaal aantrekkelijk om significante resultaten te publiceren.

Er is een ware p-waarde industrie ontstaan die zichzelf nog niet zo maar zal gaan opheffen.

Ondertussen zitten we met een hoop “significante” resultaten die niet alleen tot foutieve gevolgtrekkingen hebben geleid maar zeker ook tot verkeerde behandeladviezen en richtlijnen.

Dit is de ongemakkelijke waarheid van de medische literatuur.

Wat doen we met de hartenkreet? Een fundamenteel andere aanpak of gewoon maar zo doorgaan?

Ik hoop het eerste.

Overigens dacht ik dat er in  kruistabel C een klein foutje is geslopen: 0,905 zou 0,855 moeten zijn?

 

Godfried Saes

Michiel Bos 13 september 2018

Met belangstelling las ik het artikel “Stop met het onkritische gebruik van nulhypothesen.” Dit is een titel die mij uit het hart gegrepen is. Daarom vind ik het opmerkelijk dat ons artikel als voorbeeld wordt aangehaald. Dat komt denk ik doordat de auteurs niet scherp genoeg stellen wat nu precies het probleem is met die P-waarde. Met de P-waarde zelf is namelijk niks mis. Er zijn verschillende gebieden in de moderne epidemiologie waar de P-waarde een onmisbare rol vervult, zoals bijvoorbeeld bij genome-wide association studies. Ook de door de auteurs aangehaalde epidemiologische titanen als Greenland, Rothman en Ioannidis hebben bij mijn weten niks tegen de P-waarde op zich (Rothman heeft er zelfs persoonlijk een verfijndere methode voor ontwikkeld, de P-value function, zie www.krothman.org/episheet.xls). Waar het mis gaat, is dat de P-waarde vaak gebruikt wordt om  de werkelijkheid te dichotomiseren door er een statistische toets mee uit te voeren. Dan ontstaat er een probleem, omdat de afkapwaarde voor deze toets in de medische literatuur doorgaans volstrekt willekeurig op α=0.05 wordt gesteld, wat ten gevolge van de vaak lage a priori kans om een echte associatie te vinden leidt tot een stortvloed aan vals-positieve bevindingen. 

Waar in ons artikel de P-waarde voor wordt gebruikt is om aan te geven hoe groot de statistische interactie tussen meetmethode, leeftijd, geslacht en medische voorgeschiedenis is. De omvang van statistische interactie is moeilijk eenduidig met een puntschatting en betrouwbaarheidsinterval te beschrijven, daarom hebben we in dit specifieke geval gekozen voor een P-waarde.  Wat we nadrukkelijk niet gedaan hebben, is een statistische toets uitvoeren met deze P-waarde (de vraag wat het te hanteren afkappunt voor deze toets in onze studie zou moeten zijn wordt nog extra bemoeilijkt doordat er, aangezien we naar verschillende indelingen in subgroepen hebben gekeken, ook nog sprake zou zijn van multiple testing). Dus volgens mij bezondigen wij ons niet aan het uitvoeren van een door De Boer, Van Grootel en Bouter terecht verfoeide nulhypothesesignificantietoets.

Ik ben het niet eens met de auteurs dat er nooit meer een P-waarde vermeld mag worden in de medische literatuur. Waar zij stellen dat er nooit meer een nulhypothesesignificantietoets mag worden uitgevoerd, schud ik ze de hand en begroet ik ze als strijdmakkers.

Met vriendelijke groet,

Mede namens Sylvia Buis,

Michiel Bos