Charles Seife in ‘Wetenschappelijk onkruid’ 

Statistische significantie

Is als concept een zegen voor iedereen die middelmatig, goedgelovig, oneerlijk of gewoonweg incompetent is.

*) Charles Seife is hoogleraar journalistiek aan de New York University; voorheen journalist bij Science; auteur van Virtual Unreality. Dit artikel komt uit de bundel ‘Wetenschappelijk onkruid – 179 hardnbekkige ideeën die vooruitgang blokkeren’ van Maven Publishing, een even vermakelijke en inspirerende als discutabele verzameling van wetenschappelijke ideeën en gewoonten die belangrijke denkers naar de prullenbak verwijzen. Het is een vertaling van This Idea Must Die van Edge.org

Seife:
Statistische significantie is een zegen voor iedereen die middelmatig, goedgelovig, oneerlijk of gewoonweg incompetent is. Dit concept verandert een betekenisloos resultaat plotsklaps in een publiceerbaar geheel en tovert een grote verspilling van tijd en moeite om in de ruwe brandstof voor een wetenschappelijke carrière.

Het is ooit ontworpen om onderzoekers te helpen onderscheid te maken tussen een werkelijk effect en een statistische toevalstreffer, maar is nu verworden tot een kwantitatieve rechtvaardiging om klinkklare nonsens een jasje van respectabiliteit aan te trekken. En het is de op een na voornaamste reden waarom het merendeel van de wetenschappelijke en medische artikelen het papier waarop ze zijn geschreven niet waard zijn.

Wanneer zij correct wordt gebruikt, is statistische significantie een parameter waarmee grillige toevalligheden worden uitgesloten – niets meer en niets minder. Stel, je doet onderzoek naar de werkzaamheid van een geneesmiddel. Zelfs als de chemische verbinding volkomen inert is, is er toch een flinke kans (van wel zo’n 50 procent) dat patiënten beter op jouw geneesmiddel reageren dan op een placebo. Door pure willekeur kan aan jouw geneesmiddel een schijnbare werkzaamheid worden toegekend. Maar hoe duidelijker het verschil tussen geneesmiddel en placebo is, des te kleiner is de kans dat pure willekeur hiervoor verantwoordelijk is. Een resultaat is ‘statistisch significant’ als het een arbitraire drempel heeft overschreden. In de meeste sociaal- wetenschappelijke vakbladen en de medische literatuur wordt een waarneming gewoonlijk pas als statistisch significant beschouwd wanneer de kans dat pure willekeur verantwoordelijk is voor het effect dat je ziet, kleiner is dan 5 procent. In de natuurkunde ligt de drempel meestal lager, vaak op 0,3 procent (drie sigma) of zelfs 0,00003 procent (vijf sigma). Maar het wezenlijke principe is hetzelfde: als je uitkomst opvallend genoeg is om de drempel te overschrijden, ontvangt die een gewichtig etiket: ‘statistisch significant’.

Vaak incorrect gebruik

Deze term wordt echter meestal niet correct gebruikt. Pak er een typisch wetenschappelijk artikel bij uit de peer reviewed (intercollegiaal getoetste) vakliteratuur en je ziet dat er nooit slechts één enkele waarneming op statistische significantie is getest, maar dat het altijd gaat om diverse, of tientallen, of zelfs honderd of meer. Een onderzoeker die geïnteresseerd is in een pijnstiller voor artritispatiënten wendt zich tot de gegevens om antwoord te krijgen op de ene vraag na de andere: helpt het geneesmiddel tegen de pijn van de patiënt? Helpt het bij een patiënt met kniepijn? Met rugpijn? Met elleboogpijn? Met ernstige pijn? Met matige pijn? Met matige tot ernstige pijn? Helpt het een patiënt met zijn bewegingsbereik? Met zijn kwaliteit van leven?

Deze vragen worden stuk voor stuk getest op statistische significantie en meestal afgewogen tegen de 5-procentregel die de standaard is in de farmaceutische industrie. Dat wil zeggen: er is een kans van 5 procent – 1 op 20 – dat een waardeloos geneesmiddel puur door willekeur werkzaam lijkt te zijn. Maar laat er tien vragen op los en er is een kans van 40 procent dat willekeur je inderdaad misleidt bij het beantwoorden van een of meer van deze vragen. En in een doorsnee wetenschappelijk artikel worden meer dan tien vragen gesteld, vaak nog veel meer. Het is mogelijk om dit probleem met ‘meervoudige vergelijkingen’ op wiskundige wijze te corrigeren (hoewel dat niet de norm is). Ook is het mogelijk om dit effect te bestrijden door slechts één hoofdvraag te stellen (hoewel dergelijke ‘primaire resultaten’ in de praktijk nog verrassend plooibaar zijn). Maar zelfs na toepassing van deze correcties kan er vaak geen rekening worden gehouden met de talloze effecten die de berekeningen van een onderzoeker kunnen ondermijnen – zoals het effect van subtiele veranderingen in dataclassificatie op resultaten. (Is ‘ernstige pijn’ 7 of hoger op een tiencijferige schaal, of is het 8 of hoger?) Soms worden deze zaken over het hoofd gezien; soms worden ze bewust genegeerd of zelfs gemanipuleerd.

Hoe dan ook nietszeggend

Als de statistische significantie correct wordt berekend, is dat gegeven in het gunstigste geval nogal nietszeggend. Natuurlijk, de kans dat puur toeval verantwoordelijk is voor je observatie, is (relatief) klein. Maar het zegt niets over de vraag of het protocol wel correct van opzet was, of het apparaat wel goed geijkt was, of er defecten zaten in de programmeertaal, of de onderzoeker de gegevens wel goed had geblindeerd om bias (vooroordeel) te voorkomen, of de wetenschappers wel grondig inzicht hadden in alle mogelijke bronnen van valse signalen, of het gebruikte glaswerk wel afdoende was gesteriliseerd, enzovoort. Wanneer een experiment mislukt, is de kans groot dat dit niet het gevolg is van willekeur – van statistisch toeval – maar van een ouderwetse blunder ergens in het proces.
Toen wetenschappers bij CERN beweerden dat ze hadden waargenomendat neutrino’s zich sneller dan het licht voortbewogen, kon zelfs een statistische significantie van niveau zes sigma (en een grondige foutencontrole) slimme wetenschappers er niet van overtuigen dat het CERN-team ergens de fout in was gegaan. De uitkomst botste niet alleen met natuurkundige wetten, maar ook met waarnemingen van neutrino’s afkomstig uit explosies van supernova’s. En jawel, een paar maanden later kwam de (subtiele) blunder uiteindelijk aan het licht, en daarmee werd de conclusie van het team tenietgedaan.
Blunders komen verrassend vaak voor in de wetenschap. Kijk bijvoorbeeld naar het werk van de Amerikaanse Food and Drug Administration, die jaarlijks enkele honderden klinische laboratoria inspecteert. Bij zo’n 5 procent van de inspecties luidt het oordeel dat er in het laboratorium sprake is van ‘significante bezwaarlijke omstandigheden en praktijken’, die zo schandalig zijn dat de resultaten van dat lab als onbetrouwbaar worden beschouwd. Vaak zijn deze praktijken gevallen van regelrechte fraude. Dat zijn nog maar de overduidelijke problemen die een inspecteur al snel opspoort; je zou je kunnen voorstellen dat het ware aantal blunders in het lab tweemaal of driemaal of vijfmaal zo hoog ligt. Welke waarde heeft het om iets statistisch significant te noemen op het niveau van 5 procent of 0,3 procent of zelfs 0,00003 procent als er een kans van 10 procent of 25 procent (of meer) is dat de data ernstig zijn ondermijnd door een laboratoriumfout? Zelfs de meest waterdichte bevindingen met statistische validiteit verliezen hun betekenis als ze in het niet vallen bij schrikbarende fouten. Of, nog erger, fraude.
Onjuiste publicaties
Toch wordt er, ondanks waarschuwingen van statistici, maar al te vaak gekozen voor een pasklare bevinding van statistische significantie als snelle oplossing om te beslissen of een observatie geloofwaardig is of niet, of een bevinding ‘publiceerbaar’ is of niet. Daardoor wemelt het in de peer reviewed literatuur van de statistisch significante bevindingen die niet-reproduceerbaar en onaannemelijk zijn – absurde observaties met een effectgrootte die hoger ligt dan wat ook maar marginaal geloofwaardig is.
Het concept ‘statistische significantie’ is een kwantitatieve steunpilaar geworden voor het in wezen kwalitatieve proces van beoordelen of je een onderzoek al dan niet serieus kunt nemen. De wetenschap kan er maar beter van verlost zijn.

Reageer op dit artikel:

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Anti-spam image

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Anti-spam image

Uw e-mail adres wordt niet gepubliceerd en niet aan derden verstrekt.

Omgangsvormen