Academische tijdschriften en de pers serveren regelmatig nieuwe porties fascinerende psychologische onderzoeksresultaten. Maar hoeveel van die experimenten zouden een tweede keer dezelfde resultaten opleveren?
gerelateerde inhoud
- Biomedische wetenschappen zijn schokkend moeilijk te reproduceren
- Studies met kortere titels worden vaker genoemd
- Waarom bestuderen zo weinig wetenschappers de oorzaken van pistoolgeweld
Volgens het werk dat vandaag in Science wordt gepresenteerd, kunnen minder dan de helft van 100 studies die in 2008 in drie toptijdschriften over psychologie zijn gepubliceerd, met succes worden gerepliceerd. De internationale inspanning omvatte 270 wetenschappers die de studies van anderen opnieuw hebben uitgevoerd als onderdeel van The Reproducibility Project: Psychology, onder leiding van Brian Nosek van de Universiteit van Virginia.
De eye-opening resultaten betekenen niet noodzakelijkerwijs dat die oorspronkelijke bevindingen onjuist waren of dat het wetenschappelijke proces gebrekkig is. Wanneer een studie een effect vindt dat een tweede studie niet kan repliceren, zijn er verschillende mogelijke redenen, zegt co-auteur Cody Christopherson van Southern Oregon University. Het resultaat van onderzoek A kan onjuist zijn, of de resultaten van onderzoek B kunnen onjuist zijn - of er kunnen enkele subtiele verschillen zijn in de manier waarop de twee onderzoeken zijn uitgevoerd die de resultaten hebben beïnvloed.
“Dit project is geen bewijs dat er iets kapot is. Het is eerder een voorbeeld van wetenschap die doet wat wetenschap doet ”, zegt Christopherson. “Het is onmogelijk om in de laatste zin van de wetenschap ongelijk te hebben. Je moet je tijdelijk vergissen, misschien vele keren, voordat je ooit gelijk hebt. '
Over de wetenschap heen wordt onderzoek als reproduceerbaar beschouwd wanneer een onafhankelijk team een gepubliceerd experiment kan uitvoeren, waarbij de oorspronkelijke methoden zo nauwkeurig mogelijk worden gevolgd, en dezelfde resultaten krijgen. Het is een belangrijk onderdeel van het proces voor het verzamelen van bewijs ter ondersteuning van theorieën. Zelfs vandaag, 100 jaar nadat Albert Einstein zijn algemene relativiteitstheorie presenteerde, herhalen wetenschappers regelmatig tests van zijn voorspellingen en zoeken ze naar gevallen waarin zijn beroemde beschrijving van de zwaartekracht niet van toepassing is.
"Wetenschappelijk bewijs is niet afhankelijk van het vertrouwen in de autoriteit van de persoon die de ontdekking heeft gedaan, " zei teamlid Angela Attwood, een professor in de psychologie aan de Universiteit van Bristol, in een verklaring: "Veeleer verzamelt geloofwaardigheid zich door onafhankelijke replicatie en uitwerking van de ideeën en bewijsmateriaal. "
Het Reproduceerbaarheidsproject, een community-gebaseerde crowdsourcing-inspanning, begon in 2011 om te testen hoe goed deze mate van geloofwaardigheid van toepassing is op recent onderzoek in de psychologie. Wetenschappers, sommige aangeworven en sommige vrijwilligers, bekeken een pool van onderzoeken en selecteerden een voor replicatie die overeenkwam met hun eigen interesse en expertise. Hun gegevens en resultaten werden online gedeeld en beoordeeld en geanalyseerd door andere deelnemende wetenschappers voor opname in het grote Science- onderzoek.
Om toekomstig onderzoek te helpen verbeteren, probeerde de projectanalyse te bepalen welke soorten onderzoeken het beste waren en waarom. Ze vonden dat verrassende resultaten het moeilijkst te reproduceren waren en dat de ervaring of expertise van de wetenschappers die de oorspronkelijke experimenten uitvoerden, weinig te maken hadden met succesvolle replicatie.
De bevindingen boden ook enige ondersteuning voor de vaak bekritiseerde statistische tool die bekend staat als de P- waarde, die meet of een resultaat significant of te wijten is aan toeval. Een hogere waarde betekent dat een resultaat hoogstwaarschijnlijk een toevalstreffer is, terwijl een lagere waarde betekent dat het resultaat statistisch significant is.
De projectanalyse toonde aan dat een lage P- waarde redelijk voorspellend was voor welke psychologiestudies konden worden gerepliceerd. Twintig van de 32 originele onderzoeken met een P- waarde van minder dan 0, 001 konden bijvoorbeeld worden gerepliceerd, terwijl slechts 2 van de 11 artikelen met een waarde groter dan 0, 04 met succes werden gerepliceerd.
Maar Christopherson vermoedt dat de meeste van zijn co-auteurs niet zouden willen dat de studie als een bevestiging van P- waarden wordt beschouwd, omdat ze de beperkingen van het hulpmiddel erkennen. En ten minste één P- waardeprobleem werd in het onderzoek benadrukt: de oorspronkelijke studies hadden relatief weinig variabiliteit in P- waarde, omdat de meeste tijdschriften een cutoff van 0, 05 voor publicatie hebben vastgesteld. Het probleem is dat waarde kan worden bereikt door selectief te zijn over gegevenssets, wat betekent dat wetenschappers die een resultaat willen repliceren, ook de methoden en gegevens die in het oorspronkelijke onderzoek zijn gebruikt, zorgvuldig moeten overwegen.
Het is ook nog niet duidelijk of psychologie een bijzonder moeilijk gebied voor reproduceerbaarheid kan zijn - er is momenteel een soortgelijke studie gaande over onderzoek naar kankerbiologie. In de tussentijd hoopt Christopherson dat de enorme inspanning meer dubbele controles en herzieningen van eerder onderzoek zal stimuleren om het wetenschappelijke proces te ondersteunen.
“Om het goed te doen, moet je eerdere aannames en eerdere resultaten regelmatig opnieuw bekijken en nieuwe manieren vinden om ze te testen. De enige manier waarop wetenschap succesvol en geloofwaardig is, is als ze zelfkritisch is, ”merkt hij op.
Helaas zijn er ontmoedigende factoren om dit soort onderzoek voort te zetten, zegt hij: “Om aangenomen en gepromoot te worden in de academische wereld, moet je origineel onderzoek publiceren, dus directe replicaties zijn zeldzamer. Ik hoop dat de universiteiten en financieringsinstanties die verantwoordelijk zijn voor het stimuleren van dit onderzoek - en de media die hen bestrijken - zullen beseffen dat ze deel uitmaken van het probleem en dat devaluerende replicatie op deze manier een minder stabiele literatuur heeft gecreëerd dan wij zou leuk vinden. '