Een nieuw essay van Elizabeth Tipton, Christopher Bryan en David Yeager beschrijft een paradigmaverschuiving binnen de sociale wetenschappen die op gang aan het komen is en die zij de heterogeniteitsrevolutie noemen.
De replicatiecrisis in de sociale wetenschappen
De psychologie en andere sociale wetenschappen zijn gedurende de afgelopen decennia op zoek geweest naar inzichten en interventies die bruikbaar zijn om beleid op te baseren en om allerlei maatschappelijke problemen op te helpen lossen. De geloofwaardigheid van de sociale wetenschappen heeft de laatste 10 jaar echter een behoorlijke deuk opgelopen door de zogenaamde replicatiecrisis.
Het woord ‘replicatiecrisis’ verwijst naar het verschijnsel dat vele effecten die aanvankelijk in onderzoeken werden gevonden later niet of in geringere mate opnieuw werden gevonden in replicatieonderzoeken waarbij gebruik gemaakt werd van vaak veel grotere steekproeven.
Deze schijnbare slechte repliceerbaarheid van effecten werd binnen de sociale wetenschap over het algemeen gezien als een groot probleem omdat van veel effecten die eerder waren gerapporteerd nu werd betwijfeld of ze wel echt bestonden en of ze dus wel relevant waren. De gebrekkige repliceerbaarheid werd zowel geweten aan gebrekkige onderzoekspraktijken en als aan bewuste manipulatie door onderzoekers en instituten.
Paradigmaverandering: heterogeniteit
Tipton et al. stellen dat deze focus op de vraag of de effecten wel echt zijn, een veel te beperkte is en afleidt van veel belangrijkere vragen. Ze pleiten voor een paradigmaverandering in sociaal wetenschappelijk onderzoek en stellen dat deze al begonnen is. Deze verandering draait om het belang van heterogeniteit van behandelingseffecten.
Ze leggen uit dat interventies zelden voor iedereen en in alle omstandigheden werken. Het is dus in het algemeen weinig zinvol om een interventie bij een willekeurige groep af te nemen en kijken of hij werkt. Ook is weinig zinvol om een interventie bij een gigantische steekproef af te nemen en te kijken naar het gemiddelde effect van de interventie. De auteurs leggen dit uit aan de hand van het onderstaande plaatje.
In de vier plaatjes is een puntenwolk getekend waarbij iedere punt één persoon voorstelt. De Y-as geeft de sterkte van het effect weer, de X-as geeft een moderator weer. Een moderator is een variabele die de sterkte van het effect beïnvloedt. Deze variabele kan te maken hebben met iets in de persoon, iets in de situatie of iets in de manier waarop de interventie is toegepast.
Vier scenario’s
In plaatje A zie je dat het oorspronkelijke experiment een aanzienlijk gemiddelde effect heeft getoond. In plaatje B zie je dat gewerkt is met een grotere steekproef en dat het gevonden gemiddelde effect minder groot is. Plaatje C werkt ook met een grotere steekproef bestaande uit andere soorten proefpersonen en vindt gemiddeld zelfs helemaal geen effect. Plaatje D gebruikt een steekproef die representatief is voor de hele populatie en vindt slechts een zeer klein gemiddeld effect.
Denkend op de traditionele manier zouden onderzoekers zeggen dat het oorspronkelijk gevonden effect blijkbaar geen waar effect is en niet relevant is voor de praktijk (dit zeggen bijvoorbeeld Sisk et al., 2018 over een groeimindsetinterventie op grond van twee meta-analyses die zij uitvoerden).
Maar denkend vanuit het heterogeniteitsparadigma kom je tot een andere en realistischere kijk. De verschillen in effectgrootte hebben te maken met de moderator. Voor een deel van de individuen werkt de interventie heel goed, voor ander deel werkt hij niet. Of: in een bepaalde context werkt de interventie goed, in een andere niet. Of: op een bepaalde manier uitgevoerd werkt hij goed, op een andere manier niet.
Reflectie
We moeten het als normaal gaan zien dat interventies in het algemeen niet voor iedereen en alle situaties bestemd zijn. Het is in veel gevallen niet redelijk om te denken dat iedereen zou moeten profiteren van een psychologische interventie. Zo gek is dit eigenlijk niet. We denken toch ook niet dat het goed zou zijn als vanaf nu iedereen een bloeddrukverlagend medicijn gaat slikken?
Een voorbeeld van een onderzoek dat recht doet aan de inzichten van het heterogeniteitsdenken is de NSLM-studie. Deze studie vond een overall effect voor groeimindsetinterventies. Maar interessanter is dat de studie grotere effecten vond voor specifieke groepen leerlingen en specifieke contexten. Gewapend met dit soort kennis kunnen specifieke groepen individuen de interventies ontvangen en kan gewerkt worden aan het veranderen van contexten wanneer deze de effectiviteit van interventies belemmeren.
We moeten af van het denken dat gefaalde replicaties perse wijzen op incompetentie of oneerlijkheid van onderzoekers of instituten. We moeten af van het focussen op echte (gemiddelde) effecten en het maar zo groot mogelijk maken van steekproeven. Er moet veel meer nadruk komen te liggen op het ontdekken van relevante moderatoren. Dat wil zeggen: welke variabelen binnen de persoon, de context en de interventie bepalen de effectiviteit?
Om tegemoet te komen aan de eisen van het nieuwe paradigma moet sociale wetenschap meer een teamgerichte activiteit worden. Onderzoek zal ongetwijfeld moeilijker en grootschaliger worden (zie de NSLM-studie). Maar dat dit uitdagend is betekent niet dat het niet kan. De sociale wetenschap kan zich wat dit betreft laten inspireren door natuurkundigen die de handen ineengeslagen hebben om de deeltjesversneller in CERN te bouwen.
Open link
► Volgens Tipton & Mamakos (2023) moeten we gerandomiseerde experimenten zo ontwerpen dat ze de verschillen in reacties van individuen op behandelingen kunnen voorspellen, niet alleen het gemiddelde effect. De huidige manier waarop we onderzoeksresultaten gebruiken voor het adviseren van beleid voor de hele bevolking mist precisie. De auteurs benadrukken het belang van zorgvuldige deelnemersselectie en het gebruik van de juiste statistische methoden om voorspellingen te verbeteren. Ze waarschuwen dat als de deelnemers aan een onderzoek niet representatief zijn voor de bredere bevolking, dit kan leiden tot onnauwkeurige aanbevelingen. Het artikel onderzoekt verder wanneer een gemiddelde benadering volstaat en wanneer een meer gepersonaliseerde voorspelling vereist is. Het pleidooi is cruciaal om beleid te ontwikkelen dat beter aansluit op individuele behoeften, wat leidt tot effectievere en gerichtere toepassingen van onderzoeksresultaten.
Open link
► Dit onderzoek (Holzmeister et al., 2023) richt zich op het bestuderen van heterogeniteit (verscheidenheid) in de resultaten van sociale wetenschappen. Heterogeniteit verwijst naar variaties die ontstaan door verschillende keuzes in steekproeven, onderzoeksopzetten en analysetrajecten. Deze variaties leiden tot een extra laag van onzekerheid in resultaten die niet wordt meegenomen in standaard foutmarges en betrouwbaarheidsintervallen. De onderzoekers verdelen heterogeniteit in drie soorten: populatieheterogeniteit (verschillen binnen de onderzoekspopulatie), ontwerpheterogeniteit (verschillen in onderzoeksopzet) en analytische heterogeniteit (verschillen in analysemethoden).
Het team schatte de mate van heterogeniteit in elk van deze soorten door middel van multi-lab replicatiestudies, prospectieve meta-analyses van studies met variërende experimentele ontwerpen, en multi-analist studies. Uit de resultaten blijkt dat populatieheterogeniteit over het algemeen klein is, terwijl ontwerp- en analytische heterogeniteit aanzienlijk zijn. Een voorzichtige interpretatie van deze bevindingen suggereert dat het meenemen van de onzekerheid door heterogeniteit de standaardfouten en betrouwbaarheidsintervallen van steekproeven ongeveer zou verdubbelen.
De relevantie van dit onderzoek ligt in de impact van deze vormen van heterogeniteit op statistische inferentie. Onvoldoende rekening houden met deze heterogeniteit kan leiden tot significant verhoogde kansen op onjuiste wetenschappelijke claims. Het onderzoek benadrukt dus het belang van het adequaat adresseren van heterogeniteit in de sociale wetenschappen om de betrouwbaarheid van onderzoeksresultaten te verhogen.