Perfectie is in de empirische wetenschappen zeldzaam. De realiteit doet zich aan ons voor als een empirische bak modder, een verzameling statistische regelmatigheden die soms wel en soms niet te repliceren zijn, waarbij het vooraf zelden mogelijk is om aan te geven of een resultaat wel of niet robuust zal blijken. In bijna alle vakgebieden maakt het uit hoe de onderzoekspopulatie precies is gedefinieerd, in welk tijdvak de data verzameld worden, welke meetinstrumenten worden gebruikt, en hoe experimentele manipulaties precies worden ingezet. Wetmatigheden die robuust zijn ten opzichte van dit soort keuzes zijn veel zeldzamer dan de meeste mensen denken, en dan zijn de relaties die we kunnen vaststellen doorgaans ook nog statistisch van aard, zodat op iedere regel een onbepaald aantal uitzonderingen mogelijk is.
De menselijke geest houdt niet van dat soort onduidelijkheid. Al is in vrijwel ieder modern empirisch artikel de bewijsvoering statistisch van aard, en ook al zijn de bestudeerde verbanden tussen variabelen doorgaans zwak – de mens blijkt altijd weer in staat daar een prachtig deterministisch wereldbeeld van te knutselen. Blijkt uit de resultatensectie van een artikel dat antidepressiva 3% van de variantie in symptomen verklaren (en dus 97% van de variantie onverklaard laten), dan lezen we toch vaak in de discussie gewoon dat antidepressiva werken (want die 3% is immers significant). Voor je het weet heeft de menselijke geest een weer een zwak statistisch verband getransformeerd tot een deterministische wet. Het is de aard van het beestje.
Hoewel het vlees zwak is, en bijna alle onderzoekers (ook methodologen) zich weleens vergrijpen aan dit soort simplificaties, weten we eigenlijk natuurlijk best dat we onszelf in zulke gevallen foppen. Als we er even voor gaan zitten, dan kunnen we allemaal zien hoe de vlag er werkelijk bij hangt, want tenzij er echt gefraudeerd is, is een nuchtere beschouwing van wetenschappelijke literatuur meestal wel mogelijk, en doorgaans ontluisterend. Het is misschien niet leuk, maar het is voor de geschoolde lezer dus best te doen om de ware les te leren die uit het meeste wetenschappelijk onderzoek volgt: we weten bijna niets zeker, de uitzonderingen op alle wetmatigheden zijn legio, en vrijwel alle onderzoeksvragen zijn maar zeer ten dele te beantwoorden met gecontroleerd wetenschappelijk onderzoek. Natuurlijk zijn er, hoe zeldzaam ook, empirische fenomenen die keihard zijn; roken veroorzaakt echt kanker, het Stroop-effect valt niet te ontkennen, de correlatie tussen angst en depressie is iedere populatie sterk positief. Maar veel vaker is het op de tast aanmodderen in een donkere kamer.
Dat is ook de echte boodschap van de replicatiecrisis die momenteel als een voortwoedende bosbrand door de wetenschappen raast. De psychologie was het eerste vakgebied dat systematisch aan het repliceren sloeg, met het inmiddels beroemde Reproducibility Project. Toen daarin 40% van de resultaten bleek te repliceren, kon je collega’s uit andere vakgebieden besmuikt horen lachen. Dat lachen begint iedereen nu wel te vergaan: uit de wandelgangen begrijp ik dat soortgelijke replicatieprojecten in andere vakgebieden die afgerond of onderweg zijn – van kankerbiologie tot informatica (ja, echt) – overeenkomstige en soms zelfs veel slechtere replicatiecijfers halen. Alleen natuurkundigen hoor je nog weleens roepen dat dit hun nóóit zou kunnen overkomen. En dat is natuurlijk deels zo, want de natuurkundigen repliceren resultaten van collega’s al voordat de inkt van hun artikelen droog is. Slimme jongens, die fysici.