Noise: een onderschat probleem in menselijke oordeels-en besluitvorming (deel 1)Er is een spraakmakend nieuw boek verschenen van drie vooraanstaande sociaal wetenschappers: Daniel Kahneman, Olivier Sibony en Cass Sunstein: Noise: A Flaw in Human Judgment. Het boek gaat over noise (ruis) in de menselijke oordeelsvorming en besluitvorming.

De auteurs leggen uit dat ruis voorkomt in alle menselijke beslissingen, dat we de hoeveelheid ruis meestal sterk onderschatten, dat ruis zeer problematisch is en dat er iets aan te doen is. Hier is deel 1 van mijn bespreking van dit boek.

Trainingen Progressiegericht Werken

Error = bias + noise

Fouten in menselijke oordelen en beslissingen kunnen twee vormen hebben: bias en noise. Bias is een systematische afwijking van het juiste oordeel in een bepaalde richting. Noise betekent onsystematische variatie in oordelen. De auteurs leggen dit uit aan de hand van het voorbeeld van vier teams die naar een schietbaan gaan. Ieder team schiet vijf keer en het resultaat is hieronder weergegeven. Links zie je de resultaten op de schietschijf, rechts zie de resultaten als de schietschijf wegdenkt.

Bij team A is sprake van vrijwel geen error: de schoten zitten allemaal vrij netjes in de roos. Er is nauwelijks bias en nauwelijks noise. Bij team B is er vooral sprake van bias: de schoten zitten netjes bij elkaar maar wel uit de buurt van de roos. Misschien was de loop van het geweer scheef. Een volgende schot vanuit dit team zou vast weer ergens in die buurt terechtkomen. Bij team C is er vooral sprake van noise: er is geen systematische afwijking van de roos maar wel veel willekeurige afwijking. We hebben geen idee waar een volgend schot uit dit team terecht zou komen. Bij team D is er zowel sprake van vrij veel bias als van vrij veel noise.

Het plaatje rechts laat zien hoe de schoten verdeeld zijn zonder dat je weet waar de schietschijf zich bevond. Aan dit plaatje kun je niet zien in hoeverre er bij de teams sprake was van bias. Je weet namelijk niet waar de roos zich bevond. Je kunt niet zien of team A het beter deed of team B. Je kunt wel zien dat er bij team C en D sprake was van vrij veel noise.

Veel noise bij beslissingen over mensen

De auteurs leggen uit dat er bij beslissingen over mensen door mensen altijd een zekere mate van noise bestaat. Denk aan diagnoses door artsen, beslissingen over uitkeringen bij verzekeringen, uitspraken door rechters, beslissingen door casemanagers in de jeugdzorg, voorspellingen over de koersontwikkeling van aandelen door beleggingsadviseurs, beslissingen over het aannemen van sollicitanten, enzovoorts.

Bij al dit soort beslissingen is er momenteel vrij veel aandacht voor het probleem van bias. We beschouwen het bijvoorbeeld als onrechtvaardig wanneer mensen op niet-relevante kenmerken worden achtergesteld door rechters, de belastingdienst, etc. Het probleem van bias is niet opgelost maar het dat het bestaat en dat het een probleem is wordt onderkend.

Noise bij al dit soort beslissingen komt ook enorm veel voor maar dat dit zo is en dat het een probleem vormt is nauwelijks bekend. Noise is vaak onzichtbaar wanneer individuele beslissers afzonderlijke beslissingen nemen over mensen.

Noise kan zichtbaar gemaakt worden via zogenaamde noise audits. Een noise audit kun je je voorstellen als het voorleggen van een en de zelfde casus aan meerdere beslissers (selecteurs, rechters, dokters, etc.). Als mensen van tevoren inschatten hoeveel noise er in dit soort beslissingen zit, denken ze in de ordegrootte van ca. 10%. Onderzoeken laten zien dat de noise echter veelal veel hoger ligt (bijv. boven de 50%).

De onzichtbaarheid van noise in de alledaagse praktijk

Zowel beslissers als degenen waarover beslist wordt hebben meestal geen idee van hoeveel willekeur (noise) er zit in de beslissing die genomen wordt. Laten we eerst kijken naar oorzaken van noise. Bij zowel leken als experts vindt oordeelsvorming en besluitvorming vaak op een deel informele, klinische manier plaats. Je kijkt naar de informatie, je laat die op je inwerken en op een gegeven moment ontstaat er een beeld, een oordeel in je hoofd. Deze informele manier van oordeelsvorming is de bron van noise.

Wanneer we oordelen puur formeel, via een formule, zouden vormen zou er iedere keer hetzelfde uitkomen. Maar zo gauw we een element van informaliteit introduceren begint noise te ontstaan. Hoe informeler de beoordeling, hoe meer ruis. Deze noise doet zich op twee manieren voor: binnen de persoon (hij/zij zou op verschillende momenten tot verschillende oordelen komen) en tussen personen (hij/zij komt tot verschillende oordelen als zijn collega’s).

Laten we vervolgens kijken naar hoe het komt dat noise zo vaak onzichtbaar is. Hier zijn verschillende redenen voor. Bij experts is er vaak een vrij grote autonomie van werken. Je neemt een beslissing over een casus in je eentje en komt er zo niet achter dat een collega misschien tot een heel ander oordeel gekomen zou zijn. Bij noise audits blijkt er doorgaans sprake te zijn van een illusion of agreement, de illusie dat we het veel meer met elkaar eens zijn dan feitelijk het geval is. Die illusie wordt in de hand gewerkt door dat we wel dezelfde professionele taal spreken met elkaar en vanuit dezelfde algemene principes werken. De illusie blijft ook bestaan omdat we in het algemeen een conflict mijdende neiging hebben. Het is makkelijker om meningsverschillen uit de weg te gaan dan ze op te zoeken.

Daarnaast is het zo dat we als mensen een misplaatst sterk vertrouwen hebben in klinische oordelen. Dit is iets wat in de psychologie al decennialang bekend is (sinds het werk van Paul Meehl).

Ook de ‘ontvangers’ van oordelen en beslissingen zijn zich niet sterk bewust van de noise waar ze aan onderworpen worden. Een rechter neemt een beslissing over mijn casus. Hoe moet ik weten dat een collega-rechter misschien heel anders zou hebben geoordeeld?

Individuele verschillen zijn onvermijdelijk, fijn en soms nuttig

Dat mensen, ook experts, individueel van elkaar verschillen is niet erg. We hebben allemaal verschillende neigingen, smaken, voorkeuren, gewoontes, overtuigingen, etc. Dit soort diversiteit is onvermijdelijk, geeft kleur aan het leven en kan nuttig zijn. Wanneer we al dit soort verschillen integreren in onze beslissingen kunnen deze er zelfs veel beter van worden. dit raak aan het principe van wisdom of the crowd. Als je de oordelen van veel mensen integreert, middelen de fouten in die oordelen elkaar uit en de gemiddelde beslissing is vaak heel goed, soms beter dan die van experts.

Het probleem van noise bij beslissingen over mensen

Maar wanneer individuele verschillen de bron zijn van noise bij beslissingen door individuen over individuen wordt het problematisch. We beseffen het maar ten dele maar de systemen waar we aan blootstaan als burgers, patiënten, sollicitanten, klanten, enzovoorts, hebben meer het karakter van een loterij dan we ons realiseren. Systeemnoise ondergraaft de geloofwaardigheid van het systeem en daarmee het draagvlak voor het systeem.

Belangrijke systemen in onze maatschappij zoals de rechtspraak en het medische circuit, de manier waarop we behandeld worden door de belastingdienst, door politiemensen, en door allerlei andere mensen die oordelen over ons vellen en beslissingen over ons nemen vallen of staan met het draagvlak dat er voor ze is. Dat er in al dit soort systemen noise voorkomt is een probleem, een probleem waarvan we ons maar ten delen bewust zijn maar dat er wel is.

Formele beslismodellen

Een manier om noise te beperken is door te werken met systemen die gebaseerd zijn op beslisregels, algoritmes. De onderstaande figuur laat verschillende soorten van dit soort algoritmes zien van eenvoudig tot geavanceerd:

Helemaal links staan heel simpele beslismodellen die bijvoorbeeld maar een of twee stukken informatie meenemen in een beslissing. Iets rechts daarvan zie je lineaire modellen waarbij meerdere, soms vele, factoren ongewogen worden meegenomen. Daarnaast zie je lineaire regressiemodellen waarbij verschillende factoren een verschillend gewicht krijgen (op grond van onderzoek) bij het komen tot een oordeel.

Helemaal rechts zie je machine learning. Bij dit soort systemen is er sprake van neurale netwerken die getraind worden om bepaalde taken uit te voeren. Een toepassing hiervan zie je in Full Self Driving (FSD) van bijvoorbeeld Tesla. Hoewel het wantrouwen jegens dit soort systemen bij de meeste mensen nog groot is (denk aan Paul Meehl), presteren dit soort systemen nu al ordegroottes beter dan mensen. Ik denk dat, als steeds duidelijk zal worden hoeveel menslevens dergelijke systemen kunnen sparen, het onvermijdelijk zal zijn dat we toegaan naar FSD, gebaseerd op machine learning.

Dit is maar een voorbeeld. Op vele andere gebieden zullen we menselijke oordeelsvorming ook gaan formaliseren, onder andere omdat dit de legitimiteit van systemen zal ondersteunen. Dit soort systemen kan noise vergaand uitbannen. Natuurlijk zullen we ook sterk in de gaten moeten blijven houden dat in dit systemen niet tegelijk een ongewenste bias insluipt. Bij FSD zal dit rechttoe-rechtaan te doen zijn, bij beslissingen van bijvoorbeeld de belastingdienst moet dit nauwgezet gemonitord worden.

 

Lees deel 2

Wat vind je van dit artikel?
  • Interessant (10)
  • Bruikbaar (4)