In veel discussies rond de corona-epidemie wordt op botte wijze
misbruik gemaakt van de statistiek. Die botte statistische blunders
zijn meestal nog wel vrij gemakkelijk te ontzenuwen. Anders wordt het
wanneer iemand met enige statistische vaardigheden de publieke opinie
bespeelt. Juist die statistische vaardigheden kunnen dan leiden tot meer
subtiele vormen van al dan niet bewuste misleiding.
Ik zal hieronder één van de gevaren van het onjuist gebruik van de
statistiek belichten aan de hand van een relatief onschuldig voorbeeld.
Ik laat het aan u als lezer om dat onjuiste gebruik ook te ontdekken in
beladen discussies, bijvoorbeeld rond corona.
Hypothetisch onderzoek
Als voorbeeld neem ik een
hypothetisch onderzoek op het
Imaginary-college
naar het verband tussen de tijdsinvestering van de leerling tijdens de
voorbereiding van een toets voor wiskunde-E en het behaalde cijfer voor
die toets. Alleen de uren aan zelfstandige voorbereiding van de leerling
in de laatste dagen voor de toets nemen we in dit voorbeeld mee. Verderop
in mijn bijdrage vertel ik u hoe ik aan de hypothetische data ben gekomen.
Loont leren?
Vooral als sprake is van drukke toetsweken maken docenten zich soms
zorgen over de tijdsinvestering van hun pupillen voor hun vak. Het
zou mooi zijn als je als docent de leerlingen met data om de oren zou
kunnen slaan om ze aan te sporen om voldoende tijd in hun voorbereiding
te steken. De sectie wiskunde van het
Imaginary-college heeft
daarom na het laatste schoolexamen wiskunde-E aan alle leerlingen gevraagd
hoeveel tijd zij hebben besteed aan de voorbereiding, afgerond op eenheden
van 10 minuten. Toen het schoolexamen was nagekeken, kon er een mooi
spreidingsdiagram gemaakt worden van het verband tussen tijdsinvestering
en score. Dat zag er als volgt uit:
|
Diagram 1 |
|
Dit beeld was voor de sectie nogal teleurstellend. Hoewel de
correlatie niet erg sterk is, is deze ontegenzeggelijk
negatief. Het lijkt er dus op dat hoe harder je leert voor een toets,
hoe lager het cijfer is dat je gaat halen. Als je inzoomt op de uitersten,
en dat gebeurt in discussies vaak, wordt het beeld alleen maar erger. De
leerlingen die het minst hebben gestudeerd, scoren allemaal bovengemiddeld
terwijl de leerlingen die het hardst hebben gewerkt allemaal veel
lager scoren. Deze grafiek lijkt koren op de molen van leerlingen die
beweren dat het geen zin heeft om hard voor een toets te werken. Als
docent kun je deze puntenwolk misschien maar beter verborgen houden...
Verstorende variabelen
De wiskundedocenten van het
Imaginary-college waren echter
niet voor één gat te vangen en hadden al snel een verklaring gevonden.
Sterke leerlingen hebben niet veel voorbereiding nodig om een goed
cijfer te halen terwijl zwakke leerlingen ondanks hun harde werken
vaak wat lager scoren. Er is in dit onderzoek sprake van één
of meer verstorende variabelen waarvoor de gegevens zouden moeten
worden gecorrigeerd. Je moet alleen vergelijkbare leerlingen met
elkaar vergelijken, dus sterke leerlingen met sterke leerlingen en
zwakkere leerlingen met zwakkere leerlingen. Maar hoe doe je dat?
Model
Dit is het moment om te verklappen wat de de achtergrond is van de
data op basis waarvan diagram 1 is gemaakt. De data die ik in dit voorbeeld
gebruik, zijn gegenereerd met behulp van een eenvoudig computermodel dat
ik heb gemaakt. In dat model laat ik het
basisniveau van de leerling
een rol spelen. Dat basisniveau bepaalt voor het grootste deel het cijfer
van de leerling wanneer deze de toets 'onvoorbereid' maakt. Dat basisniveau
heeft in mijn model een negatieve invloed op de motivatie om de toets
langdurig voor te bereiden. Bij die motivatie spelen ook andere
factoren een rol: het resultaat van de toets wordt in mijn model bepaald
door het basisniveau, de geïnvesteerde tijd en een beetje door het toeval.
Bij de geïnvesteerde tijd werkt mijn model met een afnemende meeropbrengst.
Immers, twee uur studeren in plaats van één uur levert meer op dan vier
uur studeren in plaats van drie uur.
In mijn model heb ik vier verschillende basisniveaus verwerkt. Wanneer
we nu de leerlingen met hetzelfde basisniveau apart bekijken, dan ziet
het plaatje er ineens heel anders uit:
|
Diagram 2 |
|
Paradox van Simpson
Bij alle groepen blijkt dat nu sprake is van een niet erg sterk maar
wel duidelijk positief verband tussen tijdsinvestering en
resultaat. De presentatie komt nu goed overeen met de inrichting van
mijn model.
Wat u hier ziet, is een mooi voorbeeld van de bekende
paradox van
Simpson. Die paradox beschrijft hoe een correlatie er plotseling
heel anders uit kan zien wanneer je verschillende subgroepen samenvoegt
tot één grote groep. De
paradox van Simpson is vaker aan de orde
gekomen in de Wiskund
E-brief, onder andere in
WiskundE-brief 877 en
WiskundE-brief 778.
Zie
ook Wikipedia voor een korte beschrijving van deze paradox.
Als de docenten van het
Imaginary-college over voldoende kennis
over hun leerlingen zouden beschikken, dan zouden ze een mooi plaatje als
diagram 2 kunnen maken. Maar vaak ontbreekt die kennis en dan kan de
verleiding groot zijn om, denkend aan de paradox van Simpson, te
experimenteren met diverse hergroeperingen totdat het gewenste beeld
ontstaat.
Hieronder heb ik zo'n experiment uitgevoerd. Ik slaagde er zonder veel
problemen in om twee deelgroepen uit de puntenwolk van diagram 1 te vissen,
zodanig dat er voor elke groep een duidelijke positieve correlatie te zien
is.
|
Diagram 3 |
|
Fraude
Met wat meer moeite zou ik door experimenteren wellicht ook vrij gemakkelijk
een plaatje kunnen produceren dat minstens even overtuigend is als diagram 2.
Dat neemt niet weg dat er hier sprake is van regelrechte fraude. De
correlaties zijn duidelijk maar zijn ontstaan door blinde manipulatie
van de data met als enig doel het redden van een theorie die toevallig van pas komt.
In de bovenstaande, fictieve casus zou je nog kunnen betogen dat de
aanpak weliswaar niet deugt maar dat de conclusies globaal wel kloppen
met de door mijn model gegenereerde data. Maar wat gebeurt er wanneer ik
mijn model zodanig verander dat de voorbereidingstijd ook écht een
negatieve invloed op het cijfer heeft? Ik deed dat voor het onderstaande
overzicht, dat de resultaten weergeeft van een schoolexamen van een vak
dat we even 'Algemene vaardigheden' zullen noemen.
|
Diagram 4 |
|
Let op: er is in dit geval geen sprake van subgroepen; mijn model zorgde
er voor dat de voorbereidingstijd ook daadwerkelijk een negatieve invloed
op het resultaat had. Ook hier is het niet zo moeilijk om deelgroepen met
een positieve correlatie te voorschijn te toveren:
|
Diagram 5 |
|
Met een beetje 'mooipraterij' zou je deze presentatie nog een heel klein
beetje plausibel kunnen maken. De twee groepen leerlingen zijn op basis van
'leergemak' gescheiden; de groep linksboven is de groep die het
gemakkelijkst leert en de groep rechtsonder is de groep die het moeilijkst
leert. Er valt echter niet te ontkennen dat deze aanpak ingegeven is door
het gewenste resultaat. Op deze manier kun je namelijk iedere puntenwolk
in twee aparte 'wolken' opdelen die elk een positieve correlatie laten
zien.
Confirmation bias
Het is erg gemakkelijk om met een beetje statistische kennis data zo te
manipuleren dat de eigen standpunten worden ondersteund. Verder is het
ook niet moeilijk om in het veld onderzoek te vinden dat de eigen standpunten
ondersteunt. De bereidheid om standpunten aan te passen aan onderzoeken
die daarmee in strijd zijn, is niet altijd groot.
Het verschijnsel dat men de neiging heeft om alleen de signalen op te
pikken die de eigen standpunten ondersteunen en die weer met anderen te
delen, noemt men
confirmation bias. Die
confirmation bias
heeft vaak een zeer storende en soms zelfs schadelijke invloed op een
maatschappelijke discussie. Tijdens deze coronatijden liggen voorbeelden
hiervan voor het oprapen.
Averechts
Waar overschrijd je de grens? Waar eindigt de gedegen analyse en krijgt
de vooringenomenheid de gedreven onderzoeker in handen? Op welk moment
veranderen statistische technieken in dubieuze praktijken?
Het zal duidelijk zijn dat het bezitten van statistische vaardigheden
niet voldoende is en vaak zelfs averechts kan werken. Ik ben van mening
dat de statistiek weliswaar onmisbare instrumenten biedt maar dat een gedegen
inhoudelijke achtergrondkennis van het onderzochte gebied het belangrijkst
blijft.
gk