De manier waarop het CvTE (College voor Toetsen en Examens) en het Cito
(Centraal Instituut voor Toetsontwikkeling) omgaan met erkende onvolkomenheden
in examenopgaven en het bijbehorend correctiemodel kan leiden tot paradoxale
en soms bizarre effecten.
Op woensdag 23 augustus 2017 diende voor de rechtbank te Utrecht een kort geding
over de normering van het Centraal Eindexamen Frans vwo, aangespannen tegen
het CvTE. Op maandag 28 augustus volgde de
uitspraak.
De zaak zelf lijkt op het eerste gezicht niet zo relevant voor het vak wiskunde.
Het verweer van CvTE/Cito maakt echter duidelijk dat leerlingen in veel gevallen
niet veel wijzer worden van het erkennen en herstellen van een fout, onvolkomenheid
of onduidelijkheid in of rond een opgave. En dat gegeven is voor de wiskunde-examens
uiteraard ook van belang.
Het feit dat eindexamenkandidaten met het herstellen van een fout in een examen of
correctievoorschrift vaak niet veel opschieten, heeft alles te maken met de door
CvTE/Cito gehanteerde systematiek om de examencijfers te bepalen.
Vast percentage onvoldoendes
Zoals onder andere in
WiskundE-brief 775 uiteengezet, gaat men er bij het CvTE/Cito in eerste
instantie uit van het adagium dat een examenlichting even 'vaardig' is als
voorgaande lichtingen. Met name geldt dat voor de lichting van het (geheim
gehouden) jaar van het 'referentie-examen'. Voor havo/vwo wiskunde bleek
deze hypothese de laatste jaren vaak niet houdbaar. Daarom werd op basis van
met name de 'pre-test' vaak gekozen voor een andere (hogere) normering. Maar ook in dat
geval ligt het percentage onvoldoendes op een gegeven moment vast. Dit
uitgangspunt van een vast percentage aan onvoldoendes kan leiden tot paradoxale,
en soms zelfs bizarre effecten.
Om de zaak zo eenvoudig mogelijk te houden, gebruik ik hieronder een
verzonnen casus waarbij 10 kandidaten (A t/m J) een toets van 9 vragen
hebben gemaakt waarbij vraag 9 achteraf minder geslaagd blijkt te zijn.
Voor die vraag zullen we later een correctie doorvoeren. Alle vragen
hebben een maximale score van 4 punten zodat de perfecte score 36 bedraagt.
Van te voren staat vast dat 30% van de kandidaten een onvoldoende zullen
krijgen.
Zonder correctie ziet het beeld er zo uit:
opgave: |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
totaal |
cijfer |
kandidaat I |
3 |
1 |
1 |
2 |
1 |
1 |
2 |
3 |
0 |
14 |
4,3 |
kandidaat A |
1 |
1 |
1 |
2 |
4 |
1 |
2 |
2 |
3 |
17 |
5,1 |
kandidaat J |
2 |
3 |
3 |
0 |
2 |
2 |
2 |
4 |
0 |
18 |
5,3 |
kandidaat E |
3 |
1 |
4 |
2 |
3 |
3 |
1 |
2 |
0 |
19 |
5,6 |
kandidaat G |
2 |
1 |
1 |
3 |
4 |
4 |
1 |
1 |
4 |
21 |
6,1 |
kandidaat H |
3 |
3 |
1 |
1 |
2 |
2 |
4 |
3 |
2 |
21 |
6,1 |
kandidaat D |
4 |
1 |
3 |
3 |
4 |
4 |
3 |
3 |
0 |
25 |
7,1 |
kandidaat C |
3 |
2 |
4 |
4 |
4 |
4 |
1 |
1 |
3 |
26 |
7,3 |
kandidaat B |
4 |
4 |
4 |
4 |
3 |
3 |
2 |
2 |
2 |
28 |
7,8 |
kandidaat F |
4 |
4 |
2 |
4 |
2 |
4 |
3 |
4 |
2 |
29 |
8,1 |
gemiddeld |
2,9 |
2,1 |
2,4 |
2,5 |
2,9 |
2,8 |
2,1 |
2,5 |
1,6 |
21,8 |
6,28 |
Neem nu aan dat er met vraag 9 iets aan de hand is. Die vraag is slecht
gemaakt maar dat is niet of niet helemaal de schuld van de kandidaten.
Daarom gaan we de zaak met behulp van de door CVTE/Cito gehanteerde
technieken repareren. Eens kijken hoe dat uitpakt.
De één zijn brood...
We hebben, in stijl met het Cito/CvTE, vooraf vastgesteld dat 3 van
de 10 kandidaten een onvoldoende krijgen. Dat impliceert uiteraard
dat de winst van de ene kandidaat het verlies van een andere kandidaat
betekent.
Omdat er precies 3 onvoldoendes moeten zijn, ligt de cesuur (de grens
tussen voldoende en onvoldoende) exact tussen 18 en 19 punten, dus bij
een score van 18,5. Volgens de methode CVTE/Cito moet een fictieve score
van 18,5 punten nu het cijfer 5,45 opleveren. Een simpele berekening
1)
levert dan een gewenste N-term van 0,825 op. Afgerond op 1 decimaal geeft
dat
N = 0,8.
Laten we nu eens een paar scenario's schetsen voor correcties volgens de
methodes die Cito/CvTE hanteert.
Scenario 1: inhoudelijke aanpassing CV
Wanneer het antwoordmodel wordt versoepeld, bijvoorbeeld door een andere
aanpak of een ander antwoord ook goed te rekenen, dan zou het resultaat er
zo uit kunnen zien:
opgave: |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
totaal |
cijfer |
kandidaat I |
3 |
1 |
1 |
2 |
1 |
1 |
2 |
3 |
2 |
16 |
4,6 |
kandidaat A |
1 |
1 |
1 |
2 |
4 |
1 |
2 |
2 |
3 |
17 |
4,8 |
kandidaat E |
3 |
1 |
4 |
2 |
3 |
3 |
1 |
2 |
0 |
19 |
5,3 |
kandidaat J |
2 |
3 |
3 |
0 |
2 |
2 |
2 |
4 |
2 |
20 |
5,6 |
kandidaat G |
2 |
1 |
1 |
3 |
4 |
4 |
1 |
1 |
4 |
21 |
5,8 |
kandidaat H |
3 |
3 |
1 |
1 |
2 |
2 |
4 |
3 |
4 |
23 |
6,3 |
kandidaat C |
3 |
2 |
4 |
4 |
4 |
4 |
1 |
1 |
3 |
26 |
7,1 |
kandidaat D |
4 |
1 |
3 |
3 |
4 |
4 |
3 |
3 |
2 |
27 |
7,3 |
kandidaat F |
4 |
4 |
2 |
4 |
2 |
4 |
3 |
4 |
2 |
29 |
7,8 |
kandidaat B |
4 |
4 |
4 |
4 |
3 |
3 |
2 |
2 |
4 |
30 |
8,1 |
gemiddeld |
2,9 |
2,1 |
2,4 |
2,5 |
2,9 |
2,8 |
2,1 |
2,5 |
2,6 |
22,8 |
6,28 |
De scores van een aantal kandidaten zijn nu twee punten hoger. De gemiddelde
score bij vraag 9, en dus ook de totale gemiddelde puntenscore, is nu precies
één punt hoger. Het gemiddeld cijfer is echter niet hoger geworden want anders
zou het doel van 30% onvoldoende niet gehaald worden. De cesuur komt nu bij
19,5 punten te liggen, resulterend in een N-term van 0,575. Dat is 0,25
cijferpunt lager dan eerst en dat compenseert precies de hogere scores bij
vraag 9. De groep als geheel is er uiteraard niet op vooruit gegaan maar er
treden wel wat verschuivingen op. Zo is kandidaat I er bijvoorbeeld iets op
vooruitgegaan terwijl kandidaat A er iets op achteruit is gegaan. Opvallend
is dat kandidaat J van een onvoldoende naar een voldoende is gegaan terwijl
kandidaat E juist van een voldoende naar een onvoldoende is gegaan.
Scenario 2: Iedereen alle punten
Gewoon iedereen alle punten voor vraag 9 geven. Het lijkt zo'n ruimhartig
gebaar. Maar ook deze maatregel levert alleen maar verschuivingen op. Er
staat immers vast dat 30% van de kandidaten een onvoldoende krijgt.
opgave: |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
totaal |
cijfer |
kandidaat I |
3 |
1 |
1 |
2 |
1 |
1 |
2 |
3 |
4 |
18 |
4,6 |
kandidaat A |
1 |
1 |
1 |
2 |
4 |
1 |
2 |
2 |
4 |
18 |
4,6 |
kandidaat G |
2 |
1 |
1 |
3 |
4 |
4 |
1 |
1 |
4 |
21 |
5,3 |
kandidaat J |
2 |
3 |
3 |
0 |
2 |
2 |
2 |
4 |
4 |
22 |
5,6 |
kandidaat E |
3 |
1 |
4 |
2 |
3 |
3 |
1 |
2 |
4 |
23 |
5,8 |
kandidaat H |
3 |
3 |
1 |
1 |
2 |
2 |
4 |
3 |
4 |
23 |
5,8 |
kandidaat C |
3 |
2 |
4 |
4 |
4 |
4 |
1 |
1 |
4 |
27 |
6,8 |
kandidaat D |
4 |
1 |
3 |
3 |
4 |
4 |
3 |
3 |
4 |
29 |
7,3 |
kandidaat B |
4 |
4 |
4 |
4 |
3 |
3 |
2 |
2 |
4 |
30 |
7,6 |
kandidaat F |
4 |
4 |
2 |
4 |
2 |
4 |
3 |
4 |
4 |
31 |
7,8 |
gemiddeld |
2,9 |
2,1 |
2,4 |
2,5 |
2,9 |
2,8 |
2,1 |
2,5 |
4 |
24,2 |
6,13 |
Kandidaat G is de dupe van deze correctie. Dat komt natuurlijk omdat deze
kandidaat bij vraag 9 al de maximale score had. Kandidaat J heeft voordeel
van deze correctie want deze kandidaat had eerst 0 punten voor vraag 9. De
groep als geheel schiet niets op met deze ingreep. Sterker nog: De gemiddelde
score is nu meer dan 2 punten hoger maar het gemiddeld cijfer is
gedaald
met 0,15 punten. Door iedereen bij vraag 9 het maximale aantal punten te geven,
is de spreiding van de cijfers wat minder geworden. Daardoor ligt het gemiddelde
wat dichter bij de grens van 5,45. Dat dit gebeurt, is geen absolute wet maar
is wel waarschijnlijk. Alleen wanneer de scores op de minder geslaagde vraag
nauwelijks of negatief samenhangen met de totaalscores, blijft de spreiding
gelijk of wordt deze zelfs hoger. Het effect is kleiner naarmate het totaal
aantal vragen groter is.
Op basis van het tweede scenario kan de volgende paradox geformuleerd worden
Paradox A
Iedereen de maximale score geven voor een slechte vraag leidt doorgaans niet
tot een hoger maar vaak juist tot een (iets) lager gemiddelde voor
de groep als geheel. |
Scenario 3: achteraf aanpassen van de N-term
Scenario 3 wordt door het CvTE vaak beschreven als noodscenario. Dit scenario
wordt alleen toegepast wanneer het te laat is om nog een aanvulling op het
correctiemodel te doen.
Laten we in mijn voorbeeld de N-term eens zo aanpassen dat iedereen er 0,4 punten
bij krijgt:
|
oud |
nieuw |
kandidaat I |
4,3 |
4,7 |
kandidaat A |
5,1 |
5,5 |
kandidaat J |
5,3 |
5,7 |
kandidaat E |
5,6 |
6,0 |
kandidaat G |
6,1 |
6,5 |
kandidaat H |
6,1 |
6,5 |
kandidaat D |
7,1 |
7,5 |
kandidaat C |
7,3 |
7,7 |
kandidaat B |
7,8 |
8,2 |
kandidaat F |
8,1 |
8,5 |
gemiddeld |
6,28 |
6,68 |
|
Uiteraard is er nu aan de volgorde niets veranderd want iedereen heeft er hetzelfde
bij gekregen. Uiteraard ligt ook het gemiddelde nu 0,4 punten hoger. In dit geval is
er nog slechts één onvoldoende in plaats van de oorspronkelijke drie.
Scenario 3 is voor de groep als geheel het gunstigst omdat noodzakelijkerwijs het
adagium dat 30% een onvoldoende moet krijgen, moet worden verlaten. Ook kan het in
dat geval niet voorkomen dat kandidaten ten koste van andere kandidaten een voldoende
behalen. Deze constatering leidt tot mijn tweede paradox:
Paradox B
Het tijdig door het Cito/CvTE reageren op geconstateerde onvolkomenheden in of rond
een examenvraag is voor de groep examenkandidaten als geheel ongunstiger dan
een aanpassing achteraf. |
|
Waarom 0,4 punten erbij?
Die verhoging met 0,4 punten in mijn voorbeeld hierboven was niet zo maar een slag
in de lucht. Ik deed dat conform de methode die Cito/CvTE ook hanteert. Die methode
werkt zo:
Het CvTE/Cito gaat voor scenario 3 uit van de maximale cijfertoename bij scenario 2.
Hoewel in mijn voorbeeld de groep als geheel er met scenario 2 op achteruit gaat, zijn
er uiteraard kandidaten die er met dit scenario behoorlijk op vooruit gaan. De kandidaten
die oorspronkelijk geen enkel punt voor vraag 9 scoorden, gaan er het meest op vooruit.
Hun winst is in eerste instantie een vol cijferpunt.
Daar gaat onder scenario 2 echter weer behoorlijk wat van af. Het gemiddelde mag onder
dat scenario namelijk niet stijgen. De gemiddelde score op vraag 9 was 1,6 punten, wat
overeenkomt met 0,4 cijferpunt
2). Na de ingreep is de gemiddelde score
uiteraard gelijk aan 4, wat overeenkomt met een vol cijferpunt. Zonder aanpassing van
de N-term zou het gemiddelde met
1,0−0,4 = 0,6 cijferpunt stijgen.
Om ervoor te zorgen dat het gemiddelde gelijk blijft, is dus een verlaging van de
N-term met 0,6 nodig. Netto is de winst van een kandidaat die eerst 0 punten had
voor vraag 9 dus
1−0,6 = 0,4. Dat is niet toevallig precies
gelijk aan de gemiddelde score (in cijferpunten) van vraag 9.
Minstens zo goed als scenario 2
Uitgangspunt van scenario 3 is dat
alle kandidaten er met scenario 3 minstens
zo goed uitkomen als met scenario 2. De formule die Cito/CvTE hanteert om
dat te bereiken, luidt
N-termverhoging = M/L×9×P.
In deze formule is
M maximale score van de dubieuze vraag (in mijn
voorbeeld dus 4),
L het maximaal aantal te behalen punten (in mijn
voorbeeld 36) en
P de gemiddelde score van de kandidaten, teruggebracht op
een schaal van 0 tot 1 (in mijn voorbeeld 0,4 - of te wel 40%). Invullen geeft een aanpassing van
4/36×9×0,4 = 0,4 punten. Vandaar die verhoging van 0,4
in mijn voorbeeld.
De gehanteerde formule is goed te begrijpen wanneer je beseft dat
M/L×9×P in feite het
gemiddeld aantal cijferpunten is dat
bij vraag 9 werd gescoord
3). Ik geef dit aan met de letter
G.
Een leerling met 0 punten voor vraag 9 krijgt er in dit scenario in eerste instantie
precies 1 cijferpunt bij. De gemiddelde cijferscore voor de vraag was
G
en wordt nu precies 1. Gemiddeld zou de cijferscore voor deze vraag, en dus ook
voor het examen, met 1−
G cijferpunt stijgen. Dat moet gecompenseerd
worden door de N-term, die dus wordt
verminderd met 1−
G. Netto
gaat een kandidaat die eerste 0 punten had er dus in het tweede scenario
1−(1−G) = G cijferpunt op vooruit. Volgens
de uitgangspunten van CvTE/Cito moet deze kandidaat er bij aanpassing achteraf
er ook
G cijferpunt op vooruit gaan.
Hieronder licht ik de gevolgen van dit uitgangspunt nog wat verder toe aan de hand
van twee (extreme) subscenario's.
Scenario 3a: bijna iedereen heeft nul punten
Stel dat op één na alle kandidaten 0 punten zouden hebben gescoord op vraag 9.
Slechts één kandidaat scoorde de volle 4 punten. De P-waarde is dan slechts 0,1.
Onder scenario 2 zouden op één na alle kandidaten er 4 punten (1,0 cijferpunt)
bij hebben gekregen. Omdat het gemiddelde hierdoor 0,9 cijferpunt hoger zou
komen te liggen, zou de N-term met 0,9 moeten worden verlaagd. Het netto effect
van scenario 2 zou voor de leerlingen met 0 punten precies op 0,1 uitkomen.
Onder scenario 3 moeten de kandidaten minstens zo 'goed' uitkomen en dat klopt:
omdat
P = 0,1 geeft de formule
N-termverhoging = M/L×9×P
ook 0,1. Alleen die ene kandidaat met 4 punten komt een stuk hoger uit dan in
scenario 2 (waar deze kandidaat de grote verliezer is); de rest krijgt hetzelfde
cijfer als onder scenario 2.
Scenario 3b: bijna iedereen heeft alle punten
Stel dat op één na alle kandidaten in mijn voorbeeld 4 punten zouden hebben
gescoord op vraag 9. Slechts één kandidaat haalde 0 punten. De P-waarde is 0,9
Onder scenario 2 zou alleen die ene kandidaat er 4 punten bij krijgen.
Daardoor zou het gemiddelde met 0,1 cijferpunt omhoog gaan en wordt de N-term
om dit te compenseren met 0,1 verlaagd. Netto gaat die ene kandidaat er dus
0,9 cijferpunt op vooruit. Omdat geldt dat
P = 0,9
geeft de formule
N-termverhoging = M/L×9×P
nu de waarde 0,9. Die ene kandidaat met nul punten komt er net zo goed uit als
onder scenario 2. De rest van de kandidaten gaat er flink op vooruit.
De gang van zaken onder scenario 3 is goed te volgen maar leidt wel tot mijn
derde paradox:
Paradox C
Hoe slechter een omstreden vraag is gemaakt, des te lager is
de compensatie door middel van het achteraf aanpassen van de N-term. |
Voor alle duidelijkheid wil ik nog wel vermelden dat ik de werkelijkheid hierboven bewust
enorm versimpeld heb. Dat lijkt de enige manier om de mechanismen achter de scenario's helder
te krijgen. In werkelijkheid spelen afrondingen van N-termen (en uiteindelijk van cijfers)
ook nog een bijna onvoorspelbare rol bij het eindresultaat en bepalen dergelijke marginale
zaken in sommige gevallen het slagen of zakken van de kandidaat.
Ondeugdelijk
Het CvTE streeft er naar om elk jaar "de lat even hoog te leggen". Op die manier wordt er
gezorgd, zo wordt beweerd, voor een eerlijke behandeling van verschillende lichtingen
examenkandidaten. De conclusie is echter mijn inziens onontkoombaar dat het CvTE
teneinde dit doel te bereiken, heeft gekozen voor een systeem dat niet zelden tot situaties
leidt waarbij kandidaten soms duidelijk benadeeld worden ten opzichte van andere kandidaten
uit dezelfde lichting. Kandidaten die in hetzelfde jaar examen doen, worden veroordeeld
tot een soort 'zero-sum spel' waarbij de winst van de één het verlies van de ander impliceert.
Het principe dat geen kandidaat de dupe mag worden van (het herstel van) fouten door
examinerende instanties wordt met voeten getreden.
In mijn voorbeelden gaat het om fictieve kandidaten, aangeduid met hoofdletters. In het
werkelijke leven gaat het om jongeren van vlees en bloed. Ook de door mij geformuleerde
paradoxen zijn meer dan intellectuele aardigheden. Ze leggen volgens mij bloot dat het
systeem, in tegenstelling tot wat het CvTE in
een
reactie op de uitspraak van de rechter in het genoemde kort geding triomfantelijk
beweerde, gewoon niet deugt.
Gerard Koolstra
1) | Oplossen van de
vergelijking 18,5×9/36+N=5,45. |
2) | Er zijn voor deze
toets 36 punten te verdienen. Het verschil tussen het hoogste en laagst mogelijke cijfer
is 9 (10−1). Dat betekent dat 4 scorepunten overeenkomen met 1 cijferpunt. |
3) | In dit voorbeeld
lijkt dat triviaal omdat M/L×9 = 4/36*9 = 1 maar het
gestelde geldt ook in algemene zin. |