De N-termen voor het tweede tijdvak waren voor wiskunde B dit jaar
een stuk hoger dan de voorlopig vastgestelde N-termen. Hoe en wanneer
die N-term wordt gecorrigeerd, was tot voor kort alleen zeer globaal
bekend. Met door het CvTE en Cito verstrekte gegevens is het nu mogelijk
om nauwkeuriger aan te geven hoe deze correctie wordt berekend.
Zoals ik in
WiskundE-brief 816 reeds uiteenzette, is het uitgangspunt de gelijkwaardigheid
van de examens van het eerste en tweede tijdvak. Om dit uitgangspunt
te toetsen, wordt er gekeken naar de herkansers die tijdens het eerste tijdvak
een onvoldoende hebben gescoord. We noemen dit voor het gemak even de
onvoldoendeherkansers. Deze groep is, als we alle vakken
bekijken, goed voor ongeveer tweederde van het aantal deelnemers in het
tweede tijdvak. Bij wiskunde B havo ging het dit schooljaar om 478
onvoldoendeherkansers.
Gemiddeld maakten deze leerlingen hun herkansing een heel klein
beetje beter dan hun eerste poging. Het verschil was 0,04 cijferpunten.
Als de examens echt gelijkwaardig zouden zijn geweest, dan was het te
verwachten dat deze groep de herkansing beduidend beter zou maken.
Die verwachting heeft te maken met twee effecten: de verwachte
leerwinst en het
regressie-effect.
Leerwinst
Je mag verwachten dat leerlingen die de eerste keer een onvoldoende
scoorden, bij hun tweede poging beter zijn voorbereid. Op basis van de
gegevens van alle vakken van de laatste 5 jaar wordt geschat dat
leerlingen van havo/vwo dit jaar gemiddeld 0,38 cijferpunten hoger
zouden moeten scoren tijdens het tweede tijdvak doordat ze beter
voorbereid zijn. Dit effect lijkt langzaam maar zeker toe te nemen
en is op het vmbo aanzienlijk groter dan op het havo/vwo.
Regressie-effect
Verder wordt er rekening gehouden met de zogenaamde
regressie
naar het gemiddelde. Als je kandidaten die slecht op een toets
hebben gescoord nogmaals, zonder extra voorbereiding, een
gelijkwaardige toets laat maken, dan zullen die kandidaten gemiddeld
iets beter scoren dan op de eerste toets. Dat heeft te maken met de
correlatie tussen beide toetsen. Als het goed is, bestaat er een hoge
correlatie tussen de resultaten op twee toetsen die als gelijkwaardig
gelden.
Een voorbeeld: ga voor het gemak eens uit van twee examens met gelijke
gemiddelden en standaardafwijkingen en neem eens aan dat de correlatie
op 0,8 uitkomt. Dat betekent in dat geval dat leerlingen die het eerste
tijdvak 2,0 cijferpunten onder het gemiddelde zaten, in het tweede tijdvak
mogen rekenen op een score die
0,8 × 2,0 = 1,6
cijferpunten onder het gemiddelde. Zij mogen gemiddeld dus rekenen op
een winst van 0,4 cijferpunten.
De correlatie tussen het eerste tijdvak en een gelijkwaardige toets
wordt bepaald op basis van de
betrouwbaarheid van het examen
in het eerste tijdvak. Voor wiskunde B havo was de correlatie ongeveer
0,8 en het regressie-effect werd bij dat vak voor dit jaar berekend
op 0,44 cijferpunten.
Drempelwaarde
Rekening houdend met beide effecten hadden de onvoldoendeherkansers
bij wiskunde B havo dus maar liefst
0,38 + 0,44 = 0,82
cijferpunt hoger moeten uitkomen bij een gelijkwaardig examen in het
tweede tijdvak. In werkelijkheid bedroeg de winst slechts 0,04 punt;
een duidelijke aanwijzing dat het examen van het tweede tijdvak moeilijker
was.
Nu moet je met dit soort zaken ook altijd rekening houden met min of
meer toevallige schommelingen. Om te voorkomen dat de N-term ten
onrechte wordt verhoogd, wordt er gewerkt met een zogenaamde
drempelwaarde van ongeveer 0,31 cijferpunten. Deze drempelwaarde
wordt in mindering gebracht op de compensatie voor de gestegen
moeilijkheidsgraad. Het resultaat is dat de N-term bij wiskunde B
havo dit jaar met
0,82 − 0,31 ≈ 0,5 werd verhoogd.
Overzicht
Voor wiskunde B vwo geldt min of meer hetzelfde verhaal. Daar scoorden
de onvoldoendeherkansers tijdens het tweede tijdvak zelfs 0,22
cijferpunt
lager dan tijdens het eerste tijdvak. In de tabel
hieronder is de berekening voor beide vakken samengevat:
CE 2018 |
wisB havo |
wisB vwo |
Aantal onvoldoendeherkansers |
478 |
629 |
Leerwinst |
0,38 |
0,38 |
Regressie-effect |
0,44 |
0,45 |
Verbetering ten opzichte van het eerste tijdvak |
0,04 |
−0,22 |
Drempelwaarde |
0,31 |
0,31 |
L + R − V − D |
0,47 |
0,74 |
Aanpassing N-term |
0,5 |
0,9 |
Nog hoger
De uiteindelijke, gepubliceerde aanpassing op het vwo viel nog
eens ongeveer 0,2 hoger uit dan je op basis van de bovenstaande
berekening zou mogen verwachten. Dat komt doordat er bij de bepaling
van de N-term ook rekening werd gehouden met opmerkingen van docenten
en leerlingen. Er zat een onvolkomenheid in een opgave en leerlingen
hadden last van tijdnood en soms zelfs van paniek.
Wanneer de uitkomst van
L + R − V − D
negatief is, wordt de N-term niet aangepast. De voorlopige N-term
kan in het tweede tijdvak alleen naar boven bijgesteld worden.
Ontwikkelingen
Het monitoren van de prestatieverbetering van de
onvoldoendeherkansers gebeurt al jaren. Sinds 2015 wordt er daarbij
ook rekening gehouden met het regressie-effect en de leerwinst.
De laatste jaren komen aanpassingen van de voorlopige N-term voor het
tweede tijdvak wat vaker voor. Zo was er in 2017 een aanpassing van +0,3
bij wiskunde vmbo GT en een aanpassing van +0,5 bij wiskunde A vwo.
Bij wiskunde B havo kreeg de voorlopige N-term in 2015 een aanpassing
van +0,5 en in 2016 een aanpassing van +0,1. Op het vwo kreeg de
voorlopige N-term in 2015 een aanpassing van +0,2. De recente aanpassing
van +0,9 bij wiskunde B vwo is wel erg hoog. Voor zover ik weet, is
die ophoging een record.
gk