In het verleden is in de WiskundE-brief regelmatig aandacht besteed
aan de rol van de N-termen bij de bepaling van de examencijfers. Mede
dankzij recente publicaties wordt de rol van de N-termen nu iets helderder.
De materie blijft echter lastig. Zowel wantrouwen als vertrouwen spelen
bij de beschouwing van deze materie vaak een grote rol.
Maar wat is nu eigenlijk de rol van de N-termen bij de recente, sterke stijging
van de cijfers van het Centraal Examen (CE)? Over die stijging schreef ik in
WiskundE-brief 758 al het een en ander. Om die rol beter te kunnen onderzoeken, heb ik op
basis van de gepubliceerde
p-waarden*) bij elk examen het gemiddeld
cijfer berekend bij een vaste N-waarde in de formule
Cijfer = 9 × p + N.
De
p-waarde geeft aan welke fractie van de totaal te behalen punten er
gemiddeld is gehaald. Als geldt dat
p = 0,6 dan betekent
dat dus dat gemiddeld 60% van de te behalen punten daadwerkelijk zijn
behaald. Bij N = 1,0 en
p = 0,6 is het gemiddelde
cijfer voor het examen dan 9 × 0,6 + 1,0 = 6,4.
Blik op het vwo
Laten we eens kijken naar het vwo. We nemen niet N = 1,0 maar
N = 0,9 want dat is het gewogen gemiddelde van alle N-termen
van de vwo-examens over de laatste 12 jaar en geeft een iets mooier plaatje.
In de grafiek hieronder is het gewogen gemiddelde van alle CE's van het vwo
te zien (rood), vergeleken met het verloop van mijn fictieve cijfers (donkergroen),
waarbij N dus is vastgepind op de waarde 0,9. De donkergroene grafiek
geeft in essentie dus de ontwikkeling van de ongecorrigeerde, gemiddelde
puntenscores weer.
Een paar zaken vallen mij in deze grafiek op:
- Tot en met 2011 schommelde het CE gemiddelde (rood) tussen de 6,2 en 6,3
terwijl de ongecorrigeerde, gemiddelde puntenscores (groen) veel meer
fluctueerden.
- De ongecorrigeerde, gemiddelde puntenscores (groen) daalden aan het eind
van het vorige decennium nogal, met als dieptepunt 2009, het laatste jaar van
de 'oude' tweede fase op het vwo.
- De ongecorrigeerde, gemiddelde puntenscores (groen) verlopen vanaf 2010
vrij grillig. Ze lijken echter een stijgende trend te vertonen. In 2016 lagen
deze ongecorrigeerde, gemiddelde puntenscores echter ineens weer beduidend
lager.
- Vanaf 2011 nemen de CE-cijfers (rood) een vlucht. De ontwikkeling is
weliswaar vrij grillig maar feit is dat de gemiddelde CE-cijfers de laatste
paar jaar rond de 6,5 liggen. Dat is een stuk hoger dan een jaar of tien
geleden.
- In 2009, 2013 en 2016 is de opwaartse werking van de N-termen duidelijk
zichtbaar. In 2011, 2014 en 2015 drukten de N-termen de gemiddelde CE-cijfers
juist een beetje.
Twee soorten normering
Het College voor Toetsen en Examens (CvTE) beschrijft
in
een recente publicatie twee manieren om de N-termen te bepalen, te weten
een bepaling volgens het systeem van de
relatieve normering en een bepaling
volgens het systeem van de
absolute normering.
De
relatieve normering zorgt voor een min of meer constant gemiddelde
door de jaren heen. Een argument voor relatieve normering is de gedachte dat
het onwaarschijnlijk is dat de ene lichting examenkandidaten beter of slechter
is dan de andere. Hogere of lagere scores moeten daarom worden beschouwd als
een indicatie dat de moeilijkheidsgraad van de examens fluctueert.
Met de
absolute normering probeert men recht te doen aan verschillen
in 'vaardigheid' door de jaren heen. Bij absolute normering is
equivalering
van essentieel belang. Door die equivalering probeert men de invloed van de
wisselende moeilijkheidsgraad van examens te minimaliseren en het (mogelijk) wisselende
niveau van de lichtingen examenkandidaten in de cijfers uit te drukken. Men laat
hiertoe bijvoorbeeld door geselecteerde groepen leerlingen opgaven maken van
zowel een toekomstig examen als een oud examen. Zo kan de relatieve
moeilijkheidsgraad van het nieuwe examen ten opzichte van voorgaande examens
worden bepaald. Met dat gegeven kan vervolgens de N-term worden bepaald.
Overigens spelen bij het vaststellen van die N-term ook nog andere zaken een
rol, zoals commentaar achteraf op examens of te laat geconstateerde fouten.
Vermoedens
Bij de interpretatie van recente ontwikkelingen krijgen we al snel te maken met
vermoedens. Zo'n vermoeden is dat er vóór 2012, het eerste jaar van de aanscherping
van de uitslagregeling, met behulp van de N-termen werd gezorgd voor min of meer
constante gemiddelden. Het CvTE zegt dat ook toen absolute normering uitgangspunt was.
Omdat equivalering kostbaar en tijdrovend is, werd in die tijd voor een deel van de
vakken echter voor relatieve normering gekozen.
Tegenwoordig hanteert het CvTE niet voor een deel maar voor alle vakken de
absolute normering. Er wordt echter niet voor alle vakken op de gebruikelijke
manier geëquivaleerd omdat dat een te bewerkelijke en te kostbare zaak is. In
plaats hiervan wordt het resultaat van de equivalering bij de wel geëquivaleerde
vakken zo goed mogelijk vertaald naar de niet geëquivaleerde vakken. Raadpleeg
de
notitie van het CvTE voor nadere details.
Keerpunt
Het jaar 2012, het eerste jaar van de aanscherping van de slaag/zakregeling, is
een keerpunt. In genoemde notitie schrijft het CvTE:
"Als per centraal examen de N-term van 2012 zo gekozen zou zijn, dat de groep van 2012
hetzelfde gemiddelde cijfer behaalt als de groep 2011, met andere woorden als wij
relatief zouden hebben genormeerd, zou het slaagpercentage over 2012 daadwerkelijk
ongeveer 8% lager gelegen hebben dan in 2011." |
De nieuwe regeling waarbij het gemiddelde cijfer voor het Centraal Examen tenminste
een 5,5 moet zijn, was in 2012 natuurlijk ook bij de examenkandidaten bekend. Het
CvTE vermoedde dat deze wetenschap ervoor zorgde dat examenkandidaten gemiddeld
beter voorbereid aan het examen zouden gaan beginnen. Er zou dan dus sprake zijn
van een duidelijk niveauverschil tussen de examenkandidaten van 2012 en die van
vóór 2012. Het blijven gebruiken van relatieve normeringen werd om die reden door
het CvTE als zeer onwenselijk gezien.
Veel beter?
In het licht van het voorgaande is het logisch dat het CvTE uitdrukkelijk beweert
dat de sterk gestegen examencijfers een gevolg zijn van een navenant gestegen
vaardigheid van de examenkandidaten. Die stijging laat zich vooral zien bij de
kernvakken Engels, Wiskunde A en wiskunde B. Het vak Nederlands vormt een verhaal
apart, onder andere door de invoering van de referentieniveau's.
Het staat buiten kijf dat de CE-gemiddelden voor de vakken Engels, wiskunde A en
wiskunde B sinds 2011, en zeker sinds de invoering van de kernvakkenregeling in 2013,
behoorlijk zijn gestegen. Kijk maar naar de onderstaande grafiek.
Alleen deze spectaculaire stijging zorgt al voor een gemiddelde verhoging van het
CE-cijfer met bijna 0,2 punt.
Geloofwaardig?
De ontwikkeling is spectaculair. Maar is die ontwikkeling ook geloofwaardig?
Ik hoor en lees geluiden waarin die geloofwaardigheid in twijfel wordt getrokken.
Maar wat valt er in te brengen tegen de verzekering van Cito en CvTE dat het
niveau tocht echt zo sterk omhoog is gegaan?
Je kunt natuurlijk wijzen op allerlei merkwaardigheden. Neem bijvoorbeeld het feit
dat het gemiddelde CE-cijfer van 2011 tot 2013 met maar liefst 0,3 punt is gestegen
terwijl de ongecorrigeerde, gemiddelde puntenscores in die tijd nauwelijks enige
verbetering laten zien. Ook het feit dat de flinke terugval in de scores van 2016
nauwelijks tot lagere cijfers leidden, geeft te denken. Maar mag je statistiek
gebruiken om een instantie te beschuldigen? Je moet daar op zijn minst enorm
voorzichtig mee zijn.
De volgende keer ga ik wat nader in op de ontwikkelingen op havo en vmbo.
gk
*) | Er wordt soms onderscheid
gemaakt tussen de p-waarde en de p'-waarde maar dat is in dit verband niet
relevant. |
bronnen: