Deze bijdrage is geschreven door Ameling Algra.
Ameling was ruim veertig jaar werkzaam in en voor het onderwijs,
onder andere als wiskundedocent en schoolleider. Tot voor kort
was hij werkzaam bij het College voor toetsen en examens (CvTE).
Met duidelijke rekenvoorbeelden illustreert Gerard Koolstra in WiskundE-brief 784 hoe
complex het is om onvolkomenheden in een examen zo te compenseren dat
leerlingen er niet door worden benadeeld. In deze bijdrage wil ik graag
op enkele fundamentele punten ingaan met betrekking tot het corrigeren
van onvolkomenheden in het Centraal Examen.
Maar eerst een open deur. Fouten in een examen zijn onvermijdelijk. Hoe
zorgvuldig een constructieproces ook is; de makers kijken met het oog van
de vakleraar. Het kan soms voorkomen dat de eindexamenkandidaat een opgave
op een manier interpreteert die de vakleraar niet heeft overwogen.
Grootschalige test
Zo werd bij havo wiskunde A ooit een keer naar een maximale waarde gevraagd.
De 'Pavlovreactie' van alle wiskundedocenten en van bijna alle leerlingen was:
maximum, dus afgeleide bepalen. Zo dachten de examenmakers ook. Een enkele
leerling las de vraag echter anders, met een taalkundig goed verdedigbare
interpretatie. Alleen in een grootschalige test haal je dergelijke
dubbelzinnigheden eruit. En bij ons centraal examen is de afname nu
eenmaal pas die grootschalige test.
In veel landen wordt het correctievoorschrift pas vastgesteld nadat een groot
aantal antwoorden van kandidaten is bekeken. De zo'n veertig jaar geleden bij
ons ingevoerde, versnelde correctie maakt dat onmogelijk. Daarom zijn er methoden
ter compensatie achteraf nodig. Die moeten zorgvuldig zijn maar niet te royaal.
Ook bij gerede twijfel is het beter om een vraag te neutraliseren. Dat voorkomt
gedoe tussen correctoren en verschillen in beoordeling van leerlingen. Een te
royale compensatie maakt de drempel om te neutraliseren hoger.
Vaardigheid
Gerard benoemt correct dat bij het centraal examen geldt dat bij gelijke
vaardigheid van de populatie het percentage onvoldoendes gelijk moet blijven.
Soms wordt een populatie echter vaardiger. Dat gebeurde bijvoorbeeld bij veel
vakken na de invoering van de eis dat het Centraal Examen gemiddeld voldoende
moet zijn. Op het havo gebeurde dat ook in het laatste jaar van
de 'oude' Tweede Fase. Dergelijke zaken blijken uit aanvullende tests en dan
moet het percentage aan onvoldoendes dalen. Want als alle kandidaten harder
gaan werken, dan mogen ze daar uiteraard de vruchten van plukken.
Over de wenselijkheid van de methode van het hanteren van gelijke percentages
onvoldoendes bij gelijke vaardigheden is discussie mogelijk. Voor het vervolg
van mijn betoog beschouw ik dat echter even als een gegeven.
Drie methoden
Voor een vraag uit het examen waarvoor moet worden gecompenseerd, heeft het
CvTE een vakterm. Zo'n vraag noemen we een 'corrupte vraag'. Laat ik eens ingaan
op de manier waarop er voor corrupte vragen in het examen wordt gecompenseerd.
Er zijn drie methodes waarvan twee bij de papieren examens kunnen worden toegepast.
Methode 1: vraag eraf knippen
De corrupte vraag kan natuurlijk gewoon van het examen af worden geknipt. Er
blijft dan een korter examen over waarop de volledige beoordelingssystematiek
kan worden losgelaten. Deze methode is internationaal zeer gebruikelijk. Het
effect van deze methode is hetzelfde als wanneer de vaststellingscommissie kort
vóór de vaststelling een vraag schrapt omdat deze niet in orde is. Er moeten
uiteraard niet teveel vragen geschrapt worden maar bijvoorbeeld bij het examen
Frans vwo kunnen er moeiteloos vier vragen worden geschrapt zonder dat de aard
van het examen wezenlijk verandert.
| |
Maar helaas! Deze elegante methode van compensatie past niet in de versnelde
correctie. Deze methode kan alleen bij digitale examens worden toegepast omdat
van die examens alle gegevens in de DUO-computer zitten. Voor de papieren
examens moet het CvTE dus uitwijken naar alternatieve methodes. Met die alternatieven
proberen we deze eerste methode zo goed mogelijk te benaderen.
Methode 2: iedereen de maximale score
Het eerste alternatief is zeer bekend: alle kandidaten krijgen de maximale score
voor de corrupte vraag. De vraag is dan de facto geneutraliseerd. Dat zou ook
kunnen worden bereikt door iedereen de score 0 te geven en de schaallengte aan
te passen. Dat vereist echter extra handelingen voor scholen en verhoogt het
risico dat er fouten worden gemaakt.
Methode 2 werd vroeger zelden toegepast. Tegenwoordig gebeurt dat veel vaker; het
geeft duidelijkheid en voorkomt discussies tussen scholen. Ten onrechte zien
sommigen daarin een bewijs dat de examens steeds slechter worden. In tegendeel,
het is juist een bewijs dat het CvTE steeds zorgvuldiger met onvolkomenheden,
en dus met examenkandidaten, omgaat.
Methode 3: aanpassing van de N-term
Soms is het niet helemaal duidelijk of een vraag dubbelzinnig is. In dat geval
doen wij onze afweging liever nadat alle examenresultaten bekend zijn. Onze
afweging effectueren we in de N-term, die zorgvuldig wordt aangepast. De kandidaat
die ten onrechte geen punten kreeg, wordt gecompenseerd. Helaas moet die
compensatie in dat geval ook worden gegund aan kandidaten die terecht geen
punten kregen. Kandidaten die op de corrupte vraag toch nog hebben gescoord,
krijgen de compensatie er als extraatje bij. Vanwege die ongewenste neveneffecten
van methode 3 geniet methode 2 verre onze voorkeur. Maar soms is dat niet mogelijk.
Het uitgangspunt bij methode 3 is dat de benadeelde kandidaat precies voldoende
wordt gecompenseerd. Dat andere kandidaten hierdoor worden overgecompenseerd,
is een vervelende zaak maar is in ons rechtsstelsel geen grond voor bezwaar.
Waarmee vergelijk je?
Hoe moet je een compensatie berekenen, zo dat de examenkandidaat precies
voldoende wordt gecompenseerd? Daarvoor geldt een essentieel principe: je
uitgangspunt moet niet het afgenomen examen zijn maar het examen waar de
corrupte vraag vanaf is geknipt. Dat voelt contra-intuïtief aan want alle
kandidaten hebben het gehele examen gemaakt en het examen is, zeker bij
toepassing van methode 3, ook helemaal beoordeeld. Toch is het zuiverder
om niet van het complete examen uit te gaan. Nee, je kunt het beste de
'vergissing' in het examen eerst afdekken en dan de consequenties
berekenen.
Die methode leidt vanwege het contra-intuïtieve karakter zowel bij methode
2 als methode 3 soms tot een 'ja maar'-reactie van met name ouders
en kandidaten. Want wie de geschrapte vraag goed had, wordt nu toch
benadeeld?
Mijn wat formalistische reactie naar het LAKS was ooit: "op een foute
vraag bestaat geen goed antwoord". Beter geformuleerd luidt mijn
reactie: "je moet ijken op een correct examen en niet op een exemplaar
waar de fout nog in zit. Je moet dus ijken op het ingekorte origineel.
|
En daar zit hem de kneep!
Gerard vergelijkt in zijn artikel het resultaat van een compensatie
steeds met het complete examen. De resultaten van leerlingen na aanpassing
worden dus vergeleken met de resultaten van leerlingen op een examen dat
voor een deel niet in orde was. En dat lijkt gevoelsmatig goed maar is
niet zuiver. Zijn één of meer vragen niet in orde, dan zijn de overige
vragen de basis waarop moet worden beoordeeld. En doe je dat, dan zijn
de effecten anders. |
Ik wil deze aanpak illustreren aan de hand van een nog veel minimalistischer
voorbeeld dan Gerard in zijn artikel gebruikte. Vereenvoudiging maakt
principes helderder.
Neem eens aan dat een examen uit drie vragen bestaat die bij een goed
antwoord elk 1 punt opleveren. Kandidaat X scoort goed-goed-fout en
krijgt dus 2 punten. Kandidaat Y scoort fout-fout-goed en krijgt dus
1 punt. Nu blijken vraag 1 en 2 corrupt te zijn. Er blijft dus één
goede vraag over. Met de ideale methode 1 (afknippen) zou dus het
examen nu uit maar één vraag bestaan en heeft kandidaat Y alle punten
en kandidaat X geen enkel punt. Zij wisselen qua score dus van rangorde.
Methode 2 in plaats van afknippen
Bij methode 2 krijgen alle kandidaten de volle score op de corrupte
vragen. In mijn voorbeeld krijgt iedereen voor vraag 1 en 2 dus een
punt. Kandidaat X blijft dus op twee punten staan en kandidaat Y
krijgt nu drie punten. Zowel bij het afknippen als bij methode 2
verandert de rangorde. Dat is terecht want de oude rangorde was een
ondeugdelijke rangorde als gevolg van een ondeugdelijk examen. Om
een deugdelijke uitslag op een deugdelijk examen vast te stellen,
is de rangorde op een ondeugdelijk examen niet relevant.
Het afknippen leidt dus grosso modo tot hetzelfde resultaat als
de hantering van methode 2. Uiteraard zijn er wat afwijkingen,
ten gevolge van de beroemde 'knik', voor de beste kandidaten maar
voor het gebied waarbinnen de cruciale slaag-zak-beslissingen
vallen, werkt methode 2 hetzelfde als het afknippen van een corrupte
vraag.
Wat blijft, is uiteraard het zure gevoel dat een goed antwoord niet
meetelt. Dat kwam ook in de rechtszaak aan de orde. Maar een goed
antwoord op een afgekeurde vraag is nu eenmaal net zo relevant als
een goed antwoord op een niet gestelde vraag.
Op methode 3, de aanpassing van de N-term, laat ik mijn versimpelde
model niet los. Daarvoor is het model net iets te eenvoudig.
Het is echter duidelijk dat methode 3 een noodvoorziening is met
als nadeel dat sommige kandidaten een te hoog cijfer krijgen.
Maar als je ijkt op het examen waar de corrupte vragen van zijn
afgeknipt, krijgen kandidaten in ieder geval nooit een te laag
cijfer. Ze krijgen misschien wel een iets lager cijfer dan wanneer
de vraag niet corrupt was maar die situatie is, ik merkte dat al
eerder op, hypothetisch en irrelevant.
De paradoxen
Gerard voerde in zijn bijdrage drie paradoxen op. Hieronder wil
ik graag per stuk op elke paradox wat nader ingaan.
Paradox B: correctie achteraf is gunstiger
Dat is helemaal waar! Correctie achteraf is voor veel kandidaten gunstiger
dan een tijdige ingreep. Dat neemt echter niet weg dat de tijdige
ingreep billijker is. Niemand krijgt immers ten onrechte een te hoog
cijfer. Daarbij voorkomt een tijdige ingreep ingewikkelde discussies
tussen correctoren. Ik hoop dan ook dat niemand uit deze onvermijdelijke
paradox, die eigenlijk helemaal geen paradox is, concludeert dat hij
of zij maar beter even kan wachten met het melden van een onvolkomenheid
in een examen.
Paradox A: de maximale-score-methode geeft een lager gemiddelde
Dat is tot op zekere hoogte waar als je, ten onrechte, vergelijkt met
het ondeugdelijke examen waar de corrupte vragen nog inzitten. De
kleine aantallen in Gerards rekenmodel versterken dit effect maar
het is ontegenzeggelijk zo dat er door de lagere spreiding een lager
gemiddelde kan optreden.
Echter, dat is alleen waar wanneer je de zaak vergelijkt met het
ondeugdelijk examen waarin de corrupte vragen nog aanwezig zijn.
En, ik herhaal, dat moet je nu juist niet doen! Zou je in het
rekenvoorbeeld van Gerard de zaak vergelijken met het ingekorte
examen, dan wordt het gemiddelde juist hoger. En dát nemen we
voor lief.
Paradox C: hoe slechter de score, des te lager de compensatie
Ook die paradox is geen paradox maar een keuze.Ik stel het even
extreem: als niemand een vraag goed heeft gemaakt, dan is het ook
niet relevant dat de vraag niet deugde. Die lage vraagscore wordt
in de N-term namelijk automatisch voor iedereen gecompenseerd.
Neem nu aan dat bijna alle kandidaten voor een vraag een punt hebben
gekregen omdat zij een antwoord volgens het correctievoorschrift
hebben gegeven. Er is echter één kandidaat met een ander antwoord
dat achteraf correct blijkt te zijn. De goed gemaakte vraag drukt
de N-term want de vraag was klaarblijkelijk erg gemakkelijk. Die
ene leerling is dus fors de dupe en moet dus ook fors worden
gecompenseerd. De rest profiteert hiervan maar daar is niets aan
te doen.
Zorgvuldige methodiek
De correctieprocedures van het CvTE zijn niet willekeurig maar
zorgvuldig afgewogen. Met het recht van de examenkandidaat van
vlees en bloed als uitgangspunt en uitvoerbaarheid als belangrijke
factor. De methodieken zijn niet gebaseerd op willekeur of politieke
uitgangspunten.
Natuurlijk kun je allerlei als-dan-scenario's uitwerken. Wat als de
fout eerder was geconstateerd en de vraag vooraf was geschrapt?
Wat als de fout eerder na afname was geconstateerd? Met al die zaken
heeft het CvTE zoveel als mogelijk rekening gehouden. Uiteraard bevat
de gekozen systematiek keuzes waarover je van mening kunt verschillen.
Maar onzorgvuldig zijn de methodieken zeer zeker niet.
Merkwaardig is wel dat de voorzitter van het CvTE zich ondertussen
distantieert van het beleid van zijn eigen organisatie.
Zie
hiervoor zijn weblog op cvte.nl: de werkwijze van het CvTE is kennelijk
niet eenduidig. Het is een merkwaardig negatief oordeel van de voorzitter
van het CvTE over een door de Minister goedgekeurde regeling die
volgens de rechter rechtmatig is toegepast.
Richt op het juiste doel
Wie zich niet goed voelt bij de manier waarop er met onvolkomenheden
in het examen wordt omgegaan, zou de pijlen misschien moeten richten
op de onverantwoord snelle procedure van het corrigeren van examens.
Een procedure die een goede foutcompensatie lastig maakt, correctoren
overbelast en ertoe leidt dat meningsverschillen door tijdgebrek
conflicten worden.
Ameling Algra