Evenals Gerard Koolstra was ik benieuwd naar de statistiek in
het havo pilot examen. Gingen bij Gerard de alarmbellen bij vraag 3
pas rinkelen (WiskundE-brief 741); bij mij deden ze al bij het formuleblad.
Het
formuleblad
op de bladzijden 2 en 3 van het opgavenboekje bestaat uit twee
onderdelen, te weten de
vuistregels voor de grootte van het verschil
tussen twee groepen en de
betrouwbaarheidsintervallen.
Over beide valt het een en ander te zeggen.
Vuistregels voor de grootte van het verschil van twee groepen
Deze regels worden gebruikt om statistische uitspraken
te doen over de populatie op basis van steekproefgegevens. Aan de orde
komen regels voor:
- Een 2x2 kruistabel.
- Het maximaal verschil in cumulatief percentage
- De effectgrootte
- De vergelijking van boxplots
De vuistregels zien er ongeveer als volgt uit (voorbeeld effectgrootte):
- als E > 0,8, dan zeggen we "het verschil is groot",
- als 0,4 < E ≤ 0,8, dan zeggen we "het verschil
is middelmatig",
- als E ≤ 0,4, dan zeggen we "het verschil is gering".
|
Voorwaarden
Het gebruik van deze regels is echter gebonden aan condities. Een belangrijke
conditie is die van de hoeveelheid data.Deze wordt alleen bij 'cumulatief
percentage' genoemd.
Het vergelijken van twee groepen met behulp van boxplots is een informele
methode, dus een methode zonder formules. De hoeveelheid data mag niet al
te klein zijn om tot min of meer verantwoorde uitspraken te komen. Deze
methode was in de onderbouw nog wel geschikt voor de introductie van het
doen van statistische uitspraken. Tegenwoordig is echter het vergelijken
van dotplots een betere en handiger methode omdat de oorspronkelijke data
hierbij in beeld blijven. Waarom wordt deze in de bovenbouw niet ingezet?
Regels zoals die voor de effectgrootte komen in diverse varianten voor,
elk met een eigen naam. Ze worden vooral gebruikt bij de sociale
wetenschappen en het hanteren van die regels is sterk afhankelijk van de
context. Het formuleblad wekt echter de indruk dat statistiek bedrijven een
kwestie is van domweg formules en regeltjes toepassen, ongeacht de context.
Dat is geheel in strijd met wat ooit de bedoeling was van het nieuwe
examenprogramma.
Betrouwbaarheidsintervallen
Over de interpretatie van het concept 'betrouwbaarheidsinterval' heeft
Gerard al het nodige gezegd. Mij lijkt dat opgave 3 niet door de beugel
kan en daarom uit het examen geschrapt zou moet worden. De gedachte
achter deze opgave is wel aardig maar de uitvoering is niet in orde.
Op het formuleblad staan twee definities van het 95%-betrouwbaarheidsinterval,
één voor het populatiegemiddelde en één voor de populatieproportie. Die
laatste definitie is bruikbaar wanneer je je, net als in vraag 3, afvraagt
welk deel van alle Nederlander "vertrouwen in de medemens heeft". Bij beide
definities hebben is het gebruik gebonden aan condities omdat de formule
niet meer dan een benadering beoogt te zijn. De notatie van beide
betrouwbaarheidsintervallen is op zijn zachtst gezegd nogal slordig.
Zoveel meer mogelijk
Ik denk dat we met dit soort vuistregels en trucs het paard achter de
statistische wagen spannen. Met steekproevenverdelingen en de introductie
van SBI (simulation based inference) is zoveel meer mogelijk op het gebied
van statistisch redeneren, zelfs op een schriftelijk examen.
Een eenvoudig voorbeeld is om afbeeldingen van steekproevenverdelingen
bij verschillende steekproefproporties en/of verschillende waarden van
de steekproefgrootte te geven. Daarmee moet een betrouwbaarheidsinterval
gemaakt worden of een p-waarde (overschrijdingswaarde) bepaald worden,
waarmee vervolgens een juiste statistische uitspraak kan worden gedaan.
Carel van de Giessen