Het verstandig omgaan met data is een belangrijk doel van het
statistiekonderwijs. Meestal wordt ervan uitgegaan dat de gebruikte
dataverzameling zelf betrouwbaar is. Maar wanneer die data dagelijks
of wekelijks worden vrijgegeven, is dat verre van vanzelfsprekend,
zoals een nadere analyse van de corona-besmettingscijfers laat
zien.
Ruim een maand geleden, op vrijdag 30 oktober 2020, meldden veel
nieuwsmedia dat er de laatste 24 uur ruim elfduizend besmettingen
met covid-19 waren bijgekomen. In veel latere overzichten staat deze
datum gemarkeerd als de (voorlopige) top in de tweede besmettingsgolf.
Wie echter de moeite nam om de via het RIVM gepubliceerde GGD-gegevens
nader te bestuderen, kon zien dat de meldingen voor meer dan de helft
betrekking hadden op registraties van meer dan vijf dagen daarvoor.
De verkeerde voorstelling van zaken op 30 oktober 2020 was geen uitzondering.
De aantallen die onder de noemer 'de laatste 24 uur' worden gepresenteerd,
betreffen steeds een aantal dat is ontstaan nadat de administratie, die
vaak dagen en soms zelfs weken achterloopt, weer een stuk is bijgewerkt.
Mediaan gezien is de achterstand op dit moment ongeveer 3 tot 4 dagen.
Eind september was die achterstand zelfs 5 tot 6 dagen. De onderstaande
grafiek, die is gemaakt door
Jan
Borst, brengt voor de periode vanaf 1 juli 2020 die wisselende
achterstand mooi in beeld.
Tien dagen eerder
Hoeveel nieuwe besmettingen waren er nu werkelijk op 29 oktober 2020
(de 24 uur voor 30 oktober)? De cijfers worden nog steeds aangepast
maar toch kunnen we dat nu, vijf weken na dato, redelijk inschatten.
Het blijkt dat er op die datum ruim zeven duizend besmettingen zijn
bijgekomen. Dat is veel minder dan de eerder genoemde elfduizend.
Misschien belangrijker is dat achteraf kan worden geconstateerd dat
de aantallen al enige tijd aan het dalen waren. Achteraf kan worden
geconstateerd dat de top, met nog geen tienduizend besmettingen,
ongeveer tien dagen eerder werd bereikt.
Een belangrijk maar vaak onbesproken probleem is dat het erg lang duurt
voordat de cijfers van de GGD's min of meer compleet zijn. Die cijfers
komen maar mondjesmaat binnen vanwege capaciteitsproblemen en omdat men
bij ieder geval zo goed als mogelijk probeert om de dag van de eerste
ziekteverschijnselen te achterhalen. Voor het achterhalen van de juiste
dagelijkse frequenties moeten we dus noodgedwongen ver naar achteren
kijken.
Reconstructie
Met de huidige gegevens heb ik een goed beeld weten te reconstrueren
van de ontwikkeling tot half november 2020. Door gebruik te maken van
een zevendaags voortschrijdend gemiddelde (deze dag en de drie dagen
ervoor en erna) krijgen we een mooie, vloeiende grafiek.
Doorgaans wordt geschetst dat er begin november 2020 een spectaculaire
halvering van het aantal besmettingen te zien zou zijn. Mijn reconstructie
laat echter zien dat het zevendaags gemiddelde stijgt naar ruim 9000 op
21 oktober 2020 daarna in twee weken tijd daalt met ongeveer 40%. Dat is
toch een wat ander verhaal.
Betrouwbaar beeld
Hoe kunnen we nu een betrouwbaar inzicht verkrijgen op de meer recente
ontwikkelingen van het aantal besmettingen, wetende dat het behoorlijk
lang duurt voordat de cijfers stabiliseren? Dat is een vraag waarmee het
vakgebied van de beschrijvende statistiek zich niet bezighoudt. Ik
denk dat we voor dat doel het beste gebruik kunnen maken van reeksen cijfers
met een zelfde ouderdom. De op 30 oktober bekende dagfrequentie van
26 oktober moet je bijvoorbeeld dus vergelijken met de op 20 oktober
bekende dagfrequentie van 16 oktober en niet met de later gecorrigeerde
dagfrequentie van 16 oktober. Uiteraard vergelijk je dan frequenties
die per stuk veel te laag zijn maar het blijkt dat je op die manier
wel een betrouwbaar beeld krijgt van de
ontwikkeling, zeker als je
werkt met een ouderdom van tenminste drie dagen.
In de onderstaande grafiek laat ik dat zien. Ik gebruik in die grafiek
weektotalen in plaats van voortschrijdend daggemiddelden. Verticaal
heb ik een logaritmische schaalverdeling gebruikt.
Mede vanwege de logaritmische schaalverdeling tekent de grote lijn
zich duidelijk af. Tussen begin september en midden oktober verdubbelde
het aantal geregistreerde besmettingen ongeveer elke twee weken. Daarna
nam de groei af en ging in de tweede helft van oktober over in een daling.
Die daling stagneerde na twee weken. Let vooral op de voorspellende waarde
van de gegevens met een ouderdom van meer dan drie dagen.
Garbage in, garbage out
Om de hierboven door mij verschafte duidelijkheid te verkrijgen, is het
nodig om verder te kijken dan je statistische neus lang is. Dat is een
les die wij onze leerlingen tijdens het statistiekonderwijs ook moeten
leren. Een goed zicht op de kwaliteit en de aard van de data is van
levensbelang.
Garbage in, garbage out is nog steeds actueel.
Gerard Koolstra