RIVM zou grotere voorspellingsintervallen moeten hanteren

Als econometrist volg ik in deze moeilijke tijden met veel belangstelling het RIVM en haar voorspellingen. Goede voorspellingen vereisen vaak domeinkennis en als er één partij is die die kennis heeft op het gebied van epidemieën is het het RIVM. Voorspellen is erg ingewikkeld. Zoals Niels Bohr ooit zei: “It is difficult to make predictions, especially about the future.” Toch is dat precies wat het RIVM doet. Ik maak mezelf geen illusies dat ik betere voorspellingen zou maken en ik ga die voorspellingen dan ook niet maken.

Maar als econometrist is er niets interessanter dan controleren of voorspellingen uitkomen. (Cross-)valideren of backtesten wordt dat genoemd. Dat kan je ook bij de voorspellingen van het RIVM doen. Het is daarbij wat mij betreft niet zo interessant te kijken naar de puntvoorspellingen, maar met name om te kijken naar het voorspellingsinterval. Het voorspellingsinterval geeft aan tussen welke waardes de werkelijke data in 95% van de gevallen liggen. Dit kan natuurlijk ook voor een andere betrouwbaarheid zoals 90% of 60% worden aangegeven, maar 95% is het meest gebruikelijk. In de praktijk betekent dat een voorspelling zoals: ‘op 1 juni zullen er met 95% zekerheid tussen de 200 en 300 patiënten op de IC liggen.’

Eigenlijk zijn er twee soorten definities van voorspellingsintervallen:

  • De theoretische definitie: bepalen wat de onzekerheid is van de voorspellingen, er vanuitgaande dat je de juiste modelstructuur hebt gekozen. Deze rolt vrij eenvoudig uit je model.
  • De praktische definitie: bepalen wat de onzekerheid is van de voorspellingen in de praktijk (niet wetende of het gekozen model klopt). Dat is wat beleidsmakers willen weten.

Het spreekt voor zich dat beleidsmakers eigenlijk alleen met de praktische definitie van een voorspellingsinterval uit de voeten kunnen. Het RIVM zou dan ook betrouwbaarheidsintervallen voor de praktische definitie moeten hanteren. Op basis van die praktische definitie, is het ook mogelijk te analyseren of de afgegeven voorspellingsintervallen juist zijn. Dit doe je door te kijken of de werkelijke data in 95% van de gevallen binnen het voorspellingsinterval valt.

Klopt het voorspellingsinterval van het RIVM een beetje?

Ik heb uit de technische briefings van het RIVM aan de Tweede Kamer de voorspellingen van het aantal bezette IC-bedden gehaald. Ik gebruik hiervoor de voorspellingen vanaf 1 april: daarna zijn er vrijwel geen nieuwe maatregelen bijgekomen en voor 1 april is het model structureel aangepast op basis van nieuwe gegevens. Ik heb in al die voorspellingen het werkelijk aantal IC-bedden (geregistreerd door het NICE) geplot met een rode lijn. De datapunten het aantal bezette bedden die het RIVM plot wijken iets af van de ruwe NICE-cijfers, maar naar dit verschil valt in het niet bij de vergelijking tussen de voorspelling van het RIVM en de werkelijke resultaten. De RIVM grafiek uit de briefing met het werkelijke aantal bezette IC-bedden in rood is hieronder weergegeven:

Voorspelling RIVM op 1 april

We zien dat het RIVM op 1 april een voorspellingsinterval geeft wat voor 1 mei loopt tussen de 1.400 en meer dan 3.000 bedden. Het RIVM schat op 1 april de kans op een IC-bezetting van minder dan 1400 bedden op minder dan 5% (niet binnen het 95%-interval). Het RIVM had hier dus te veel vertrouwen in haar voorspelling. We zien dat de RIVM-voorspellingen aardig kloppen voor de eerste 14 dagen, maar verder in de tijd niet meer. Dit geldt ook voor de voorspelling van een week later (8 april). De voorspellingsintervallen van de weken daarna vertonen niet echt een afwijking met de werkelijke uitkomsten, maar er is daarbij ook nog niet genoeg data om voorspellingen een maand vooruit te kunnen valideren.

Conclusie

De voorspellingsintervallen van het RIVM zijn te nauw gekozen: het RIVM was zeker in april iets te zeker van haar zaak. Ik vermoed dat het RIVM de theoretische definitie van het voorspellingsinterval hanteert (welke meestal nauwere voorspellingsintervallen oplevert), in plaats van de praktische en voor beleidsmakers relevante definitie. Bij toekomstige voorspellingen zou het RIVM haar voorspellingsinterval moeten aanpassen op basis van deze resultaten.

Wanneer ik de laatste voorspellingen van het RIVM zie (7 mei), dan vind ik het voorspellingsinterval er te nauw uitzien. Ik denk niet dat het RIVM een maand vooruit op 75 bedden nauwkeurig kan inschatten hoeveel patiënten er op de IC liggen. De kans dat het werkelijke aantal bezette IC-bedden anderhalf keer zo hoog of anderhalf keer zo laag wordt lijkt me reëel (en niet kleiner dan 5%). Ik denk dat het RIVM er goed aan zou doen in de berekening van de voorspellingsintervallen rekening te houden met de betrouwbaarheid van afgelopen voorspellingen. Dat geeft beleidsmakers nog een beter beeld dan ze nu al krijgen.

Reacties zijn gesloten.