Hauptnavigation

Prognose der COVID Neuinfektionen

Ansprechpartner: Prof. Dr. Erich Schubert, Lehrstuhl für Künstliche Intelligenz, TU Dortmund

Wichtig: Dies ist ein rein datenorientiertes Modell, das keine epidemologischen Erkenntnisse in Betracht zieht. Es modelliert die gemeldeten Infektionen, und damit auch die Arbeitszeiten der Gesundheitsämter und Labore (und damit die Zahl, die wir in den Nachrichten sehen - die echten Infektionen können wir nicht beobachten, wir arbeiten stets mit Meldungen). Während es kurzfristig (1-5 Tage) eine gute Vorhersagekraft hat wie viele Neufälle an dem Tag gemeldet werden, ist es weniger gut geeignet die langfristige Entwicklung zu modellieren. Der zum Teil ausgeprägte Wochenrhythmus ist weniger darauf zurückzuführen, dass man sich am Wochenende weniger anstecken würde, sondern dass die Gesundheitsämter und Labore am Wochenende weniger Akten bzw. Proben bearbeiten. Insbesondere sollte es daher nicht als Grundlage für politische Entscheidungen dienen, gerade für zukünftige Änderungen der Maßnahmen. Eine wesentlich genauere Modellierung findet sich in aktuellen Lageberichten des RKI unter dem Stichwort "Nowcasting". Eine entsprechende Imputation der Erkrankungsdaten findet hier (noch) nicht statt, daher arbeiten wir derzeit mit den Meldedaten, und modellieren die (für die öffentliche Wahrnehmung präsenteren) Meldezahlen.

Es ist gewollt dass das Modell die frühen Daten schlecht erfasst; während auf den aktuellen Daten ein wesentlich höheres Gewicht liegt (um sich ändernden Rahmenbedingungen Rechnung zu tragen). Aktuell verwenden wir ein Modell mit einer Halbwertszeit von 7 Tagen: Daten haben nach 7 Tagen die Hälfte ihres "Gewichts" verloren. Das Modell passt wesentlich besser bei großen Fallzahlen (bspw. Bundesebene), während es für Landkreise mit wenigen Fällen (bspw. Suhl) wenig Sinn ergibt so ein Modell zu verwenden.

Feiertagseffekte wie Ostern führen zu größeren Abweichungen in der Saisonalität. So zeigt der 16.4. vermutlich erhöhrte Zahlen, die eigentlich dem Osterwochenende zugehörig sind, am Karfreitag sowie Ostermontag (aber auch Dienstag und Mittwoch) waren hingegen geringere, eher für ein Wochenende typische, Zahlen zu sehen. Dies liegt an der Zeitverzögerung durch Probenentnahme, Laboruntersuchung, Aktenverarbeitung in den Gesundheitsämtern, Publikation auf der Webseite und oft noch später die Meldung an das RKI.

Da die RKI-Zahlen eine starke Zeitverzögerung aufweisen (nur etwa 30% der Meldungen sind am nächsten Tag erfasst, etwa 80% nach zwei Tagen; beachten Sie, dass die vom RKI bekannt gegebene "Änderung zum Vortag" die neu gemeldeten Fälle unabhängig von ihrem Datum betrifft), wechseln wir für die aktuellen Tage dann auf die Zahlen von Risklayer-CEDIM / KIT, die auch verwendet werden von Tagesspiegel, ZDF, Berliner Morgenpost, John Hopkins, u.v.m.

Die Modelle werden i.d.R. im Laufe des Vormittags aktualisiert, wenn sowohl die RKI als auch die Risklayer Daten vorliegen. Datenstand: n/a.

Bundesland / Landkreis:  

Methodik:

Statt den kumulativen Zahlen werden hier die täglich gemeldeten Fallzahlen modelliert.

Die Modelle werden auf den log(1+x) transformierten Daten berechnet, da Abweichungen bei großen Fallzahlen einen kleineren Fehler darstellen.

Da die Meldungen einen deutlichen Wochenrhythmus aufweisen, wird zunächst mit einer Faltung der Wochenrhythmus bestimmt, und als Feature extrahiert.

Anschließend wird eine Weighted Least Squares Regression (WLS) durchgeführt. Dabei hat das Modell als Eingabedaten die Features (i) konstant 1, (ii) den linearen Zeitpunkt t, (iii) den quadratischen Zeitpunkt t², (iv) den Wochenrhythmus. Die Gewichte sind dabei entsprechend einer Halbwertszeit von 7 Tagen gewählt, so dass das Modell die neuesten Daten am stärksten gewichtet, und sich auf die frühen Daten weniger gut anpasst.

Für die Feiertage Karfreitag udnd Ostermontag wird im Wochenrhythmus der Wert des Samstags bzw. Sonntags übernommen, für den Dienstag und Mittwoch in der Osterwoche die Montags- und Dienstagswerte, um dem Nachlauf der Verarbeitungskette Rechnung zu tragen. Dennoch ist dies nur eine heuristische, unvollständige Erfassung der Problematik, dass an Wochenenden und Feiertagen eine geringere Probenentnahme- und Labortätigkeit erfolgt.

Der empirische effektive Reproduktionsfaktor wird in Anlehnung an das RKI berechnet als die Zahl der Infektionen an den Tagen t+1..t+4 geteilt durch die Zahl der Infektionen der Tage t-3..t. Wie das RKI verwenden wir eine Generationenzeit von 4. Bei weniger als 4 Fällen wird der Wert nicht angezeigt da er zu ungenau wird, und oberhalb fügen wir einen Pseudocount in Zähler und Nenner bei der Berechnung ein, um die Werte zusätzlich zu stabilisieren. Das 4 Tage statt 7 Tage-Fenster führt bei diesen Daten zu einem deutlichen Wochenrhythmus, man sieht aber dennoch dass unser Modellwert einem gemittelten Verlauf ähnelt. Im desaisonalisierten Modell tritt das Problem naturgemäß nicht auf, und wir können auch die Entwicklung des Wertes prognostizieren versuchen. Dabei ist zu beachten dass so ein Quotient instabil wird, wenn wir uns an die 0 Fälle annähern.

Datenbasis:

Datenstand: n/a

Primäre Datenquelle sind die RKI Daten:

Die Daten sind die „Fallzahlen in Deutschland“ des Robert Koch-Institut (RKI) und stehen unter der Open Data Datenlizenz Deutschland – Namensnennung – Version 2.0 zur Verfügung.

Quellenvermerk: Robert Koch-Institut (RKI), dl-de/by-2-0

„Die Inhalte, die über die Internetseiten des Robert Koch-Instituts zur Verfügung gestellt werden, dienen ausschließlich der allgemeinen Information der Öffentlichkeit, vorrangig der Fachöffentlichkeit“

Um den Meldeverzug in den RKI-Daten auszugleichen werden für die letzten Tage zusätzlich die per Crowdsourcing von Risklayer gesammelten Meldungen der Landkreise auf den jeweiligen Homepages genutzt.

Quellenvermerk: Risklayer GmbH (www.risklayer.com) and Center for Disaster Management and Risk Reduction Technology (CEDIM) at Karlsruhe Institute of Technology (KIT) and the Risklayer-CEDIM SARS-CoV-2 Crowdsourcing Contributors.