Google Grippe-Trends - Google Flu Trends

Daten von Google Grippe-Trends, Südafrika

Google Flu Trends ( GFT ) war ein von Google betriebener Webservice . Es lieferte Schätzungen der Influenza- Aktivität für mehr als 25 Länder. Durch die Aggregation von Google- Suchanfragen wurde versucht, genaue Vorhersagen über die Grippeaktivität zu treffen. Dieses Projekt wurde erstmals 2008 von Google.org ins Leben gerufen, um Grippeausbrüche vorherzusagen.

Google Grippe-Trends veröffentlicht am 9. August 2015 keine aktuellen Schätzungen mehr. Historische Schätzungen stehen weiterhin zum Download zur Verfügung und aktuelle Daten werden zu deklarierten Forschungszwecken angeboten.

Geschichte

Die Idee hinter Google Grippe-Trends war, dass durch die Online-Überwachung des Gesundheitsverhaltens von Millionen von Nutzern die große Anzahl der gesammelten Google-Suchanfragen analysiert werden kann, um festzustellen, ob in einer Bevölkerung grippeähnliche Erkrankungen vorliegen. Google Grippe-Trends hat diese Ergebnisse mit einem historischen Basiswert der Influenza-Aktivität für die entsprechende Region verglichen und das Aktivitätsniveau dann entweder als minimal, niedrig, mäßig, hoch oder intensiv gemeldet. Diese Schätzungen standen im Allgemeinen im Einklang mit herkömmlichen Überwachungsdaten, die von Gesundheitsbehörden sowohl auf nationaler als auch auf regionaler Ebene erhoben wurden.

Roni Zeiger half bei der Entwicklung von Google Grippe-Trends.

Methoden

Es wurde beschrieben, dass Google Grippe-Trends die folgende Methode verwendet, um Informationen über Grippe-Trends zu sammeln.

Zunächst wird eine Zeitreihe für etwa 50 Millionen häufige Abfragen berechnet, die in den USA von 2003 bis 2008 wöchentlich eingegeben werden. Die Zeitreihen einer Abfrage werden für jeden Bundesstaat separat berechnet und in einen Bruchteil normalisiert, indem die Anzahl jeder Abfrage durch die Anzahl der alle Abfragen in diesem Zustand. Durch die Identifizierung der mit jeder Suche verknüpften IP-Adresse kann festgestellt werden, in welchem ​​Zustand diese Anfrage eingegeben wurde.

Ein lineares Modell wird verwendet, um die Log-Odds von Arztbesuchen bei Influenza-like-Krankheit (ILI) und die Log-Odds von ILI-bezogenen Suchanfragen zu berechnen:

P ist der Prozentsatz des ILI-Arztbesuchs und Q ist der ILI-bezogene Abfrageanteil, der in den vorherigen Schritten berechnet wurde. β 0 ist der Achsenabschnitt und β 1 ist der Koeffizient, während ε der Fehlerterm ist.

Jede der 50 Millionen Abfragen wird als Q getestet, um zu sehen, ob das aus einer einzelnen Abfrage berechnete Ergebnis mit den tatsächlichen ILI-Geschichtsdaten der US-amerikanischen Centers for Disease Control and Prevention (CDC) übereinstimmen könnte. Dieser Prozess erzeugt eine Liste der Top-Abfragen, die bei Verwendung des linearen Modells die genauesten Vorhersagen von CDC-ILI-Daten liefert. Dann werden die 45 wichtigsten Abfragen ausgewählt, da diese Abfragen, wenn sie zusammen aggregiert werden, am genauesten zu den Verlaufsdaten passen. Unter Verwendung der Summe der 45 wichtigsten ILI-bezogenen Abfragen wird das lineare Modell an die wöchentlichen ILI-Daten zwischen 2003 und 2007 angepasst, um den Koeffizienten zu erhalten. Schließlich wird das trainierte Modell verwendet, um den Grippeausbruch in allen Regionen der Vereinigten Staaten vorherzusagen.

Dieser Algorithmus wurde anschließend von Google überarbeitet, teilweise als Reaktion auf Bedenken hinsichtlich der Genauigkeit, und Versuche, seine Ergebnisse zu replizieren, haben ergeben, dass die Algorithmus-Entwickler "ein unartikuliertes Bedürfnis verspürten, die tatsächlich identifizierten Suchbegriffe zu verschleiern".

Datenschutzbedenken

Google Grippe-Trends versucht, Datenschutzverletzungen zu vermeiden, indem nur Millionen anonymer Suchanfragen zusammengefasst werden, ohne die Personen zu identifizieren, die die Suche durchgeführt haben. Ihr Suchprotokoll enthält die IP-Adresse des Benutzers, die verwendet werden könnte, um die Region zurückzuverfolgen, in der die Suchanfrage ursprünglich gestellt wurde. Google führt Programme auf Computern aus, um auf die Daten zuzugreifen und sie zu berechnen, sodass kein Mensch an dem Vorgang beteiligt ist. Google hat auch die Richtlinie zur Anonymisierung der IP-Adresse in seinen Suchprotokollen nach 9 Monaten implementiert.

Google Grippe-Trends hat jedoch bei einigen Datenschutzgruppen Bedenken hinsichtlich des Datenschutzes geäußert. Das Electronic Privacy Information Center und Patient Privacy Rights schickten 2008 einen Brief an Eric Schmidt , den damaligen CEO von Google. Sie räumten ein, dass die Verwendung von nutzergenerierten Daten die Bemühungen um die öffentliche Gesundheit erheblich unterstützen könnte, äußerten jedoch ihre Besorgnis, dass "nutzerspezifische Untersuchungen auch gegen Googles Einspruch durch Gerichtsbeschluss oder Präsidialbehörde erzwungen werden könnten".

Auswirkung

Eine anfängliche Motivation für GFT bestand darin, dass die Möglichkeit, Krankheitsaktivitäten frühzeitig zu erkennen und schnell darauf zu reagieren, die Auswirkungen der saisonalen und pandemischen Influenza verringern könnte. Einem Bericht zufolge konnte Google Grippe-Trends regionale Grippeausbrüche bis zu 10 Tage vorhersagen, bevor sie von den CDC (Centers for Disease Control and Prevention) gemeldet wurden.

Bei der Grippepandemie von 2009 hat Google Grippe-Trends Informationen zur Grippe in den USA erfasst. Im Februar 2010 identifizierte die CDC Influenza-Fälle in der mittleren Atlantikregion der Vereinigten Staaten. Die Daten von Google zu Suchanfragen zu Grippesymptomen konnten jedoch zwei Wochen vor der Veröffentlichung des CDC-Berichts denselben Anstieg zeigen.

„Je früher die Warnung erfolgt, desto früher können Präventions- und Kontrollmaßnahmen ergriffen werden, und dies könnte Grippefälle verhindern“, sagte Dr. Lyn Finelli, Leiterin der Überwachung bei der Influenza-Abteilung der CDC. „5 bis 20 Prozent der Bevölkerung des Landes erkranken jedes Jahr an der Grippe, was im Durchschnitt zu etwa 36.000 Todesfällen führt.“

Google Grippe-Trends ist ein Beispiel für kollektive Intelligenz , mit der Trends erkannt und Vorhersagen berechnet werden können. Die von Suchmaschinen gesammelten Daten sind sehr aufschlussreich, da die Suchanfragen die ungefilterten Wünsche und Bedürfnisse der Menschen darstellen. „Dies scheint eine wirklich clevere Art zu sein, Daten, die von den Nutzern von Google unbeabsichtigt erstellt werden, zu nutzen, um Muster in der Welt zu erkennen, die sonst unsichtbar wären“, sagt Thomas W. Malone, Professor an der Sloan School of Management am MIT. „Ich denke, wir kratzen nur an der Oberfläche dessen, was mit kollektiver Intelligenz möglich ist.“

Genauigkeit

Das erste Google-Papier besagte, dass die Vorhersagen von Google Grippe-Trends im Vergleich zu CDC-Daten zu 97 % genau waren. Spätere Berichte stellten jedoch fest, dass die Vorhersagen von Google Grippe-Trends manchmal sehr ungenau waren – insbesondere für den Zeitraum 2011-2013, als er die relative Grippeinzidenz durchweg überschätzte und in einem Intervall in der Grippesaison 2012-2013 doppelt so viele Arztbesuche vorhergesagt wurden wie die CDC aufgezeichnet.

Eine Ursache für Probleme besteht darin, dass Personen, die eine Grippe-bezogene Google-Suche durchführen, möglicherweise sehr wenig darüber wissen, wie man eine Grippe diagnostizieren kann. Bei der Suche nach Grippe oder Grippesymptomen kann durchaus nach Krankheitssymptomen gesucht werden, die der Grippe ähneln, aber keine Grippe sind. Darüber hinaus hat die Analyse von Suchbegriffen, die Berichten zufolge von Google verfolgt wurden, wie "Fieber" und "Husten", sowie die Auswirkungen von Änderungen des Suchalgorithmus im Laufe der Zeit zu Bedenken hinsichtlich der Bedeutung der Vorhersagen geführt. Im Herbst 2013 versuchte Google, den Anstieg der Suchanfragen aufgrund der Bekanntheit der Grippe in den Nachrichten zu kompensieren, deren Ergebnisse zuvor verzerrt waren. Eine Analyse kam jedoch zu dem Schluss, dass "durch die Kombination von GFT- und verzögerten CDC-Daten sowie durch die dynamische Neukalibrierung von GFT wir die Leistung von GFT oder CDC allein erheblich verbessern können." Eine spätere Studie zeigt auch, dass Google-Suchdaten tatsächlich verwendet werden können, um Schätzungen zu verbessern, indem die Fehler in einem Modell, das nur CDC-Daten verwendet, um bis zu 52,7 Prozent reduziert werden.

Bei der Neubewertung des ursprünglichen GFT-Modells stellten die Forscher fest, dass das Modell Anfragen zu verschiedenen Gesundheitszuständen aggregiert, was zu einer Übervorhersage der ILI-Raten führen könnte. in derselben Arbeit wurde eine Reihe fortschrittlicherer linearer und nichtlinearer Ansätze mit besserer Leistung für die ILI-Modellierung vorgeschlagen.

Verwandte Systeme

Ähnliche Projekte wie das Grippe-Vorhersageprojekt des Instituts für Kognitionswissenschaft Osnabrück führen die Grundidee weiter, indem sie Social-Media- Daten zB Twitter mit CDC- Daten und Strukturmodellen kombinieren, die auf die räumliche und zeitliche Ausbreitung der Krankheit schließen.

Verweise

Externe Links