Große Daten - Big data

Wachstum und Digitalisierung der globalen Informationsspeicherkapazität

Big Data ist ein Feld , das behandelte Möglichkeit zu analysieren, systematisch Extraktion von Informationen aus oder auf andere Weise beschäftigt Datensatz , die zu groß oder komplex sind mit von den traditionellen behandelt wird Datenverarbeitungsanwendungssoftware . Daten mit vielen Feldern (Spalten) bieten eine größere statistische Aussagekraft , während Daten mit höherer Komplexität (mehr Attribute oder Spalten) zu einer höheren Fehlerkennungsrate führen können . Zu den Herausforderungen bei der Big-Data-Analyse gehören das Erfassen von Daten , die Datenspeicherung , die Datenanalyse , die Suche, das Teilen , die Übertragung , die Visualisierung , das Abfragen , die Aktualisierung, der Datenschutz und die Datenquelle. Big Data wurde ursprünglich mit drei Schlüsselkonzepten in Verbindung gebracht: Volumen , Vielfalt und Geschwindigkeit . Die Analyse von Big Data stellt bei der Stichprobenerhebung eine Herausforderung dar und ermöglichte daher bisher nur Beobachtungen und Stichproben. Daher umfasst Big Data häufig Daten mit einer Größe, die die Kapazität herkömmlicher Software zur Verarbeitung innerhalb einer akzeptablen Zeit und eines akzeptablen Werts übersteigt .

Die derzeitige Verwendung des Begriffs Big Data bezieht sich in der Regel auf die Verwendung von Predictive Analytics , User Behavior Analytics oder bestimmten anderen fortschrittlichen Datenanalysemethoden, die aus Big Data Wert gewinnen , und selten auf eine bestimmte Größe von Datensätzen. "Es besteht kein Zweifel, dass die jetzt verfügbaren Datenmengen zwar groß sind, aber das ist nicht das relevanteste Merkmal dieses neuen Datenökosystems." Durch die Analyse von Datensätzen können neue Zusammenhänge gefunden werden, um „Geschäftstrends zu erkennen, Krankheiten vorzubeugen, Kriminalität zu bekämpfen und so weiter“. Wissenschaftler, Führungskräfte aus der Wirtschaft, Mediziner, Werbung und Regierungen treffen regelmäßig auf Schwierigkeiten mit großen Datensätzen in Bereichen wie Internetrecherchen , Fintech , Gesundheitsanalyse, geografische Informationssysteme, Stadtinformatik und Wirtschaftsinformatik . Wissenschaftler stoßen bei e-Science- Arbeiten auf Grenzen , darunter Meteorologie , Genomik , Konnektomie , komplexe physikalische Simulationen, Biologie und Umweltforschung.

Die Größe und Anzahl der verfügbaren Datensätze ist schnell gewachsen, da Daten von Geräten wie mobilen Geräten , billigen und zahlreichen informationserfassenden Internet-of-Things- Geräten, Antenne ( Fernerkundung ), Softwareprotokollen, Kameras , Mikrofonen, Radiofrequenz-Identifikation gesammelt werden (RFID-)Lesegeräte und drahtlose Sensornetzwerke . Die technologische Kapazität der Welt zur Speicherung von Informationen pro Kopf hat sich seit den 1980er Jahren alle 40 Monate ungefähr verdoppelt; Ab 2012 werden täglich 2,5 Exabyte (2,5×2 60 Byte) an Daten generiert. Basierend auf einer IDC- Berichtsvorhersage wurde prognostiziert, dass das globale Datenvolumen zwischen 2013 und 2020 exponentiell von 4,4 Zettabyte auf 44 Zettabyte anwachsen wird. Bis 2025 prognostiziert IDC 163 Zettabytes an Daten. Für große Unternehmen stellt sich die Frage, wer Eigentümer von Big-Data-Initiativen sein sollte, die das gesamte Unternehmen betreffen.

Relationale Datenbankverwaltungssysteme und Desktop-Statistiksoftwarepakete, die zur Visualisierung von Daten verwendet werden, haben oft Schwierigkeiten, große Datenmengen zu verarbeiten und zu analysieren. Die Verarbeitung und Analyse von Big Data erfordert möglicherweise „massiv parallele Software, die auf zehn, Hundert oder sogar Tausenden von Servern läuft“. Was als „Big Data“ bezeichnet wird, hängt von den Fähigkeiten der Analysierenden und ihren Tools ab. Darüber hinaus machen die erweiterten Fähigkeiten Big Data zu einem beweglichen Ziel. "Für einige Unternehmen kann es erforderlich sein, die Datenverwaltungsoptionen zu überdenken, wenn sie zum ersten Mal mit Hunderten von Gigabyte an Daten konfrontiert werden . Für andere kann es Dutzende oder Hunderte von Terabyte dauern, bis die Datengröße eine wichtige Rolle spielt."

Definition

Der Begriff Big Data wird seit den 1990er Jahren verwendet, wobei einige John Mashey die Popularität des Begriffs zuschreiben . Big Data umfasst in der Regel Datensätze mit einer Größe, die die Fähigkeit gängiger Softwaretools zum Erfassen , Kuratieren , Verwalten und Verarbeiten von Daten innerhalb eines tolerierbaren Zeitraums übersteigt. Die Big-Data-Philosophie umfasst unstrukturierte, semi-strukturierte und strukturierte Daten, wobei der Schwerpunkt auf unstrukturierten Daten liegt. Die „Größe“ von Big Data ist ein sich ständig bewegendes Ziel; ab 2012 reicht die Bandbreite von einigen Dutzend Terabyte bis hin zu vielen Zettabyte an Daten. Big Data erfordert eine Reihe von Techniken und Technologien mit neuen Formen der Integration , um Erkenntnisse aus vielfältigen, komplexen und massiven Datensätzen zu gewinnen .

"Variety", "Veracity" und verschiedene andere "Vs" werden von einigen Organisationen hinzugefügt, um es zu beschreiben, eine Überarbeitung, die von einigen Branchenbehörden in Frage gestellt wird. Die Vs von Big Data wurden oft als „drei Vs“, „vier Vs“ und „fünf Vs“ bezeichnet. Sie repräsentierten die Qualitäten von Big Data in Bezug auf Volumen, Vielfalt, Geschwindigkeit, Richtigkeit und Wert. Variabilität wird oft als zusätzliche Qualität von Big Data miteinbezogen.

Eine Definition aus dem Jahr 2018 besagt: "Big Data ist, wo parallele Computing-Tools benötigt werden, um Daten zu verarbeiten", und stellt fest: "Dies stellt eine deutliche und klar definierte Veränderung in der verwendeten Informatik dar, durch parallele Programmiertheorien und den Verlust einiger der Garantien und Fähigkeiten des relationalen Modells von Codd ."

In einer vergleichenden Studie zu Big Datasets stellten Kitchin und McArdle fest, dass keines der allgemein betrachteten Merkmale von Big Data in allen analysierten Fällen konsistent vorkommt. Aus diesem Grund identifizierten andere Studien die Neudefinition von Machtdynamiken in der Wissensfindung als bestimmendes Merkmal. Anstatt sich auf die intrinsischen Eigenschaften von Big Data zu konzentrieren, fördert diese alternative Perspektive ein relationales Verständnis des Objekts, das behauptet, dass es darauf ankommt, wie Daten gesammelt, gespeichert, verfügbar gemacht und analysiert werden.

Big Data vs. Business Intelligence

Die zunehmende Reife des Konzepts grenzt den Unterschied zwischen „Big Data“ und „ Business Intelligence “ immer stärker ab :

  • Business Intelligence verwendet angewandte mathematische Werkzeuge und deskriptive Statistiken mit Daten mit hoher Informationsdichte, um Dinge zu messen, Trends zu erkennen usw.
  • Big Data verwendet mathematische Analyse, Optimierung, induktive Statistik und Konzepte der nichtlinearen Systemidentifikation , um Gesetze (Regressionen, nichtlineare Beziehungen und kausale Effekte) aus großen Datensätzen mit geringer Informationsdichte abzuleiten, um Beziehungen und Abhängigkeiten aufzudecken oder Vorhersagen von Ergebnisse und Verhaltensweisen.

Eigenschaften

Zeigt das Wachstum der Hauptmerkmale von Big Data in Bezug auf Volumen, Geschwindigkeit und Vielfalt

Big Data lässt sich durch folgende Merkmale beschreiben:

Volumen
Die Menge der generierten und gespeicherten Daten. Die Größe der Daten bestimmt den Wert und die potenziellen Erkenntnisse und ob es sich um Big Data handelt oder nicht. Die Größe von Big Data ist in der Regel größer als Terabyte und Petabyte.
Vielfalt
Art und Art der Daten. Die früheren Technologien wie RDBMSs waren in der Lage, strukturierte Daten effizient und effektiv zu verarbeiten. Der Wandel in Art und Natur von strukturiert zu halbstrukturiert oder unstrukturiert stellte jedoch die bestehenden Werkzeuge und Technologien in Frage. Die Big-Data-Technologien haben sich mit der Hauptabsicht entwickelt, halbstrukturierte und unstrukturierte (Vielfalt) Daten zu erfassen, zu speichern und zu verarbeiten, die mit hoher Geschwindigkeit (Geschwindigkeit) und enormer Größe (Volumen) erzeugt werden. Später wurden diese Tools und Technologien erforscht und für den Umgang mit strukturierten Daten verwendet, auch aber vorzugsweise für die Speicherung. Schließlich wurde die Verarbeitung strukturierter Daten weiterhin als optional belassen, entweder mithilfe von Big Data oder traditionellen RDBMS. Dies hilft bei der Analyse von Daten zur effektiven Nutzung der versteckten Erkenntnisse, die aus den über soziale Medien, Protokolldateien, Sensoren usw. gesammelten Daten gewonnen werden. Big Data bezieht sich auf Text, Bilder, Audio, Video; außerdem vervollständigt es fehlende Teile durch Datenfusion .
Geschwindigkeit
Die Geschwindigkeit, mit der die Daten generiert und verarbeitet werden, um die Anforderungen und Herausforderungen zu erfüllen, die auf dem Weg des Wachstums und der Entwicklung liegen. Big Data ist oft in Echtzeit verfügbar. Im Vergleich zu Small Data wird Big Data kontinuierlicher produziert. Zwei Arten von Geschwindigkeiten im Zusammenhang mit Big Data sind die Häufigkeit der Generierung und die Häufigkeit der Handhabung, Aufzeichnung und Veröffentlichung.
Richtigkeit
Die Wahrhaftigkeit oder Verlässlichkeit der Daten, die sich auf die Datenqualität und den Datenwert bezieht. Big Data muss nicht nur groß, sondern auch zuverlässig sein, um einen Wert bei der Analyse zu erzielen. Die Datenqualität der erfassten Daten kann stark variieren, was eine genaue Analyse beeinträchtigt.
Wert
Der Informationswert, der durch die Verarbeitung und Analyse großer Datensätze erreicht werden kann. Der Wert kann auch durch eine Bewertung der anderen Qualitäten von Big Data gemessen werden. Der Wert kann auch die Rentabilität von Informationen darstellen, die aus der Analyse von Big Data gewonnen werden.
Variabilität
Das Merkmal der sich ändernden Formate, Strukturen oder Quellen von Big Data. Big Data können strukturierte, unstrukturierte oder Kombinationen aus strukturierten und unstrukturierten Daten umfassen. Die Big-Data-Analyse kann Rohdaten aus mehreren Quellen integrieren. Die Verarbeitung von Rohdaten kann auch Transformationen von unstrukturierten Daten in strukturierte Daten beinhalten.

Weitere mögliche Merkmale von Big Data sind:

Erschöpfend
Ob das gesamte System (dh =alle) erfasst oder aufgezeichnet wird oder nicht. Big Data kann alle verfügbaren Daten aus Quellen umfassen oder nicht.
Feingranular und einzigartig lexikalisch
Jeweils der Anteil spezifischer Daten jedes Elements pro erfasstem Element und ob das Element und seine Eigenschaften ordnungsgemäß indiziert oder identifiziert sind.
relational
Wenn die gesammelten Daten gemeinsame Felder enthalten, die eine Zusammenführung oder Metaanalyse verschiedener Datensätze ermöglichen würden.
Erweiterungs
Wenn neue Felder in jedem Element der gesammelten Daten einfach hinzugefügt oder geändert werden können.
Skalierbarkeit
Wenn die Größe des Big-Data-Speichersystems schnell wachsen kann.

Die Architektur

Big-Data-Repositorys gibt es in vielen Formen, die oft von Unternehmen mit besonderem Bedarf erstellt wurden. Kommerzielle Anbieter boten in der Vergangenheit seit den 1990er Jahren parallele Datenbankverwaltungssysteme für Big Data an. WinterCorp veröffentlichte viele Jahre lang den größten Datenbankbericht.

1984 brachte die Teradata Corporation das Parallelverarbeitungssystem DBC 1012 auf den Markt. Teradata-Systeme waren die ersten, die 1992 1 Terabyte an Daten speicherten und analysierten. Festplatten waren 1991 2,5 GB groß, so dass sich die Definition von Big Data gemäß Kryders Gesetz ständig weiterentwickelt . Teradata installierte 2007 das erste RDBMS-basierte System der Petabyte-Klasse. Seit 2017 sind einige Dutzend relationale Teradata-Datenbanken der Petabyte-Klasse installiert, von denen die größte mehr als 50 PB umfasst. Systeme bis 2008 bestanden zu 100 % aus strukturierten relationalen Daten. Seitdem hat Teradata unstrukturierte Datentypen hinzugefügt, darunter XML , JSON und Avro.

Im Jahr 2000 entwickelte Seisint Inc. (jetzt LexisNexis Risk Solutions ) eine C++- basierte verteilte Plattform für die Datenverarbeitung und -abfrage, die als HPCC- Systemplattform bekannt ist. Dieses System partitioniert, verteilt, speichert und liefert strukturierte, halbstrukturierte und unstrukturierte Daten automatisch über mehrere Commodity-Server. Benutzer können Datenverarbeitungspipelines und Abfragen in einer deklarativen Datenflussprogrammiersprache namens ECL schreiben. Datenanalysten, die in ECL arbeiten, müssen keine Datenschemata im Voraus definieren, sondern können sich auf das jeweilige Problem konzentrieren und die Daten bei der Entwicklung der Lösung bestmöglich umgestalten. Im Jahr 2004 erwarb LexisNexis Seisint Inc. und ihre Hochgeschwindigkeits-Parallelverarbeitungsplattform und nutzte diese Plattform erfolgreich zur Integration der Datensysteme von Choicepoint Inc., als sie dieses Unternehmen im Jahr 2008 übernahmen. Im Jahr 2011 wurde die HPCC-Systemplattform als Open Source unter die Apache v2.0-Lizenz.

CERN und andere physikalische Experimente sammeln seit vielen Jahrzehnten große Datensätze, die normalerweise über Hochdurchsatz-Computing analysiert werden, anstatt über die Kartenreduktionsarchitekturen, die normalerweise von der aktuellen "Big Data"-Bewegung verstanden werden.

Im Jahr 2004 veröffentlichte Google ein Papier über einen Prozess namens MapReduce , der eine ähnliche Architektur verwendet. Das MapReduce-Konzept bietet ein Parallelverarbeitungsmodell und eine zugehörige Implementierung wurde veröffentlicht, um riesige Datenmengen zu verarbeiten. Mit MapReduce werden Abfragen aufgeteilt und auf parallele Knoten verteilt und parallel verarbeitet (der "Map"-Schritt). Die Ergebnisse werden dann gesammelt und geliefert (der Schritt "Reduzieren"). Das Framework war sehr erfolgreich, daher wollten andere den Algorithmus replizieren. Daher wurde eine Implementierung des MapReduce-Frameworks von einem Apache-Open-Source-Projekt namens „ Hadoop “ übernommen. Apache Spark wurde 2012 als Reaktion auf die Einschränkungen des MapReduce-Paradigmas entwickelt, da es die Möglichkeit bietet, viele Operationen einzurichten (nicht nur zuordnen und dann reduzieren).

MIKE2.0 ist ein offener Ansatz für das Informationsmanagement, der die Notwendigkeit von Überarbeitungen aufgrund der Auswirkungen von Big Data anerkennt, die in einem Artikel mit dem Titel "Big Data Solution Offering" identifiziert wurden. Die Methodik befasst sich mit dem Umgang mit Big Data in Bezug auf nützliche Permutationen von Datenquellen, Komplexität der Wechselbeziehungen und Schwierigkeiten beim Löschen (oder Ändern) einzelner Datensätze.

Studien aus dem Jahr 2012 haben gezeigt, dass eine mehrschichtige Architektur eine Option ist, um die Probleme von Big Data anzugehen. Eine verteilte parallele Architektur verteilt Daten auf mehrere Server; Diese parallelen Ausführungsumgebungen können die Datenverarbeitungsgeschwindigkeiten drastisch verbessern. Diese Art von Architektur fügt Daten in ein paralleles DBMS ein, das die Verwendung von MapReduce- und Hadoop-Frameworks implementiert. Diese Art von Framework soll die Verarbeitungsleistung für den Endbenutzer transparent machen, indem ein Front-End-Anwendungsserver verwendet wird.

Der Data Lake ermöglicht es einer Organisation, ihren Fokus von der zentralen Kontrolle auf ein gemeinsames Modell zu verlagern, um auf die sich ändernde Dynamik des Informationsmanagements zu reagieren. Dies ermöglicht eine schnelle Trennung der Daten in den Data Lake, wodurch die Overhead-Zeit reduziert wird.

Technologien

Ein Bericht des McKinsey Global Institute aus dem Jahr 2011 charakterisiert die Hauptkomponenten und das Ökosystem von Big Data wie folgt:

Multidimensionale Big Data lassen sich auch als OLAP -Datenwürfel oder mathematisch gesehen Tensoren darstellen . Array-Datenbanksysteme haben sich vorgenommen, für diesen Datentyp Speicher und Abfrageunterstützung auf hoher Ebene bereitzustellen. Zusätzliche Technologien, die auf Big Data angewendet werden, umfassen effiziente tensorbasierte Berechnungen, wie z. B. multilineares Subspace-Lernen , Datenbanken mit massiver Parallelverarbeitung ( MPP ), suchbasierte Anwendungen , Data Mining , verteilte Dateisysteme , verteilter Cache (z. B. Burst-Puffer und Memcached .). ), verteilte Datenbanken , Cloud- und HPC-basierte Infrastruktur (Anwendungen, Speicher- und Computerressourcen) und das Internet. Obwohl viele Ansätze und Technologien entwickelt wurden, ist es nach wie vor schwierig, maschinelles Lernen mit Big Data durchzuführen.

Einige relationale MPP- Datenbanken können Petabyte an Daten speichern und verwalten. Implizit ist die Möglichkeit zum Laden, Überwachen, Sichern und Optimieren der Verwendung der großen Datentabellen im RDBMS .

DARPA ‚s Topologische Datenanalyse - Programm soll die grundlegende Struktur der massiven Datenmengen und im Jahr 2008 ging die Technologie mit der Einführung einer Firma namens‚Ayasdi‘public.

Die Praktiker von Big-Data-Analyseprozessen stehen langsameren Shared-Storage im Allgemeinen feindlich gegenüber und bevorzugen Direct-Attached-Storage ( DAS ) in seinen verschiedenen Formen von Solid State Drive ( SSD ) bis hin zu SATA- Festplatten mit hoher Kapazität, die in parallelen Verarbeitungsknoten vergraben sind. Gemeinsame Speicherarchitekturen – Storage Area Network (SAN) und Network Attached Storage (NAS) – werden als relativ langsam, komplex und teuer wahrgenommen. Diese Eigenschaften stimmen nicht mit Big-Data-Analysesystemen überein, die von Systemleistung, Standardinfrastruktur und niedrigen Kosten profitieren.

Die Bereitstellung von Informationen in Echtzeit oder nahezu in Echtzeit ist eines der bestimmenden Merkmale der Big-Data-Analyse. Latenzzeiten werden daher wo immer möglich vermieden. Daten im direkt angeschlossenen Speicher oder auf der Festplatte sind in Ordnung – Daten auf dem Speicher oder der Festplatte am anderen Ende einer FC- SAN- Verbindung nicht. Die Kosten für ein SAN in dem für Analyseanwendungen erforderlichen Umfang sind viel höher als bei anderen Speichertechniken.

Anwendungen

Bus verpackt mit SAP Big Data außerhalb von IDF13 geparkt .

Big Data hat die Nachfrage von Informationsmanagement-Spezialisten so stark erhöht, dass Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP und Dell mehr als 15 Milliarden US-Dollar für Softwarefirmen ausgegeben haben, die sich auf Datenmanagement und -analyse spezialisiert haben. Im Jahr 2010 hatte diese Branche einen Wert von mehr als 100 Milliarden US-Dollar und wuchs um fast 10 Prozent pro Jahr: etwa doppelt so schnell wie das Softwaregeschäft insgesamt.

Industrieländer setzen zunehmend datenintensive Technologien ein. Weltweit gibt es 4,6 Milliarden Mobilfunkabonnements und zwischen 1 und 2 Milliarden Menschen greifen auf das Internet zu. Zwischen 1990 und 2005 traten weltweit mehr als 1 Milliarde Menschen in die Mittelschicht ein, was bedeutet, dass mehr Menschen lesen und schreiben konnten, was wiederum zu einem Informationswachstum führte. Die effektive Kapazität der Welt, Informationen über Telekommunikationsnetze auszutauschen, betrug 1986 281 Petabyte , 1993 471 Petabyte , 2000 2,2 Exabyte, 2007 65 Exabyte. Ein Drittel der global gespeicherten Informationen liegen in Form von alphanumerischen Text- und Standbilddaten vor, dem Format, das für die meisten Big-Data-Anwendungen am nützlichsten ist. Dies zeigt auch das Potenzial noch ungenutzter Daten (dh in Form von Video- und Audioinhalten).

Während viele Anbieter Standardprodukte für Big Data anbieten, fördern Experten die Entwicklung von maßgeschneiderten Systemen im eigenen Haus, wenn das Unternehmen über ausreichende technische Fähigkeiten verfügt.

Regierung

Die Nutzung und Einführung von Big Data in staatlichen Prozessen ermöglicht Effizienzsteigerungen in Bezug auf Kosten, Produktivität und Innovation, ist jedoch nicht ohne Fehler. Die Datenanalyse erfordert oft, dass mehrere Teile der Regierung (zentral und lokal) zusammenarbeiten und neue und innovative Prozesse schaffen, um das gewünschte Ergebnis zu erzielen. Eine gängige Regierungsorganisation, die Big Data nutzt, ist die National Security Administration ( NSA ), die die Aktivitäten des Internets ständig auf der Suche nach möglichen Mustern verdächtiger oder illegaler Aktivitäten überwacht, die ihr System erkennen könnte.

Die Personenstands- und Personenstandsstatistik (CRVS) erfasst alle Zeugnisse von der Geburt bis zum Tod. CRVS ist eine Quelle für Big Data für Regierungen.

Internationale Entwicklung

Forschungen zur effektiven Nutzung von Informations- und Kommunikationstechnologien für die Entwicklung (auch bekannt als "ICT4D") legen nahe, dass die Big-Data-Technologie wichtige Beiträge leisten kann, aber auch einzigartige Herausforderungen für die internationale Entwicklung darstellt . Fortschritte in der Big-Data-Analyse bieten kostengünstige Möglichkeiten zur Verbesserung der Entscheidungsfindung in kritischen Entwicklungsbereichen wie Gesundheitswesen, Beschäftigung, wirtschaftliche Produktivität , Kriminalität, Sicherheit sowie Naturkatastrophen- und Ressourcenmanagement. Darüber hinaus bieten nutzergenerierte Daten neue Möglichkeiten, dem Ungehörten eine Stimme zu geben. Allerdings verschärfen seit langem bestehende Herausforderungen für Entwicklungsregionen wie unzureichende technologische Infrastruktur und wirtschaftliche und personelle Knappheit die bestehenden Bedenken hinsichtlich Big Data wie Datenschutz, unvollständige Methodik und Interoperabilitätsprobleme. Die Herausforderung „Big Data for Development“ entwickelt sich derzeit in Richtung der Anwendung dieser Daten durch maschinelles Lernen, bekannt als „Artificial Intelligence for Development (AI4D).

Leistungen

Eine wichtige praktische Anwendung von Big Data für die Entwicklung ist die „Bekämpfung der Armut mit Daten“. 2015 schätzten Blumenstock und Kollegen die vorhergesagte Armut und den Wohlstand anhand von Handy-Metadaten und 2016 kombinierten Jean und Kollegen Satellitenbilder und maschinelles Lernen, um Armut vorherzusagen. Unter Verwendung digitaler Spurendaten zur Untersuchung des Arbeitsmarkts und der digitalen Wirtschaft in Lateinamerika argumentieren Hilbert und Kollegen, dass digitale Spurendaten mehrere Vorteile haben, wie zum Beispiel:

  • Thematische Abdeckung: auch Bereiche, die bisher schwer oder nicht messbar waren
  • Geografische Abdeckung: Unsere internationalen Quellen lieferten umfangreiche und vergleichbare Daten für fast alle Länder, einschließlich vieler kleiner Länder, die normalerweise nicht in internationalen Inventaren enthalten sind
  • Detaillierungsgrad: Bereitstellung feinkörniger Daten mit vielen miteinander verbundenen Variablen und neuen Aspekten, wie Netzwerkverbindungen
  • Aktualität und Zeitreihen: Diagramme können innerhalb von Tagen nach der Erfassung erstellt werden

Herausforderungen

Gleichzeitig beseitigt die Arbeit mit digitalen Spurendaten anstelle traditioneller Umfragedaten nicht die traditionellen Herausforderungen, die bei der Arbeit im Bereich der internationalen quantitativen Analyse auftreten. Die Prioritäten ändern sich, aber die grundlegenden Diskussionen bleiben die gleichen. Zu den wichtigsten Herausforderungen zählen:

  • Repräsentativität. Während es in der klassischen Entwicklungsstatistik vor allem um die Repräsentativität von Stichproben von Stichproben geht, handelt es sich bei digitalen Spurendaten nie um eine Stichprobe.
  • Generalisierbarkeit. Während Beobachtungsdaten diese Quelle immer sehr gut darstellen, stellen sie nur das dar, was sie darstellt, und nicht mehr. Obwohl es verlockend ist, von spezifischen Beobachtungen einer Plattform auf breitere Einstellungen zu verallgemeinern, ist dies oft sehr trügerisch.
  • Harmonisierung. Digitale Spurendaten bedürfen noch einer internationalen Harmonisierung der Indikatoren. Es fügt die Herausforderung der sogenannten "Datenfusion", der Harmonisierung verschiedener Quellen, hinzu.
  • Datenüberlastung. Analysten und Institutionen sind es nicht gewohnt, mit einer großen Anzahl von Variablen effektiv umzugehen, was mit interaktiven Dashboards effizient erledigt wird. Praktikern fehlt noch immer ein Standard-Workflow, der es Forschern, Nutzern und politischen Entscheidungsträgern ermöglicht, effizient und effektiv zu arbeiten.

Gesundheitspflege

Big Data Analytics wurde im Gesundheitswesen eingesetzt, indem personalisierte Medizin und präskriptive Analysen, klinische Risikointervention und prädiktive Analysen, Abfall- und Pflegevariabilitätsreduzierung, automatisierte externe und interne Berichterstattung von Patientendaten, standardisierte medizinische Fachausdrücke und Patientenregister bereitgestellt wurden. Einige Verbesserungsbereiche sind eher ambitioniert als tatsächlich umgesetzt. Die Datenmenge, die innerhalb der Gesundheitssysteme generiert wird , ist nicht trivial. Mit der zusätzlichen Einführung von mHealth-, eHealth- und Wearable-Technologien wird das Datenvolumen weiter zunehmen. Dazu gehören elektronische Gesundheitsdaten , Bildgebungsdaten, von Patienten generierte Daten, Sensordaten und andere Formen von schwer zu verarbeitenden Daten. Für solche Umgebungen besteht nun ein noch größerer Bedarf, der Daten- und Informationsqualität mehr Aufmerksamkeit zu schenken. „Big Data bedeutet sehr oft ‚ Dirty Data ‘ und der Anteil an Datenungenauigkeiten steigt mit wachsendem Datenvolumen.“ Menschliche Inspektionen im Big-Data-Maßstab sind unmöglich, und im Gesundheitswesen besteht ein dringender Bedarf an intelligenten Werkzeugen für die Genauigkeits- und Glaubwürdigkeitskontrolle und den Umgang mit verpassten Informationen. Während umfangreiche Informationen im Gesundheitswesen heute elektronisch sind, passen sie unter das Dach von Big Data, da die meisten unstrukturiert und schwer zu verwenden sind. Der Einsatz von Big Data im Gesundheitswesen hat erhebliche ethische Herausforderungen mit sich gebracht, die von Risiken für die Rechte des Einzelnen, Privatsphäre und Autonomie bis hin zu Transparenz und Vertrauen reichen .

Big Data in der Gesundheitsforschung ist im Hinblick auf explorative biomedizinische Forschung besonders vielversprechend, da datengetriebene Analysen schneller vorankommen können als hypothesengetriebene Forschung. Dann können Trends in der Datenanalyse in der traditionellen, hypothesengesteuerten biologischen Nachfolgeforschung und schließlich in der klinischen Forschung getestet werden.

Ein verwandter Anwendungsteilbereich, der stark auf Big Data setzt, innerhalb des Gesundheitswesens ist die computergestützte Diagnose in der Medizin. Für das Epilepsie- Monitoring ist es beispielsweise üblich, täglich 5 bis 10 GB Daten anzulegen. Ebenso umfasst ein einzelnes unkomprimiertes Bild der Brusttomosynthese durchschnittlich 450 MB an Daten. Dies sind nur einige von vielen Beispielen, bei denen die computergestützte Diagnose Big Data nutzt. Aus diesem Grund gilt Big Data als eine der sieben zentralen Herausforderungen, die computergestützte Diagnosesysteme bewältigen müssen, um die nächste Leistungsstufe zu erreichen.

Ausbildung

Eine Studie des McKinsey Global Institute ergab, dass 1,5 Millionen hochqualifizierte Datenfachleute und -manager fehlen, und eine Reihe von Universitäten, darunter die University of Tennessee und die UC Berkeley , haben Masterprogramme geschaffen, um dieser Nachfrage gerecht zu werden. Private Bootcamps haben ebenfalls Programme entwickelt, um dieser Nachfrage gerecht zu werden, darunter kostenlose Programme wie The Data Incubator oder kostenpflichtige Programme wie General Assembly . Im spezifischen Bereich des Marketings besteht eines der von Wedel und Kannan hervorgehobenen Probleme darin, dass das Marketing mehrere Unterdomänen (zB Werbung, Verkaufsförderung, Produktentwicklung, Branding) hat, die alle unterschiedliche Arten von Daten verwenden.

Medien

Um zu verstehen, wie die Medien Big Data nutzen, ist es zunächst notwendig, einen Kontext zu den Mechanismen bereitzustellen, die für den Medienprozess verwendet werden. Es wurde von Nick Couldry und Joseph Turow vorgeschlagen, dass Praktiker in Medien und Werbung Big Data als viele umsetzbare Informationen über Millionen von Personen betrachten. Die Branche scheint sich von dem traditionellen Ansatz zu entfernen, bestimmte Medienumgebungen wie Zeitungen, Zeitschriften oder Fernsehsendungen zu nutzen, und erschließt Verbraucher stattdessen mit Technologien, die die Zielgruppe zu optimalen Zeiten an optimalen Orten erreichen. Das ultimative Ziel ist es, eine Botschaft oder einen Inhalt zu liefern oder zu vermitteln, der (statistisch gesehen) der Denkweise des Verbrauchers entspricht. Beispielsweise passen Verlagsumgebungen zunehmend Nachrichten (Werbung) und Inhalte (Artikel) an, um Verbraucher anzusprechen, die ausschließlich durch verschiedene Data-Mining- Aktivitäten gewonnen wurden.

  • Ansprache von Verbrauchern (für Werbung durch Vermarkter)
  • Datenerfassung
  • Datenjournalismus : Verlage und Journalisten nutzen Big-Data-Tools, um einzigartige und innovative Einblicke und Infografiken bereitzustellen .

Channel 4 , der britische öffentlich-rechtliche Fernsehsender, ist führend im Bereich Big Data und Datenanalyse .

Versicherung

Krankenkassen erheben Daten zu gesellschaftlichen „Gesundheitsdeterminanten“ wie Nahrungs- und Fernsehkonsum , Familienstand, Konfektionsgröße und Kaufgewohnheiten, um daraus Vorhersagen zu Gesundheitskosten zu treffen, um gesundheitliche Probleme bei ihren Kunden zu erkennen. Es ist umstritten, ob diese Vorhersagen derzeit für die Preisbildung verwendet werden.

Internet der Dinge (IoT)

Big Data und das IoT arbeiten zusammen. Daten, die von IoT-Geräten extrahiert werden, bieten eine Abbildung der Geräteinterkonnektivität. Solche Zuordnungen wurden von der Medienindustrie, Unternehmen und Regierungen verwendet, um ihr Publikum genauer anzusprechen und die Medieneffizienz zu steigern. Das IoT wird auch zunehmend als Mittel zur Erfassung sensorischer Daten eingesetzt, und diese sensorischen Daten wurden in Medizin-, Fertigungs- und Transportkontexten verwendet.

Kevin Ashton , der Experte für digitale Innovation, der den Begriff geprägt hat, definiert das Internet der Dinge in diesem Zitat: "Wenn wir Computer hätten, die alles wüssten, was es über Dinge zu wissen gibt – und Daten verwenden, die sie ohne unser Zutun gesammelt haben – wir Wir wären in der Lage, alles zu verfolgen und zu zählen und Abfall, Verluste und Kosten erheblich zu reduzieren. Wir würden wissen, wann Dinge ersetzt, repariert oder zurückgerufen werden mussten und ob sie frisch waren oder ihre besten Zeiten überschritten haben."

Informationstechnologie

Big Data hat sich insbesondere seit 2015 im Geschäftsbetrieb als Werkzeug etabliert, um Mitarbeiter effizienter zu arbeiten und die Sammlung und Verteilung von Informationstechnologie (IT) zu rationalisieren . Die Verwendung von Big Data zur Lösung von IT- und Datenerfassungsproblemen in einem Unternehmen wird als IT Operations Analytics (ITOA) bezeichnet. Durch die Anwendung von Big-Data-Prinzipien in den Konzepten der maschinellen Intelligenz und des Deep Computing können IT-Abteilungen potenzielle Probleme vorhersagen und verhindern. ITOA Unternehmen bieten Plattformen für Managementsysteme , dass bringen Datensilos zusammen und erzeugen Erkenntnisse aus dem gesamten System und nicht aus isolierten Taschen von Daten.

Fallstudien

Regierung

China

  • Die Integrated Joint Operations Platform (IJOP, 一体化联合作战平台) dient der Regierung zur Überwachung der Bevölkerung, insbesondere der Uiguren . Biometrische Daten , einschließlich DNA-Proben, werden durch ein Programm kostenloser physischer Daten gesammelt.
  • Bis 2020 plant China, allen seinen Bürgern einen persönlichen „Social Credit“-Score zu geben, der auf ihrem Verhalten basiert. Das Sozialkreditsystem , das derzeit in einer Reihe von chinesischen Städten erprobt wird, gilt als eine Form der Massenüberwachung, die Big-Data-Analysetechnologie verwendet.

Indien

  • Big-Data-Analyse wurde für die BJP ausprobiert, um die indischen Parlamentswahlen 2014 zu gewinnen.
  • Die indische Regierung verwendet zahlreiche Techniken, um festzustellen, wie die indische Wählerschaft auf Regierungsaktionen reagiert, sowie um Ideen für die Verbesserung der Politik zu ermitteln.

Israel

  • Mit der Big-Data-Lösung von GlucoMe können personalisierte Diabetesbehandlungen erstellt werden.

Vereinigtes Königreich

Beispiele für den Einsatz von Big Data im öffentlichen Dienst:

  • Daten zu verschreibungspflichtigen Medikamenten: Durch die Verknüpfung von Herkunft, Ort und Zeitpunkt jeder Verschreibung konnte eine Forschungseinheit die beträchtliche Verzögerung zwischen der Freigabe eines bestimmten Medikaments und einer britischen Anpassung des National Institute for Health and Care Excellence veranschaulichen Richtlinien. Dies deutet darauf hin, dass neue oder die aktuellsten Medikamente einige Zeit brauchen, um auf den allgemeinen Patienten durchzudringen.
  • Daten zusammenführen: Eine Kommunalbehörde hat Daten zu Diensten wie Straßenstreuplänen mit Diensten für gefährdete Personen wie Essen auf Rädern zusammengeführt . Durch die Datenanbindung konnte die Gemeinde jede wetterbedingte Verzögerung vermeiden.

Vereinigte Staaten

  • Im Jahr 2012 kündigte die Obama-Regierung die Big Data Research and Development Initiative an, um zu untersuchen, wie Big Data genutzt werden könnte, um wichtige Probleme der Regierung anzugehen. Die Initiative besteht aus 84 verschiedenen Big-Data-Programmen, die auf sechs Abteilungen verteilt sind.
  • Die Big-Data-Analyse spielte bei Barack Obamas erfolgreichem Wiederwahlkampf 2012 eine große Rolle .
  • Die US-Bundesregierung besitzt fünf der zehn leistungsstärksten Supercomputer der Welt.
  • Das Utah Data Center wurde von der National Security Agency der Vereinigten Staaten errichtet . Nach Fertigstellung wird die Einrichtung in der Lage sein, eine große Menge an Informationen zu verarbeiten, die von der NSA über das Internet gesammelt wurden. Die genaue Größe des Speicherplatzes ist unbekannt, aber neuere Quellen behaupten, dass er in der Größenordnung von einigen Exabyte liegen wird . Dies hat Sicherheitsbedenken hinsichtlich der Anonymität der erhobenen Daten aufgeworfen.

Einzelhandel

  • Walmart verarbeitet stündlich mehr als 1 Million Kundentransaktionen, die in Datenbanken importiert werden, die schätzungsweise mehr als 2,5 Petabyte (2560 Terabyte) an Daten enthalten – das entspricht dem 167-fachen der Informationen, die in allen Büchern der US Library of Congress enthalten sind .
  • Windermere Real Estate verwendet Standortinformationen von fast 100 Millionen Fahrern, um neuen Hauskäufern zu helfen, ihre typischen Fahrzeiten zu und von der Arbeit zu verschiedenen Tageszeiten zu bestimmen.
  • Das FICO Card Detection System schützt Konten weltweit.

Wissenschaft

  • Die Large Hadron Collider- Experimente repräsentieren etwa 150 Millionen Sensoren, die 40 Millionen Mal pro Sekunde Daten liefern. Es gibt fast 600 Millionen Kollisionen pro Sekunde. Nach dem Filtern und Unterlassen der Aufzeichnung von mehr als 99,99995 % dieser Streams gibt es 1.000 interessante Kollisionen pro Sekunde.
    • Als Ergebnis, der nur mit weniger als 0,001% der Sensorstromdaten arbeitet, entspricht der Datenfluss aus allen vier LHC-Experimenten einer jährlichen Rate von 25 Petabyte vor der Replikation (Stand 2012). Dies werden nach der Replikation fast 200 Petabyte.
    • Würden alle Sensordaten im LHC aufgezeichnet, wäre der Datenfluss extrem schwer zu handhaben. Der Datenfluss würde vor der Replikation eine jährliche Rate von 150 Millionen Petabyte oder fast 500 Exabyte pro Tag überschreiten . Um die Zahl ins rechte Licht zu rücken, entspricht dies 500 Trillionen (5×10 20 ) Bytes pro Tag, fast 200 Mal mehr als alle anderen Quellen auf der Welt zusammen.
  • Das Square Kilometre Array ist ein Radioteleskop, das aus Tausenden von Antennen besteht. Es wird erwartet, dass es bis 2024 betriebsbereit sein wird. Zusammengenommen werden diese Antennen voraussichtlich 14 Exabyte sammeln und ein Petabyte pro Tag speichern. Es gilt als eines der ambitioniertesten wissenschaftlichen Projekte aller Zeiten.
  • Als der Sloan Digital Sky Survey (SDSS) im Jahr 2000 begann, astronomische Daten zu sammeln, sammelte er in den ersten Wochen mehr als alle zuvor in der Geschichte der Astronomie gesammelten Daten. Mit einer Geschwindigkeit von etwa 200 GB pro Nacht hat SDSS mehr als 140 Terabyte an Informationen angehäuft. Wenn das Large Synoptic Survey Telescope , Nachfolger von SDSS, im Jahr 2020 online geht, erwarten seine Entwickler, dass es diese Datenmenge alle fünf Tage erfasst.
  • Die Entschlüsselung des menschlichen Genoms dauerte ursprünglich 10 Jahre; jetzt kann es in weniger als einem Tag erreicht werden. Die DNA-Sequenzer haben die Sequenzierungskosten in den letzten zehn Jahren durch 10.000 geteilt, was 100-mal billiger ist als die vom Mooreschen Gesetz vorhergesagte Kostensenkung .
  • Das NASA Center for Climate Simulation (NCCS) speichert 32 Petabyte an Klimabeobachtungen und -simulationen auf dem Supercomputing-Cluster Discover.
  • Der DNAStack von Google kompiliert und organisiert DNA-Proben genetischer Daten aus der ganzen Welt, um Krankheiten und andere medizinische Defekte zu identifizieren. Diese schnellen und genauen Berechnungen eliminieren jegliche "Reibungspunkte" oder menschliche Fehler, die von einem der zahlreichen wissenschaftlichen und biologischen Experten, die mit der DNA arbeiten, gemacht werden könnten. DNAStack, ein Teil von Google Genomics, ermöglicht es Wissenschaftlern, die riesige Auswahl an Ressourcen des Google-Suchservers zu nutzen, um soziale Experimente, die normalerweise Jahre dauern würden, sofort zu skalieren.
  • Die DNA-Datenbank von 23andme enthält die genetischen Informationen von über 1.000.000 Menschen weltweit. Das Unternehmen prüft den Verkauf der "anonymen aggregierten genetischen Daten" zu Forschungszwecken an andere Forscher und Pharmaunternehmen, wenn die Patienten ihre Zustimmung geben. Ahmad Hariri, Professor für Psychologie und Neurowissenschaften an der Duke University, der seit 2009 23andMe in seiner Forschung einsetzt, erklärt, dass der wichtigste Aspekt des neuen Dienstes des Unternehmens darin besteht, dass er genetische Forschung für Wissenschaftler zugänglich und relativ günstig macht. Eine Studie, die in der Datenbank von 23andMe 15 Genomstellen identifizierte, die mit Depressionen in Verbindung stehen, führte zu einem Anstieg der Nachfrage nach Zugriff auf das Repository, wobei 23andMe in den zwei Wochen nach der Veröffentlichung des Papiers fast 20 Anfragen nach Zugang zu den Depressionsdaten beantwortete.
  • Computational Fluid Dynamics ( CFD ) und hydrodynamische Turbulenzforschung erzeugen massive Datensätze. Die Johns Hopkins Turbulence Databases ( JHTDB ) enthalten über 350 Terabyte raumzeitlicher Felder aus direkten numerischen Simulationen verschiedener turbulenter Strömungen. Der Austausch solcher Daten war mit herkömmlichen Methoden wie dem Herunterladen von flachen Simulationsausgabedateien schwierig. Auf die Daten innerhalb von JHTDB kann über "virtuelle Sensoren" mit verschiedenen Zugriffsmodi zugegriffen werden, die von direkten Webbrowser-Abfragen, Zugriff über Matlab-, Python-, Fortran- und C-Programme, die auf Kundenplattformen ausgeführt werden, bis hin zu Diensten zum Herunterladen von Rohdaten reichen. Die Daten wurden in über 150 wissenschaftlichen Publikationen verwendet.

Sport

Big Data kann verwendet werden, um das Training und das Verständnis von Wettkämpfern mithilfe von Sportsensoren zu verbessern. Es ist auch möglich, mithilfe von Big-Data-Analysen Gewinner in einem Spiel vorherzusagen. Auch die zukünftige Leistung der Spieler könnte vorhergesagt werden. Somit werden der Wert und das Gehalt der Spieler durch die während der Saison gesammelten Daten bestimmt.

Bei Formel-1-Rennen erzeugen Rennwagen mit Hunderten von Sensoren Terabyte an Daten. Diese Sensoren sammeln Datenpunkte vom Reifendruck bis zur Kraftstoffverbrauchseffizienz. Anhand der Daten entscheiden Ingenieure und Datenanalysten, ob Anpassungen vorgenommen werden müssen, um ein Rennen zu gewinnen. Außerdem versuchen Rennteams mithilfe von Big Data, die Zeit, zu der sie das Rennen beenden werden, im Voraus auf der Grundlage von Simulationen mit den über die Saison gesammelten Daten vorherzusagen.

Technologie

  • eBay.com verwendet zwei Data Warehouses mit 7,5 Petabyte und 40 PB sowie einen 40 PB Hadoop- Cluster für Suche, Verbraucherempfehlungen und Merchandising.
  • Amazon.com wickelt täglich Millionen von Back-End-Vorgängen sowie Anfragen von mehr als einer halben Million Drittanbietern ab. Die Kerntechnologie, die Amazon am Laufen hält, ist Linux-basiert und verfügte 2005 über die drei größten Linux-Datenbanken der Welt mit Kapazitäten von 7,8 TB, 18,5 TB und 24,7 TB.
  • Facebook verarbeitet 50 Milliarden Fotos seiner Nutzerbasis. Im Juni 2017 erreichte Facebook 2 Milliarden monatlich aktive Nutzer .
  • Im August 2012 verarbeitete Google etwa 100 Milliarden Suchanfragen pro Monat.

COVID-19

Während der COVID-19-Pandemie wurde Big Data erhoben, um die Auswirkungen der Krankheit zu minimieren. Zu den bedeutenden Anwendungen von Big Data gehörten die Minimierung der Ausbreitung des Virus, die Identifizierung von Fällen und die Entwicklung medizinischer Behandlungen.

Regierungen nutzten Big Data, um infizierte Personen zu verfolgen, um die Ausbreitung zu minimieren. Zu den frühen Anwendern gehörten China, Taiwan, Südkorea und Israel.

Forschungstätigkeit

Verschlüsselte Suche und Clusterbildung in Big Data wurden im März 2014 bei der American Society of Engineering Education demonstriert. Gautam Siwach im Rahmen von Tackling the Challenges of Big Data by MIT Computer Science and Artificial Intelligence Laboratory und Amir Esmailpour von der UNH Research Group untersuchten die Schlüsselmerkmale von Big Data wie die Bildung von Clustern und deren Verbindungen. Sie konzentrierten sich auf die Sicherheit von Big Data und die Ausrichtung des Begriffs auf das Vorhandensein verschiedener Arten von Daten in verschlüsselter Form an der Cloud-Schnittstelle, indem sie die Rohdefinitionen und Echtzeitbeispiele innerhalb der Technologie zur Verfügung stellten. Darüber hinaus schlugen sie einen Ansatz zur Identifizierung der Codierungstechnik vor, um eine beschleunigte Suche nach verschlüsseltem Text voranzutreiben, die zu Sicherheitsverbesserungen bei Big Data führt.

Im März 2012 kündigte das Weiße Haus eine nationale „Big-Data-Initiative“ an, die aus sechs Bundesministerien und -behörden bestand, die mehr als 200 Millionen US-Dollar für Big-Data-Forschungsprojekte bereitstellten.

Die Initiative umfasste ein Stipendium der National Science Foundation "Expeditions in Computing" in Höhe von 10 Millionen US-Dollar über einen Zeitraum von fünf Jahren an das AMPLab an der University of California, Berkeley. Das AMPLab erhielt auch Gelder von DARPA und über einem Dutzend Industriesponsoren und nutzt Big Data, um eine Vielzahl von Problemen anzugehen, von der Vorhersage von Verkehrsstaus bis zur Bekämpfung von Krebs.

Die Big-Data-Initiative des Weißen Hauses beinhaltete auch eine Zusage des Energieministeriums, über einen Zeitraum von fünf Jahren 25 Millionen US-Dollar zur Verfügung zu stellen, um das Scalable Data Management, Analysis and Visualization (SDAV) Institute unter der Leitung des Lawrence Berkeley National Laboratory des Energieministeriums aufzubauen . Ziel des SDAV-Instituts ist es, die Expertise von sechs nationalen Labors und sieben Universitäten zusammenzuführen, um neue Werkzeuge zu entwickeln, die Wissenschaftlern helfen, Daten auf den Supercomputern der Abteilung zu verwalten und zu visualisieren.

Der US-Bundesstaat Massachusetts hat im Mai 2012 die Massachusetts Big Data Initiative angekündigt, die eine Vielzahl von Forschungseinrichtungen von der Landesregierung und privaten Unternehmen finanziert. Das Massachusetts Institute of Technology beherbergt das Intel Science and Technology Center for Big Data im MIT Computer Science and Artificial Intelligence Laboratory , das staatliche, unternehmerische und institutionelle Förder- und Forschungsbemühungen kombiniert.

Die Europäische Kommission finanziert das zweijährige Big Data Public Private Forum im Rahmen ihres Siebten Rahmenprogramms, um Unternehmen, Wissenschaftler und andere Interessengruppen in die Diskussion von Big Data-Themen einzubeziehen. Das Projekt zielt darauf ab, eine Strategie in Bezug auf Forschung und Innovation zu definieren, um unterstützende Maßnahmen der Europäischen Kommission bei der erfolgreichen Umsetzung der Big-Data-Wirtschaft zu leiten. Die Ergebnisse dieses Projekts werden als Input für Horizont 2020 , ihr nächstes Rahmenprogramm , verwendet werden .

Die britische Regierung kündigte im März 2014 die Gründung des nach dem Computerpionier und Codebrecher benannten Alan Turing Institute an , das sich auf neue Wege zur Sammlung und Analyse großer Datensätze konzentrieren wird.

Beim Canadian Open Data Experience (CODE) Inspiration Day der University of Waterloo Stratford Campus demonstrierten die Teilnehmer, wie die Verwendung von Datenvisualisierung das Verständnis und die Attraktivität großer Datensätze verbessern und ihre Geschichte der Welt vermitteln kann.

Computergestützte Sozialwissenschaften  – Jeder kann Anwendungsprogrammierschnittstellen (APIs) verwenden, die von Big-Data-Besitzern wie Google und Twitter bereitgestellt werden, um in den Sozial- und Verhaltenswissenschaften zu forschen. Oft werden diese APIs kostenlos zur Verfügung gestellt. Tobias Preiset al. nutzten Google Trends- Daten, um zu zeigen, dass Internetnutzer aus Ländern mit einem höheren Bruttoinlandsprodukt (BIP) pro Kopf eher nach Informationen über die Zukunft als nach Informationen über die Vergangenheit suchen. Die Ergebnisse deuten darauf hin, dass es einen Zusammenhang zwischen Online-Verhalten und realen Wirtschaftsindikatoren geben könnte. Die Autoren der Studie untersuchten Google-Abfrageprotokolle nach dem Verhältnis des Suchvolumens für das kommende Jahr (2011) zum Suchvolumen des Vorjahres (2009), was sie als " Zukunftsorientierungsindex " bezeichnen. Sie verglichen den Zukunftsorientierungsindex mit dem Pro-Kopf-BIP jedes Landes und fanden eine starke Tendenz für Länder, in denen Google-Nutzer mehr nach der Zukunft fragen, ein höheres BIP zu haben.

Tobias Preis und seine Kollegen Helen Susannah Moat und H. Eugene Stanley stellten eine Methode vor, um Online-Vorläufer für Börsenbewegungen zu identifizieren, indem sie Handelsstrategien verwenden, die auf den Suchvolumendaten von Google Trends basieren. Ihre Analyse des Google- Suchvolumens für 98 Begriffe mit unterschiedlicher finanzieller Relevanz, die in Scientific Reports veröffentlicht wurde , legt nahe, dass ein Anstieg des Suchvolumens für finanziell relevante Suchbegriffe tendenziell großen Verlusten an den Finanzmärkten vorausgeht.

Big Data Sets bringen algorithmische Herausforderungen mit sich, die es vorher nicht gab. Daher wird von einigen die Notwendigkeit gesehen, die Verarbeitungswege grundlegend zu ändern.

Die Workshops on Algorithms for Modern Massive Data Sets (MMDS) bringen Informatiker, Statistiker, Mathematiker und Datenanalysepraktiker zusammen, um algorithmische Herausforderungen von Big Data zu diskutieren. In Bezug auf Big Data sind solche Größenkonzepte relativ. Wie es heißt: "Wenn die Vergangenheit eine Richtschnur ist, werden die heutigen Big Data in naher Zukunft höchstwahrscheinlich nicht als solche angesehen."

Stichproben von Big Data

Eine Forschungsfrage, die zu Big Data Sets gestellt wird, ist, ob es notwendig ist, die vollständigen Daten zu betrachten, um bestimmte Rückschlüsse auf die Eigenschaften der Daten zu ziehen, oder ob eine Stichprobe gut genug ist. Der Name Big Data selbst enthält einen Begriff, der sich auf die Größe bezieht und dies ist ein wichtiges Merkmal von Big Data. Die Stichprobenziehung ermöglicht jedoch die Auswahl der richtigen Datenpunkte aus dem größeren Datensatz, um die Merkmale der gesamten Population abzuschätzen. In der Fertigung stehen unterschiedliche sensorische Daten wie Akustik, Vibration, Druck, Strom, Spannung und Reglerdaten in kurzen Zeitabständen zur Verfügung. Um Ausfallzeiten vorherzusagen, ist es möglicherweise nicht notwendig, alle Daten zu betrachten, aber eine Stichprobe kann ausreichend sein. Big Data kann in verschiedene Datenpunktkategorien wie demografische, psychografische, Verhaltens- und Transaktionsdaten unterteilt werden. Mit großen Mengen an Datenpunkten können Vermarkter maßgeschneiderte Verbrauchersegmente für eine strategischere Ausrichtung erstellen und verwenden.

Es wurde einige Arbeit an Sampling-Algorithmen für Big Data geleistet. Eine theoretische Formulierung für das Sampling von Twitter-Daten wurde entwickelt.

Kritik

Kritik am Big-Data-Paradigma gibt es in zweierlei Hinsicht: solche, die die Implikationen des Ansatzes selbst in Frage stellen, und solche, die die derzeitige Vorgehensweise in Frage stellen. Ein Ansatz zu dieser Kritik ist das Feld der Critical Data Studies .

Kritik am Big-Data-Paradigma

"Ein entscheidendes Problem ist, dass wir nicht viel über die zugrunde liegenden empirischen Mikroprozesse wissen, die zur Entstehung der typischen Netzwerkeigenschaften von Big Data führen." In ihrer Kritik weisen Snijders, Matzat und Reips darauf hin, dass oft sehr starke Annahmen über mathematische Eigenschaften gemacht werden, die möglicherweise überhaupt nicht widerspiegeln, was auf der Ebene von Mikroprozessen wirklich vor sich geht. Mark Graham hat die Behauptung von Chris Anderson , dass Big Data das Ende der Theorie bedeuten werde, breit kritisiert : Er konzentrierte sich insbesondere auf die Vorstellung, dass Big Data immer in ihrem sozialen, wirtschaftlichen und politischen Kontext kontextualisiert werden muss. Auch wenn Unternehmen acht- und neunstellige Summen investieren, um Erkenntnisse aus dem Informationsfluss von Lieferanten und Kunden zu gewinnen, verfügen weniger als 40 % der Mitarbeiter über ausreichend ausgereifte Prozesse und Fähigkeiten, um dies zu tun. Um dieses Erkenntnisdefizit zu überwinden, müssen Big Data, sei sie noch so umfassend oder gut analysiert, durch „großes Urteilsvermögen“ ergänzt, heißt es in einem Artikel im Harvard Business Review .

In ähnlicher Weise wurde darauf hingewiesen, dass die Entscheidungen, die auf der Analyse von Big Data beruhen, zwangsläufig "von der Welt wie in der Vergangenheit oder bestenfalls wie sie heute ist" informiert werden. Gefüttert von einer Vielzahl von Daten über vergangene Erfahrungen können Algorithmen die zukünftige Entwicklung vorhersagen, wenn die Zukunft der Vergangenheit ähnlich ist. Wenn sich die Dynamik des Systems der Zukunft ändert (wenn es kein stationärer Prozess ist ), kann die Vergangenheit wenig über die Zukunft aussagen. Um Vorhersagen in sich ändernden Umgebungen treffen zu können, wäre ein gründliches Verständnis der Systemdynamik erforderlich, was Theorie erfordert. Als Antwort auf diese Kritik schlagen Alemany Oliver und Vayre vor, "abduktives Denken als ersten Schritt im Forschungsprozess zu verwenden, um die digitalen Spuren der Verbraucher in einen Kontext zu bringen und neue Theorien entstehen zu lassen". Darüber hinaus wurde vorgeschlagen, Big-Data-Ansätze mit Computersimulationen wie agentenbasierten Modellen und komplexen Systemen zu kombinieren . Agentenbasierte Modelle werden zunehmend besser darin, das Ergebnis der sozialen Komplexität selbst unbekannter Zukunftsszenarien durch Computersimulationen vorherzusagen, die auf einer Sammlung von voneinander abhängigen Algorithmen basieren. Schließlich hat sich die Verwendung multivariater Methoden, die die latente Struktur der Daten untersuchen, wie Faktorenanalyse und Clusteranalyse , als analytische Ansätze als nützlich erwiesen, die weit über die bivariaten Ansätze (Kreuztabellen) hinausgehen, die typischerweise bei kleineren Daten verwendet werden setzt.

In der Gesundheit und Biologie basieren konventionelle wissenschaftliche Ansätze auf Experimenten. Der limitierende Faktor für diese Ansätze sind die relevanten Daten, die die Ausgangshypothese bestätigen oder widerlegen können. Ein neues Postulat wird nun in den Biowissenschaften akzeptiert: Die Informationen, die die Daten in riesigen Mengen ( Omics ) ohne vorherige Hypothese liefern , sind komplementär und manchmal notwendig zu herkömmlichen, auf Experimenten basierenden Ansätzen. Bei den massiven Ansätzen ist die Formulierung einer relevanten Hypothese zur Erklärung der Daten der limitierende Faktor. Die Suchlogik wird umgekehrt und die Grenzen der Induktion ("Glory of Science and Philosophy Skandal", CD Broad , 1926) sind zu beachten.

Datenschutzbeauftragte sind besorgt über die Bedrohung der Privatsphäre, die durch die zunehmende Speicherung und Integration von personenbezogenen Daten entsteht ; Expertengremien haben verschiedene Richtlinienempfehlungen veröffentlicht, um die Praxis den Erwartungen an den Datenschutz anzupassen. Der Missbrauch von Big Data in mehreren Fällen durch Medien, Unternehmen und sogar die Regierung hat dazu geführt, dass das Vertrauen in fast alle grundlegenden Institutionen, die die Gesellschaft stützen, zerstört wurde.

Nayef Al-Rodhan argumentiert, dass zum Schutz der individuellen Freiheiten im Kontext von Big Data und riesigen Unternehmen, die riesige Mengen an Informationen besitzen, eine neue Art von Gesellschaftsvertrag erforderlich ist und dass die Nutzung von Big Data überwacht und besser reguliert werden sollte nationaler und internationaler Ebene. Barocas und Nissenbaum argumentieren, dass eine Möglichkeit zum Schutz einzelner Benutzer darin besteht, sich darüber zu informieren, welche Art von Informationen gesammelt werden, mit wem sie geteilt werden, unter welchen Einschränkungen und zu welchen Zwecken.

Kritik am "V"-Modell

Das "V"-Modell von Big Data ist besorgniserregend, da es sich um rechnerische Skalierbarkeit dreht und keinen Verlust an Wahrnehmbarkeit und Verständlichkeit von Informationen hat. Daraus entstand der Rahmen von Cognitive Big Data , der Big-Data-Anwendungen nach folgenden Merkmalen charakterisiert:

  • Datenvollständigkeit: Verstehen des Nicht-Offensichtlichen aus Daten
  • Datenkorrelation, Kausalität und Vorhersagbarkeit: Kausalität als nicht wesentliche Voraussetzung, um Vorhersagbarkeit zu erreichen
  • Erklärbarkeit und Interpretierbarkeit: Menschen wollen verstehen und akzeptieren, was sie verstehen, wo Algorithmen dies nicht bewältigen
  • Ebene der automatisierten Entscheidungsfindung: Algorithmen, die automatisierte Entscheidungsfindung und algorithmisches Selbstlernen unterstützen

Kritik der Neuheit

Große Datensätze werden seit mehr als einem Jahrhundert von Computermaschinen analysiert, einschließlich der US-Volkszählungsanalysen, die von IBMs Lochkartenmaschinen durchgeführt wurden, die Statistiken einschließlich der Mittelwerte und Varianzen der Bevölkerung auf dem gesamten Kontinent berechneten. In den letzten Jahrzehnten haben wissenschaftliche Experimente wie das CERN Daten in ähnlichen Größenordnungen produziert wie aktuelle kommerzielle „Big Data“. Wissenschaftliche Experimente haben jedoch dazu tendiert, ihre Daten mithilfe spezieller, speziell angefertigter Hochleistungs-Computing -Cluster und -Grids zu analysieren , anstatt Wolken billiger Standardcomputer wie in der aktuellen kommerziellen Welle, was einen Unterschied sowohl in der Kultur als auch in der Technologie impliziert Stapel.

Kritik an Big Data Execution

Ulf-Dietrich Reips und Uwe Matzat schrieben 2014, dass Big Data zu einer „Modeerscheinung“ in der wissenschaftlichen Forschung geworden sei. Die Forscherin Danah Boyd hat Bedenken hinsichtlich der Verwendung von Big Data in der Wissenschaft geäußert, wobei sie Prinzipien wie die Auswahl einer repräsentativen Stichprobe vernachlässigt, weil sie sich zu sehr um den Umgang mit den riesigen Datenmengen kümmert. Dieser Ansatz kann zu Ergebnissen führen , die eine haben Bias in der einen oder anderen. Die Integration heterogener Datenressourcen – einige davon könnten als Big Data betrachtet werden und andere nicht – stellt enorme logistische und analytische Herausforderungen dar, aber viele Forscher argumentieren, dass solche Integrationen wahrscheinlich die vielversprechendsten neuen Grenzen in der Wissenschaft darstellen. In dem provokanten Artikel "Critical Questions for Big Data" betiteln die Autoren Big Data als Teil der Mythologie : "Große Datensätze bieten eine höhere Form von Intelligenz und Wissen [...], mit der Aura von Wahrheit, Objektivität und Genauigkeit" ". Nutzer von Big Data verlieren sich oft "in der schieren Menge der Zahlen" und "die Arbeit mit Big Data ist immer noch subjektiv, und was sie quantifiziert, hat nicht unbedingt einen näheren Anspruch auf objektive Wahrheit". Jüngste Entwicklungen im BI-Bereich, wie zum Beispiel proaktives Reporting, zielen insbesondere auf die Verbesserung der Nutzbarkeit von Big Data durch automatisiertes Filtern von nicht nützlichen Daten und Korrelationen ab . Große Strukturen sind voller falscher Korrelationen, entweder aufgrund nicht-kausaler Zufälle ( Gesetz der wirklich großen Zahlen ), allein der Natur großer Zufälligkeit ( Ramsey-Theorie ) oder der Existenz nicht eingeschlossener Faktoren, so dass die Hoffnung der frühen Experimentatoren besteht, große Datenbanken zu erstellen der Zahlen "für sich selbst sprechen" und wissenschaftliche Methoden revolutionieren, wird in Frage gestellt.

Die Big-Data-Analyse ist im Vergleich zur Analyse kleinerer Datensätze oft oberflächlich. In vielen Big-Data-Projekten findet keine große Datenanalyse statt, aber die Herausforderung besteht darin , einen Teil der Datenvorverarbeitung zu extrahieren, zu transformieren und zu laden .

Big Data ist ein Modewort und ein „vager Begriff“, aber zugleich eine „Obsession“ bei Unternehmern, Beratern, Wissenschaftlern und Medien. Big-Data-Showcases wie Google Grippe-Trends lieferten in den letzten Jahren keine guten Vorhersagen und überzeichneten die Grippeausbrüche um den Faktor zwei. Ebenso lagen Oscarverleihungen und Wahlvorhersagen, die ausschließlich auf Twitter beruhten, häufiger daneben als im Ziel. Big Data birgt oft die gleichen Herausforderungen wie Small Data; Das Hinzufügen weiterer Daten löst keine Verzerrungsprobleme, kann aber andere Probleme hervorheben. Insbesondere Datenquellen wie Twitter sind nicht repräsentativ für die Gesamtbevölkerung und Ergebnisse aus solchen Quellen können dann zu falschen Schlussfolgerungen führen. Google Translate – das auf statistischen Big-Data-Textanalysen basiert – leistet gute Arbeit beim Übersetzen von Webseiten. Ergebnisse aus spezialisierten Domänen können jedoch dramatisch verzerrt sein. Andererseits kann Big Data auch neue Probleme mit sich bringen, wie beispielsweise das Problem der Mehrfachvergleiche : Das gleichzeitige Testen einer großen Menge von Hypothesen führt wahrscheinlich zu vielen falschen Ergebnissen, die fälschlicherweise als signifikant erscheinen. Ioannidis argumentierte, dass "die meisten veröffentlichten Forschungsergebnisse falsch sind", weil im Wesentlichen der gleiche Effekt vorliegt: Wenn viele wissenschaftliche Teams und Forscher jeweils viele Experimente durchführen (dh eine große Menge wissenschaftlicher Daten verarbeiten; wenn auch nicht mit Big-Data-Technologie), ist die Wahrscheinlichkeit eines "signifikante" Ergebnisse, die falsch sind, wachsen schnell – umso mehr, wenn nur positive Ergebnisse veröffentlicht werden. Darüber hinaus sind die Ergebnisse der Big-Data-Analyse nur so gut wie das Modell, auf dem sie basieren. In einem Beispiel war Big Data an dem Versuch beteiligt, die Ergebnisse der US-Präsidentschaftswahl 2016 mit unterschiedlichem Erfolg vorherzusagen.

Kritik an Big Data Policing und Überwachung

Big Data wurde bei der Polizei und Überwachung von Institutionen wie Strafverfolgungsbehörden und Unternehmen verwendet . Aufgrund der geringeren Sichtbarkeit der datenbasierten Überwachung im Vergleich zu herkömmlichen Methoden der Polizeiarbeit sind Einwände gegen die Big-Data-Polizeiarbeit weniger wahrscheinlich. Laut Sarah Braynes Big Data Surveillance: The Case of Policing kann Big Data Policing bestehende gesellschaftliche Ungleichheiten auf drei Arten reproduzieren :

  • Verstärkte Überwachung verdächtiger Krimineller durch die Begründung eines mathematischen und damit unvoreingenommenen Algorithmus
  • Erhöhung des Umfangs und der Zahl der Personen, die von Strafverfolgungsbehörden verfolgt werden, und Verschlimmerung der bestehenden rassistischen Überrepräsentation im Strafjustizsystem
  • Ermutigung der Mitglieder der Gesellschaft, Interaktionen mit Institutionen aufzugeben, die eine digitale Spur hinterlassen würden, wodurch Hindernisse für die soziale Inklusion geschaffen werden

Wenn diese potenziellen Probleme nicht korrigiert oder reguliert werden, können die Auswirkungen von Big Data Policing weiterhin gesellschaftliche Hierarchien prägen. Der gewissenhafte Einsatz von Big Data Policing könnte verhindern, dass Vorurteile auf individueller Ebene zu institutionellen Vorurteilen werden, bemerkt Brayne auch.

In der Populärkultur

Bücher

  • Moneyball ist ein Sachbuch, das untersucht, wie die Oakland Athletics statistische Analysen eingesetzt haben, um Teams mit größeren Budgets zu übertreffen. 2011 wurde eine Filmadaption mit Brad Pitt veröffentlicht.

Film

Siehe auch

Verweise

Weiterlesen

Externe Links

  • Medien zu Big Data bei Wikimedia Commons
  • Die Wörterbuchdefinition von Big Data bei Wiktionary