Datenanalyse - Data analysis

Die Datenanalyse ist ein Prozess der Untersuchung, Bereinigung , Transformation und Modellierung von Daten mit dem Ziel, nützliche Informationen zu entdecken, Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen. Die Datenanalyse hat mehrere Facetten und Ansätze, umfasst verschiedene Techniken unter verschiedenen Namen und wird in verschiedenen Bereichen der Wirtschafts-, Wissenschafts- und Sozialwissenschaften verwendet. In der heutigen Geschäftswelt spielt die Datenanalyse eine Rolle, um Entscheidungen wissenschaftlicher zu treffen und Unternehmen zu helfen, effektiver zu arbeiten.

Data Mining ist eine spezielle Datenanalysetechnik, die sich auf statistische Modellierung und Wissensentdeckung für prädiktive statt rein deskriptive Zwecke konzentriert, während Business Intelligence eine Datenanalyse umfasst, die stark auf Aggregation beruht und sich hauptsächlich auf Geschäftsinformationen konzentriert. In statistischen Anwendungen kann die Datenanalyse in deskriptive Statistik , explorative Datenanalyse (EDA) und konfirmatorische Datenanalyse (CDA) unterteilt werden. EDA konzentriert sich darauf, neue Merkmale in den Daten zu entdecken, während sich CDA darauf konzentriert, bestehende Hypothesen zu bestätigen oder zu falsifizieren . Predictive Analytics konzentriert sich auf die Anwendung statistischer Modelle für die prädiktive Vorhersage oder Klassifizierung, während die Textanalyse statistische, linguistische und strukturelle Techniken anwendet, um Informationen aus Textquellen, einer Art unstrukturierter Daten , zu extrahieren und zu klassifizieren . Alle oben genannten sind Varianten der Datenanalyse.

Die Datenintegration ist ein Vorläufer der Datenanalyse, und die Datenanalyse ist eng mit der Datenvisualisierung und Datenverbreitung verbunden.

Der Prozess der Datenanalyse

Data Science-Prozessflussdiagramm von Doing Data Science , von Schutt & O'Neil (2013)

Analyse bezieht sich auf die Aufteilung eines Ganzen in seine einzelnen Komponenten zur individuellen Untersuchung. Die Datenanalyse ist ein Prozess zur Gewinnung von Rohdaten und der anschließenden Umwandlung in Informationen, die für die Entscheidungsfindung der Benutzer nützlich sind. Daten werden gesammelt und analysiert, um Fragen zu beantworten, Hypothesen zu testen oder Theorien zu widerlegen.

Der Statistiker John Tukey definierte 1961 die Datenanalyse als:

"Verfahren zur Analyse von Daten, Techniken zur Interpretation der Ergebnisse solcher Verfahren, Planungsweisen der Datensammlung, um ihre Analyse zu erleichtern, genauer oder genauer zu machen, und alle Mechanismen und Ergebnisse der (mathematischen) Statistik, die für die Analyse von Daten gelten ."

Es gibt mehrere Phasen, die unterschieden werden können, die im Folgenden beschrieben werden. Die Phasen sind iterativ , da Feedback aus späteren Phasen zu zusätzlicher Arbeit in früheren Phasen führen kann. Das beim Data Mining verwendete CRISP-Framework hat ähnliche Schritte.

Datenanforderungen

Die Daten sind als Eingaben für die Analyse erforderlich, die auf der Grundlage der Anforderungen derjenigen, die die Analyse leiten (oder Kunden, die das Endprodukt der Analyse verwenden werden), spezifiziert wird. Die allgemeine Art von Entität, über die die Daten erhoben werden, wird als Versuchseinheit bezeichnet (zB eine Person oder eine Bevölkerungsgruppe). Spezifische Variablen bezüglich einer Population (zB Alter und Einkommen) können spezifiziert und erhalten werden. Die Daten können numerisch oder kategorial sein (dh eine Textbezeichnung für Zahlen).

Datensammlung

Daten werden aus verschiedenen Quellen gesammelt. Die Anforderungen können von Analysten den Verwahrern der Daten mitgeteilt werden ; B. IT-Personal innerhalb einer Organisation. Die Daten können auch von Sensoren in der Umgebung gesammelt werden, einschließlich Verkehrskameras, Satelliten, Aufzeichnungsgeräten usw. Sie können auch durch Interviews, Downloads aus Online-Quellen oder das Lesen von Dokumentationen gewonnen werden.

Datenverarbeitung

Die Phasen des Intelligenzzyklus, die verwendet werden, um Rohinformationen in umsetzbare Intelligenz oder Wissen umzuwandeln, ähneln konzeptionell den Phasen der Datenanalyse.

Daten müssen, wenn sie ursprünglich erhoben werden, für die Analyse verarbeitet oder organisiert werden. Dies kann beispielsweise das Einfügen von Daten in Zeilen und Spalten in einem Tabellenformat ( bekannt als strukturierte Daten ) zur weiteren Analyse beinhalten, häufig mithilfe von Tabellenkalkulations- oder Statistiksoftware.

Datenreinigung

Nach der Verarbeitung und Organisation können die Daten unvollständig sein, Duplikate enthalten oder Fehler enthalten. Die Notwendigkeit einer Datenbereinigung ergibt sich aus Problemen bei der Eingabe und Speicherung der Daten . Die Datenbereinigung ist der Prozess, diese Fehler zu verhindern und zu korrigieren. Zu den üblichen Aufgaben gehören der Datensatzabgleich, das Identifizieren von Datenungenauigkeiten, die Gesamtqualität vorhandener Daten, die Deduplizierung und die Spaltensegmentierung. Solche Datenprobleme können auch durch eine Vielzahl von Analysetechniken identifiziert werden. Zum Beispiel; mit Finanzinformationen können die Summen für bestimmte Variablen mit separat veröffentlichten Zahlen verglichen werden, die als zuverlässig erachtet werden. Ungewöhnliche Beträge, die über oder unter vorbestimmten Schwellenwerten liegen, können ebenfalls überprüft werden. Es gibt verschiedene Arten der Datenbereinigung, die von der Art der Daten im Satz abhängen; Dies können Telefonnummern, E-Mail-Adressen, Arbeitgeber oder andere Werte sein. Quantitative Datenmethoden zur Erkennung von Ausreißern können verwendet werden, um Daten zu entfernen, bei denen die Wahrscheinlichkeit einer falschen Eingabe höher zu sein scheint. Rechtschreibprüfungen für Textdaten können verwendet werden, um die Menge an falsch eingegebenen Wörtern zu verringern. Es ist jedoch schwieriger zu sagen, ob die Wörter selbst richtig sind.

Explorative Datenanalyse

Sobald die Datensätze bereinigt sind, können sie analysiert werden. Analysten können eine Vielzahl von Techniken anwenden, die als explorative Datenanalyse bezeichnet werden , um die in den erhaltenen Daten enthaltenen Botschaften zu verstehen. Der Prozess der Datenexploration kann zu einer zusätzlichen Datenbereinigung oder zusätzlichen Datenanfragen führen; also die Initialisierung der iterativen Phasen, die im ersten Absatz dieses Abschnitts erwähnt wurden. Beschreibende Statistiken wie der Durchschnitt oder Median können generiert werden, um das Verständnis der Daten zu erleichtern. Die Datenvisualisierung ist auch eine verwendete Technik, bei der der Analytiker die Daten in einem grafischen Format untersuchen kann, um zusätzliche Einblicke in die Nachrichten in den Daten zu erhalten.

Modellierung und Algorithmen

Mathematische Formeln oder Modelle (bekannt als Algorithmen ) können auf die Daten angewendet werden, um Beziehungen zwischen den Variablen zu identifizieren; zum Beispiel mit Korrelation oder Kausalität . Im Allgemeinen können Modelle entwickelt werden, um eine spezifische Variable basierend auf anderen Variablen, die im Datensatz enthalten sind, zu bewerten, mit einem gewissen Restfehler in Abhängigkeit von der Genauigkeit des implementierten Modells ( z. B. Daten = Modell + Fehler).

Inferenzstatistik umfasst die Verwendung von Techniken, die die Beziehungen zwischen bestimmten Variablen messen. Zum Beispiel kann eine Regressionsanalyse verwendet werden, um zu modellieren, ob eine Änderung der Werbung ( unabhängige Variable X ) eine Erklärung für die Variation der Verkäufe liefert ( abhängige Variable Y ). Mathematisch gesehen ist Y (Umsatz) eine Funktion von X (Werbung). Es kann beschrieben werden als ( Y = aX + b + Fehler), wobei das Modell so entworfen ist, dass ( a ) und ( b ) den Fehler minimieren, wenn das Modell Y für einen gegebenen Wertebereich von X vorhersagt . Analysten können auch versuchen, Modelle zu erstellen, die die Daten beschreiben, um die Analyse zu vereinfachen und die Ergebnisse zu kommunizieren.

Datenprodukt

Ein Datenprodukt ist eine Computeranwendung, die Dateneingaben aufnimmt und Ausgaben erzeugt und diese wieder in die Umgebung einspeist. Es kann auf einem Modell oder Algorithmus basieren. Zum Beispiel eine Anwendung, die Daten über die Kaufhistorie von Kunden analysiert und die Ergebnisse verwendet, um andere Einkäufe zu empfehlen, die dem Kunden gefallen könnten.

Kommunikation

Die Datenvisualisierung wird verwendet, um die Ergebnisse nach der Datenanalyse zu verstehen.

Sobald die Daten analysiert sind, können sie den Benutzern der Analyse in vielen Formaten gemeldet werden, um ihre Anforderungen zu unterstützen. Die Benutzer können Feedback haben, was zu einer zusätzlichen Analyse führt. Daher ist ein Großteil des Analysezyklus iterativ.

Bei der Entscheidung, wie die Ergebnisse kommuniziert werden sollen, kann der Analytiker die Implementierung einer Vielzahl von Datenvisualisierungstechniken in Betracht ziehen, um die Botschaft klarer und effizienter an das Publikum zu kommunizieren. Die Datenvisualisierung verwendet Informationsanzeigen (Grafiken wie Tabellen und Diagramme), um die in den Daten enthaltenen Schlüsselbotschaften zu kommunizieren. Tabellen sind ein wertvolles Werkzeug, da sie es einem Benutzer ermöglichen, bestimmte Zahlen abzufragen und sich darauf zu konzentrieren. während Diagramme (z. B. Balkendiagramme oder Liniendiagramme) helfen können, die in den Daten enthaltenen quantitativen Botschaften zu erklären.

Quantitative Nachrichten

Eine mit einem Liniendiagramm illustrierte Zeitreihe, die Trends bei den US-Bundesausgaben und -einnahmen im Zeitverlauf zeigt.
Ein Streudiagramm, das die Korrelation zwischen zwei Variablen (Inflation und Arbeitslosigkeit) zu bestimmten Zeitpunkten veranschaulicht.

Stephen Few beschrieb acht Arten quantitativer Botschaften, die Benutzer versuchen können, aus einer Reihe von Daten zu verstehen oder zu kommunizieren, und die zugehörigen Grafiken, die zur Vermittlung der Botschaft verwendet werden. Kunden, die Anforderungen spezifizieren, und Analysten, die die Datenanalyse durchführen, können diese Nachrichten im Laufe des Prozesses berücksichtigen.

  1. Zeitreihen: Eine einzelne Variable wird über einen Zeitraum erfasst, beispielsweise die Arbeitslosenquote über einen Zeitraum von 10 Jahren. Ein Liniendiagramm kann verwendet werden, um den Trend zu demonstrieren.
  2. Rangfolge: Kategoriale Unterteilungen werden in aufsteigender oder absteigender Reihenfolge geordnet, z. B. eine Rangfolge der Verkaufsleistung (die Kennzahl ) nach Verkäufern (die Kategorie , wobei jeder Verkäufer eine kategoriale Unterteilung ) während eines einzelnen Zeitraums. Ein Balkendiagramm kann verwendet werden, um den Vergleich zwischen den Verkäufern anzuzeigen.
  3. Teil-zu-Ganze: Kategoriale Unterteilungen werden als Verhältnis zum Ganzen gemessen (dh ein Prozentsatz von 100%). Ein Torten- oder Balkendiagramm kann den Vergleich von Verhältnissen zeigen, beispielsweise den Marktanteil von Wettbewerbern in einem Markt.
  4. Abweichung: Kategoriale Unterteilungen werden mit einer Referenz verglichen, z. B. einem Vergleich von Ist- und Budgetausgaben für mehrere Abteilungen eines Unternehmens für einen bestimmten Zeitraum. Ein Balkendiagramm kann den Vergleich des Ist- mit dem Referenzbetrag anzeigen.
  5. Häufigkeitsverteilung: Zeigt die Anzahl der Beobachtungen einer bestimmten Variablen für ein bestimmtes Intervall an, z. B. die Anzahl der Jahre, in denen die Börsenrendite zwischen Intervallen wie 0–10 %, 11–20 % usw. liegt. Ein Histogramm , a Art eines Balkendiagramms, kann für diese Analyse verwendet werden.
  6. Korrelation: Vergleich zwischen Beobachtungen, die durch zwei Variablen (X,Y) dargestellt werden, um festzustellen, ob sie sich tendenziell in die gleiche oder entgegengesetzte Richtung bewegen. Beispiel: Arbeitslosigkeit (X) und Inflation (Y) für eine Stichprobe von Monaten darstellen. Für diese Nachricht wird normalerweise ein Streudiagramm verwendet.
  7. Nominaler Vergleich: Vergleich kategorialer Unterteilungen in keiner bestimmten Reihenfolge, z. B. das Verkaufsvolumen nach Produktcode. Für diesen Vergleich kann ein Balkendiagramm verwendet werden.
  8. Geografisch oder räumlich: Vergleich einer Variablen auf einer Karte oder einem Layout, wie z. B. die Arbeitslosenquote nach Bundesland oder die Anzahl der Personen auf den verschiedenen Etagen eines Gebäudes. Ein Kartogramm ist eine typische verwendete Grafik.

Techniken zur Analyse quantitativer Daten

Der Autor Jonathan Koomey hat eine Reihe von Best Practices zum Verständnis quantitativer Daten empfohlen. Diese beinhalten:

  • Überprüfen Sie die Rohdaten auf Anomalien, bevor Sie eine Analyse durchführen;
  • Führen Sie wichtige Berechnungen erneut durch, z. B. die Überprüfung von formelgesteuerten Datenspalten;
  • Bestätigen Sie, dass die Hauptsummen die Summe der Zwischensummen sind;
  • Überprüfen Sie Beziehungen zwischen Zahlen, die auf vorhersehbare Weise in Beziehung stehen sollten, wie z. B. Verhältnisse im Zeitverlauf;
  • Normalisieren Sie Zahlen, um Vergleiche zu erleichtern, z. B. die Analyse von Beträgen pro Person oder relativ zum BIP oder als Indexwert relativ zu einem Basisjahr;
  • Brechen Sie Probleme in Einzelteile auf, indem Sie Faktoren analysieren, die zu den Ergebnissen geführt haben, wie z. B. die DuPont-Analyse der Eigenkapitalrendite.

Für die untersuchten Variablen erhalten Analysten in der Regel deskriptive Statistiken wie Mittelwert (Durchschnitt), Median und Standardabweichung . Sie können auch die Verteilung der Schlüsselvariablen analysieren , um zu sehen, wie sich die einzelnen Werte um den Mittelwert herum gruppieren.

Eine Illustration des MECE-Prinzips, das für die Datenanalyse verwendet wird.

Die Berater von McKinsey and Company nannten eine Technik zur Zerlegung eines quantitativen Problems in seine Bestandteile das MECE-Prinzip . Jede Schicht kann in ihre Bestandteile zerlegt werden; jede der Unterkomponenten muss sich gegenseitig ausschließen und sich kollektiv zu der darüber liegenden Schicht addieren. Die Beziehung wird als "Mutually Exclusive and Collectively Exhaustive" oder MECE bezeichnet. Beispielsweise kann der Gewinn per Definition in Gesamtumsatz und Gesamtkosten aufgeschlüsselt werden. Der Gesamtumsatz kann wiederum nach seinen Komponenten analysiert werden, z. B. dem Umsatz der Geschäftsbereiche A, B und C (die sich gegenseitig ausschließen) und sollte zum Gesamtumsatz hinzugefügt werden (zusammenfassend erschöpfend).

Analysten können robuste statistische Messungen verwenden, um bestimmte analytische Probleme zu lösen. Hypothesentests werden verwendet, wenn der Analytiker eine bestimmte Hypothese über den wahren Sachverhalt aufstellt und Daten gesammelt werden, um festzustellen, ob dieser Sachverhalt wahr oder falsch ist. Beispielsweise könnte die Hypothese lauten, dass "Arbeitslosigkeit keinen Einfluss auf die Inflation hat", was sich auf ein wirtschaftswissenschaftliches Konzept namens Phillips-Kurve bezieht . Beim Hypothesentesten wird die Wahrscheinlichkeit von Fehlern vom Typ I und Typ II berücksichtigt , die sich darauf beziehen, ob die Daten die Annahme oder Ablehnung der Hypothese unterstützen.

Die Regressionsanalyse kann verwendet werden, wenn der Analytiker versucht zu bestimmen, inwieweit die unabhängige Variable X die abhängige Variable Y beeinflusst (zB "Inwieweit beeinflussen Änderungen der Arbeitslosenquote (X) die Inflationsrate (Y)?"). Dies ist ein Versuch, eine Gleichungslinie oder -kurve zu modellieren oder an die Daten anzupassen, sodass Y eine Funktion von X ist.

Die Analyse der notwendigen Bedingungen (NCA) kann verwendet werden, wenn der Analytiker versucht zu bestimmen, inwieweit die unabhängige Variable X die Variable Y zulässt (z. B. "Inwieweit ist eine bestimmte Arbeitslosenquote (X) für eine bestimmte Inflationsrate (Y) ?"). Während die (mehrfache) Regressionsanalyse additive Logik verwendet, bei der jede X-Variable das Ergebnis erzeugen kann und die Xs sich gegenseitig kompensieren können (sie sind ausreichend, aber nicht notwendig), verwendet die Notwendige-Bedingungs-Analyse (NCA) eine Notwendigkeitslogik, bei der ein oder mehrere X -Variablen lassen das Ergebnis existieren, erzeugen es aber möglicherweise nicht (sie sind notwendig, aber nicht ausreichend). Jede einzelne notwendige Bedingung muss vorliegen und eine Entschädigung ist nicht möglich.

Analytische Aktivitäten von Datennutzern

Benutzer können innerhalb eines Datensatzes bestimmte Datenpunkte von Interesse haben, im Gegensatz zu den oben beschriebenen allgemeinen Nachrichten. Solche benutzeranalytischen Aktivitäten auf niedriger Ebene werden in der folgenden Tabelle dargestellt. Die Taxonomie kann auch nach drei Aktivitätspolen organisiert werden: Werte abrufen, Datenpunkte finden und Datenpunkte anordnen.

# Aufgabe Allgemeine
Beschreibung
Pro-Forma-
Zusammenfassung
Beispiele
1 Wert abrufen Suchen Sie in bestimmten Fällen nach Attributen dieser Fälle. Welche Werte haben die Attribute {X, Y, Z, ...} in den Datenfällen {A, B, C, ...}? - Wie hoch ist die Laufleistung pro Gallone des Ford Mondeo?

- Wie lange dauert der Film Vom Winde verweht?

2 Filter Suchen Sie unter bestimmten konkreten Bedingungen für Attributwerte nach Datenfällen, die diese Bedingungen erfüllen. Welche Datenfälle erfüllen die Bedingungen {A, B, C...}? - Welche Kellogg's Cerealien haben einen hohen Ballaststoffgehalt?

- Welche Komödien haben Preise gewonnen?

- Welche Fonds schnitten schlechter ab als der SP-500?

3 Abgeleiteten Wert berechnen Berechnen Sie für eine Reihe von Datenfällen eine aggregierte numerische Darstellung dieser Datenfälle. Welchen Wert hat die Aggregationsfunktion F über eine gegebene Menge S von Datenfällen? - Wie hoch ist der durchschnittliche Kaloriengehalt von Post-Cerealien?

- Wie hoch ist das Bruttoeinkommen aller Geschäfte zusammen?

- Wie viele Autohersteller gibt es?

4 Extremum finden Finden Sie Datenfälle mit einem Extremwert eines Attributs über seinen Bereich innerhalb des Datensatzes. Was sind die oberen/untersten N Datenfälle in Bezug auf Attribut A? - Was ist das Auto mit dem höchsten MPG?

- Welcher Regisseur/Film hat die meisten Preise gewonnen?

- Welcher Marvel Studios-Film hat das neueste Veröffentlichungsdatum?

5 Sortieren Ordnen Sie eine Reihe von Datenfällen nach einer ordinalen Metrik. Wie ist die sortierte Reihenfolge einer Menge S von Datenfällen nach ihrem Wert des Attributs A? - Ordnen Sie die Autos nach Gewicht.

- Sortieren Sie die Cerealien nach Kalorien.

6 Reichweite bestimmen Ermitteln Sie die Wertespanne innerhalb der Menge, wenn eine Reihe von Datenfällen und ein interessantes Attribut vorhanden sind. Welchen Wertebereich hat das Attribut A in einer Menge S von Datenfällen? - Was ist der Bereich der Filmlängen?

- Was ist der Bereich der Auto-PS?

- Welche Schauspielerinnen sind im Datensatz?

7 Verteilung charakterisieren Charakterisieren Sie die Verteilung der Werte dieses Attributs über die Menge, wenn ein Satz von Datenfällen und ein quantitatives Attribut von Interesse gegeben sind. Wie ist die Verteilung der Werte des Attributs A in einer Menge S von Datenfällen? - Wie ist die Kohlenhydratverteilung in Getreide?

- Wie ist die Altersverteilung der Käufer?

8 Anomalien finden Identifizieren Sie alle Anomalien innerhalb eines bestimmten Datensatzes in Bezug auf eine bestimmte Beziehung oder Erwartung, z. B. statistische Ausreißer. Welche Datenfälle in einer Menge S von Datenfällen haben unerwartete/außergewöhnliche Werte? - Gibt es Ausnahmen von der Beziehung zwischen PS und Beschleunigung?

- Gibt es Ausreißer im Protein?

9 Cluster Suchen Sie in einer Reihe von Datenfällen nach Clustern mit ähnlichen Attributwerten. Welche Datenfälle in einer Menge S von Datenfällen haben ähnliche Werte für die Attribute {X, Y, Z, ...}? - Gibt es Getreidegruppen mit ähnlichem Fett/Kalorien/Zucker?

- Gibt es eine Anhäufung typischer Filmlängen?

10 Zueinander in Beziehung stehen Bestimmen Sie bei einer Reihe von Datenfällen und zwei Attributen nützliche Beziehungen zwischen den Werten dieser Attribute. Wie ist die Korrelation zwischen den Attributen X und Y über einen gegebenen Satz S von Datenfällen? - Gibt es einen Zusammenhang zwischen Kohlenhydraten und Fett?

- Gibt es einen Zusammenhang zwischen Herkunftsland und MPG?

- Haben verschiedene Geschlechter eine bevorzugte Zahlungsmethode?

- Gibt es im Laufe der Jahre einen Trend, die Filmlänge zu erhöhen?

11 Kontextualisierung Finden Sie anhand einer Reihe von Datenfällen die kontextuelle Relevanz der Daten für die Benutzer. Welche Datenfälle in einer Menge S von Datenfällen sind für den aktuellen Benutzerkontext relevant? - Gibt es Gruppen von Restaurants, die Speisen basierend auf meiner aktuellen Kalorienaufnahme anbieten?

Hindernisse für eine effektive Analyse

Hindernisse für eine effektive Analyse können bei den Analysten, die die Datenanalyse durchführen, oder beim Publikum bestehen. Die Unterscheidung zwischen Fakten und Meinungen, kognitiven Verzerrungen und Unzähligkeit sind Herausforderungen für eine solide Datenanalyse.

Verwirrende Tatsache und Meinung

Sie haben ein Recht auf Ihre eigene Meinung, aber Sie haben kein Recht auf Ihre eigenen Fakten.

Daniel Patrick Moynihan

Eine effektive Analyse erfordert die Gewinnung relevanter Fakten , um Fragen zu beantworten, eine Schlussfolgerung oder eine formelle Meinung zu untermauern oder Hypothesen zu testen . Tatsachen sind per Definition unwiderlegbar, das heißt, jede an der Analyse beteiligte Person sollte sich darauf einigen können. Im August 2010 schätzte das Congressional Budget Office (CBO) beispielsweise, dass die Verlängerung der Bush-Steuersenkungen von 2001 und 2003 für den Zeitraum 2011-2020 die Staatsverschuldung um etwa 3,3 Billionen US-Dollar erhöhen würde. Jeder sollte zustimmen können, dass dies tatsächlich das ist, was CBO berichtet hat; sie alle können den Bericht einsehen. Dies macht es zu einer Tatsache. Ob Personen der CBO zustimmen oder nicht, ist ihre eigene Meinung.

Als weiteres Beispiel muss der Abschlussprüfer einer börsennotierten Gesellschaft eine formelle Stellungnahme dazu abgeben, ob die Abschlüsse von börsennotierten Unternehmen „in allen wesentlichen Belangen fair dargestellt“ sind. Dies erfordert eine umfassende Analyse von Fakten und Beweisen, um ihre Meinung zu untermauern. Beim Sprung von Fakten zu Meinungen besteht immer die Möglichkeit, dass die Meinung falsch ist .

Kognitive Voreingenommenheit

Es gibt eine Vielzahl von kognitiven Verzerrungen , die sich negativ auf die Analyse auswirken können. Zum Beispiel Bestätigungsneigung ist die Tendenz zu suchen oder zu interpretieren Informationen in einer Weise , dass bestätigt eigenen Vorurteile. Darüber hinaus können Einzelpersonen Informationen diskreditieren, die ihre Ansichten nicht stützen.

Analysten können speziell geschult werden, um sich dieser Vorurteile bewusst zu sein und sie zu überwinden. In seinem Buch Psychology of Intelligence Analysis schrieb der pensionierte CIA-Analyst Richards Heuer , dass Analytiker ihre Annahmen und Schlussfolgerungsketten klar umreißen und den Grad und die Quelle der mit den Schlussfolgerungen verbundenen Unsicherheit angeben sollten. Er betonte Verfahren, um alternative Standpunkte aufzudecken und zu diskutieren.

Unzähligkeit

Effektive Analysten sind im Allgemeinen mit einer Vielzahl numerischer Techniken vertraut. Das Publikum verfügt jedoch möglicherweise nicht über eine solche Kompetenz im Umgang mit Zahlen oder Rechnen ; sie sollen unzählig sein. Personen, die die Daten übermitteln, können auch versuchen, irrezuführen oder falsch zu informieren, indem sie absichtlich schlechte numerische Techniken verwenden.

Ob eine Zahl beispielsweise steigt oder fällt, ist möglicherweise nicht der Schlüsselfaktor. Wichtiger kann die Zahl im Verhältnis zu einer anderen Zahl sein, wie etwa die Höhe der Staatseinnahmen oder -ausgaben im Verhältnis zur Größe der Volkswirtschaft (BIP) oder die Höhe der Kosten im Verhältnis zu den Einnahmen in den Unternehmensabschlüssen. Diese numerische Technik wird als Normalisierung oder Common-Sizing bezeichnet. Es gibt viele solcher Techniken, die von Analysten verwendet werden, sei es zur Inflationsanpassung (dh Vergleich von realen und nominalen Daten) oder unter Berücksichtigung des Bevölkerungswachstums, der Demografie usw. Analysten wenden eine Vielzahl von Techniken an, um die verschiedenen im obigen Abschnitt beschriebenen quantitativen Botschaften anzugehen.

Analysten können Daten auch unter anderen Annahmen oder Szenarien analysieren. Wenn Analysten beispielsweise eine Jahresabschlussanalyse durchführen , werden sie den Jahresabschluss häufig unter anderen Annahmen neu erstellen, um zu einer Schätzung des zukünftigen Cashflows zu gelangen, den sie dann basierend auf einem Zinssatz auf den Barwert abzinsen, um die Bewertung der Unternehmen oder seine Aktie. Ebenso analysiert das CBO die Auswirkungen verschiedener Politikoptionen auf die Einnahmen, Ausgaben und Defizite des Staates und erstellt alternative Zukunftsszenarien für zentrale Maßnahmen.

Andere Themen

Intelligente Gebäude

Ein Data Analytics-Ansatz kann verwendet werden, um den Energieverbrauch in Gebäuden vorherzusagen. Die verschiedenen Schritte des Datenanalyseprozesses werden durchgeführt, um intelligente Gebäude zu realisieren, bei denen die Gebäudemanagement- und Steuerungsvorgänge einschließlich Heizung, Lüftung, Klimatisierung, Beleuchtung und Sicherheit automatisch durch Nachahmung der Bedürfnisse der Gebäudenutzer und Optimierung der Ressourcen realisiert werden wie Energie und Zeit.

Analytik und Business Intelligence

Analytics ist die „umfassende Nutzung von Daten, statistischen und quantitativen Analysen, erklärenden und prädiktiven Modellen und faktenbasiertem Management, um Entscheidungen und Maßnahmen zu treffen“. Dabei handelt es sich um eine Teilmenge der Business Intelligence , bei der es sich um eine Reihe von Technologien und Prozessen handelt, die Daten verwenden, um die Geschäftsleistung zu verstehen und zu analysieren, um die Entscheidungsfindung voranzutreiben.

Ausbildung

Analytische Aktivitäten von Benutzern der Datenvisualisierung

Im Bildungsbereich haben die meisten Pädagogen Zugang zu einem Datensystem, um Schülerdaten zu analysieren. Diese Datensysteme präsentieren den Lehrkräften Daten in einem rezeptfreien Datenformat (Einbetten von Etiketten, ergänzender Dokumentation und einem Hilfesystem und Treffen wichtiger Paket-/Anzeige- und Inhaltsentscheidungen), um die Genauigkeit der Datenanalysen der Lehrkräfte zu verbessern.

Hinweise für den Arzt

Dieser Abschnitt enthält eher technische Erklärungen, die den Praktikern helfen können, aber den typischen Rahmen eines Wikipedia-Artikels sprengen.

Erste Datenanalyse

Der wichtigste Unterschied zwischen der ersten Datenanalysephase und der Hauptanalysephase besteht darin, dass bei der anfänglichen Datenanalyse auf jede Analyse verzichtet wird, die auf die Beantwortung der ursprünglichen Forschungsfrage abzielt. Die erste Phase der Datenanalyse wird von den folgenden vier Fragen geleitet:

Datenqualität

Die Qualität der Daten sollte so früh wie möglich überprüft werden. Die Datenqualität kann auf verschiedene Weise mit verschiedenen Analysearten bewertet werden: Häufigkeitszählungen, deskriptive Statistiken (Mittelwert, Standardabweichung, Median), Normalität (Schiefe, Kurtosis, Häufigkeitshistogramme), normale Imputation ist erforderlich.

  • Analyse extremer Beobachtungen : Außergewöhnliche Beobachtungen in den Daten werden analysiert, um zu sehen, ob sie die Verteilung zu stören scheinen.
  • Vergleich und Korrektur von Unterschieden in Kodierungsschemata: Variablen werden mit Kodierungsschemata von Variablen außerhalb des Datensatzes verglichen und ggf. korrigiert, wenn Kodierungsschemata nicht vergleichbar sind.
  • Test auf Common-Method-Varianz .

Die Auswahl der Analysen zur Beurteilung der Datenqualität während der ersten Datenanalysephase hängt von den Analysen ab, die in der Hauptanalysephase durchgeführt werden.

Qualität der Messungen

Die Qualität der Messgeräte sollte nur in der ersten Phase der Datenanalyse überprüft werden, wenn dies nicht im Fokus oder der Forschungsfrage der Studie steht. Es sollte überprüft werden, ob die Struktur der Messgeräte der in der Literatur beschriebenen Struktur entspricht.

Es gibt zwei Möglichkeiten, die Messqualität zu beurteilen:

  • Bestätigende Faktorenanalyse
  • Homogenitätsanalyse ( interne Konsistenz ), die einen Hinweis auf die Zuverlässigkeit eines Messgeräts gibt. Bei dieser Analyse untersucht man die Varianzen der Items und der Skalen, das Cronbach-α der Skalen und die Veränderung des Cronbach-Alpha, wenn ein Item aus einer Skala gelöscht würde

Erste Transformationen

Nach der Bewertung der Qualität der Daten und der Messungen kann man sich entscheiden, fehlende Daten zu imputieren oder erste Transformationen einer oder mehrerer Variablen durchzuführen, obwohl dies auch während der Hauptanalysephase erfolgen kann.
Mögliche Transformationen von Variablen sind:

  • Quadratwurzeltransformation (wenn die Verteilung mäßig von der Normalen abweicht)
  • Log-Transformation (wenn die Verteilung wesentlich vom Normalwert abweicht)
  • Inverse Transformation (wenn die Verteilung stark vom Normalwert abweicht)
  • Kategorisch machen (ordinal / dichotom) (wenn die Verteilung stark vom Normalwert abweicht und keine Transformationen helfen)

Entsprach die Durchführung der Studie den Intentionen des Forschungsdesigns?

Der Erfolg des Randomisierungsverfahrens sollte überprüft werden, indem beispielsweise überprüft wird, ob Hintergrund- und Substanzvariablen innerhalb und zwischen den Gruppen gleichmäßig verteilt sind.
Wenn die Studie kein Randomisierungsverfahren benötigt oder verwendet hat, sollte man den Erfolg der nicht zufälligen Stichprobe überprüfen, indem man beispielsweise prüft, ob alle Untergruppen der interessierenden Grundgesamtheit in der Stichprobe vertreten sind.
Andere mögliche Datenverzerrungen, die überprüft werden sollten, sind:

  • Dropout (dies sollte während der ersten Datenanalysephase identifiziert werden)
  • Item- Non-Response (ob zufällig oder nicht, sollte während der ersten Datenanalysephase beurteilt werden)
  • Behandlungsqualität (mittels Manipulationsprüfungen ).

Eigenschaften der Datenprobe

In jedem Bericht oder Artikel muss die Struktur der Stichprobe genau beschrieben werden. Es ist besonders wichtig, die Struktur der Stichprobe (und insbesondere die Größe der Subgruppen) genau zu bestimmen, wenn Subgruppenanalysen während der Hauptanalysephase durchgeführt werden.
Die Eigenschaften der Datenstichprobe können beurteilt werden, indem man sich ansieht:

  • Basisstatistik wichtiger Variablen
  • Streudiagramme
  • Zusammenhänge und Assoziationen
  • Kreuztabellen

Letzte Phase der ersten Datenanalyse

In der letzten Phase werden die Ergebnisse der ersten Datenanalyse dokumentiert und notwendige, wünschenswerte und mögliche Korrekturmaßnahmen eingeleitet.
Auch der ursprüngliche Plan für die Hauptdatenanalysen kann und sollte genauer spezifiziert oder umgeschrieben werden.
Dazu können und sollten mehrere Entscheidungen zu den wichtigsten Datenanalysen getroffen werden:

  • Im Fall von Nicht- Normalen : sollte man Variablen transformieren ; Variablen kategorial machen (ordinal/dichotom); die Analysemethode anpassen?
  • Bei fehlenden Daten : sollte man die fehlenden Daten vernachlässigen oder unterstellen; Welche Imputationstechnik soll verwendet werden?
  • Bei Ausreißern : Sollte man robuste Analysetechniken anwenden?
  • Falls Items nicht in die Skala passen: Soll man das Messgerät durch Weglassen von Items anpassen oder eher die Vergleichbarkeit mit anderen (Anwendungen des) Messgeräts/der Messgeräte sicherstellen?
  • Im Fall von (zu) kleinen Untergruppen: sollte man die Hypothese über die Unterschiede zwischen den Gruppen fallen lassen oder kleine Stichprobentechniken wie exakte Tests oder Bootstrapping verwenden ?
  • Falls das Randomisierungsverfahren mangelhaft erscheint: Kann und soll man Propensity-Scores berechnen und als Kovariaten in die Hauptanalysen einbeziehen?

Analyse

Während der anfänglichen Datenanalysephase können mehrere Analysen verwendet werden:

  • Univariate Statistik (einzelne Variable)
  • Bivariate Assoziationen (Korrelationen)
  • Grafische Techniken (Scatterplots)

Es ist wichtig, die Messniveaus der Variablen für die Analysen zu berücksichtigen, da für jedes Niveau spezielle statistische Verfahren zur Verfügung stehen:

  • Nominale und ordinale Variablen
    • Häufigkeitszählungen (Zahlen und Prozentsätze)
    • Verbände
      • Umrundungen (Kreuztabellen)
      • hierarchische loglineare Analyse (beschränkt auf maximal 8 Variablen)
      • loglineare Analyse (um relevante/wichtige Variablen und mögliche Störfaktoren zu identifizieren)
    • Exakte Tests oder Bootstrapping (bei kleinen Untergruppen)
    • Berechnung neuer Variablen
  • Kontinuierliche Variablen
    • Verteilung
      • Statistik (M, SD, Varianz, Schiefe, Kurtosis)
      • Stängel-Blatt-Displays
      • Boxplots

Nichtlineare Analyse

Eine nichtlineare Analyse ist oft erforderlich, wenn die Daten von einem nichtlinearen System aufgezeichnet werden . Nichtlineare Systeme können komplexe dynamische Effekte aufweisen, einschließlich Bifurkationen , Chaos , Harmonische und Subharmonische , die mit einfachen linearen Methoden nicht analysiert werden können. Die nichtlineare Datenanalyse ist eng mit der nichtlinearen Systemidentifikation verbunden .

Hauptdatenanalyse

In der Hauptanalysephase werden Analysen zur Beantwortung der Forschungsfrage sowie alle anderen relevanten Analysen durchgeführt, die für die Erstellung des ersten Entwurfs des Forschungsberichts erforderlich sind.

Explorative und konfirmatorische Ansätze

In der Hauptanalysephase kann entweder ein explorativer oder ein konfirmatorischer Ansatz gewählt werden. In der Regel wird die Vorgehensweise vor der Datenerhebung festgelegt. Bei einer explorativen Analyse wird vor der Datenanalyse keine klare Hypothese aufgestellt und die Daten nach Modellen durchsucht, die die Daten gut beschreiben. In einer konfirmatorischen Analyse werden klare Hypothesen zu den Daten überprüft.

Explorative Datenanalysen sollten sorgfältig interpretiert werden. Beim gleichzeitigen Testen mehrerer Modelle besteht eine hohe Wahrscheinlichkeit, dass mindestens eines davon signifikant ist, dies kann jedoch an einem Fehler vom Typ 1 liegen . Es ist wichtig, das Signifikanzniveau immer anzupassen, wenn mehrere Modelle getestet werden, beispielsweise mit einer Bonferroni-Korrektur . Auch sollte man einer explorativen Analyse nicht eine konfirmatorische Analyse im selben Datensatz anschließen. Eine explorative Analyse dient dazu, Ideen für eine Theorie zu finden, aber nicht auch, um diese Theorie zu testen. Wenn in einem Datensatz ein exploratives Modell gefunden wird, könnte die Nachfolge dieser Analyse mit einer konfirmatorischen Analyse im selben Datensatz einfach bedeuten, dass die Ergebnisse der konfirmatorischen Analyse auf den gleichen Fehler vom Typ 1 zurückzuführen sind , der zum ersten explorativen Modell führte Platz. Die konfirmatorische Analyse ist daher nicht aussagekräftiger als die ursprüngliche explorative Analyse.

Stabilität der Ergebnisse

Es ist wichtig, einen Hinweis darauf zu erhalten, wie generalisierbar die Ergebnisse sind. Obwohl dies oft schwer zu überprüfen ist, kann man sich die Stabilität der Ergebnisse ansehen. Sind die Ergebnisse zuverlässig und reproduzierbar? Es gibt zwei Hauptmethoden, dies zu tun.

  • Kreuzvalidierung . Indem wir die Daten in mehrere Teile aufteilen, können wir überprüfen, ob eine Analyse (wie ein angepasstes Modell), die auf einem Teil der Daten basiert, auch auf einen anderen Teil der Daten verallgemeinert. Eine Kreuzvalidierung ist jedoch in der Regel nicht sinnvoll, wenn innerhalb der Daten Korrelationen bestehen, zB mit Paneldaten . Daher müssen manchmal andere Validierungsmethoden verwendet werden. Weitere Informationen zu diesem Thema finden Sie unter Statistische Modellvalidierung .
  • Sensitivitätsanalyse . Ein Verfahren zur Untersuchung des Verhaltens eines Systems oder Modells, wenn globale Parameter (systematisch) variiert werden. Eine Möglichkeit, dies zu tun, ist das Bootstrapping .

Kostenlose Software zur Datenanalyse

Bemerkenswerte kostenlose Software für die Datenanalyse sind:

  • DevInfo – Ein von der Entwicklungsgruppe der Vereinten Nationen unterstütztes Datenbanksystem zur Überwachung und Analyse der menschlichen Entwicklung.
  • ELKI – Data Mining Framework in Java mit Data Mining orientierten Visualisierungsfunktionen.
  • KNIME – The Konstanz Information Miner, ein benutzerfreundliches und umfassendes Datenanalyse-Framework.
  • Orange – Ein visuelles Programmiertool mit interaktiver Datenvisualisierung und Methoden für statistische Datenanalyse, Data Mining und maschinelles Lernen .
  • Pandas – Python-Bibliothek zur Datenanalyse.
  • PAW – FORTRAN/C Datenanalyse-Framework am CERN entwickelt .
  • R – Eine Programmiersprache und Softwareumgebung für statistische Berechnungen und Grafiken.
  • ROOT – C++-Datenanalyse-Framework am CERN entwickelt .
  • SciPy – Python-Bibliothek zur Datenanalyse.
  • Julia - Eine Programmiersprache, die sich gut für die numerische Analyse und Computerwissenschaften eignet.

Internationale Datenanalysewettbewerbe

Verschiedene Unternehmen oder Organisationen veranstalten Datenanalysewettbewerbe, um Forscher zu ermutigen, ihre Daten zu verwenden oder eine bestimmte Frage mithilfe von Datenanalysen zu lösen. Einige Beispiele bekannter internationaler Datenanalysewettbewerbe sind wie folgt:

Siehe auch

Verweise

Zitate

Literaturverzeichnis

  • Adèr, Herman J. (2008a). "Kapitel 14: Phasen und erste Schritte in der Datenanalyse". In Adèr, Herman J.; Mellenbergh, Gideon J. ; Hand, David J (Hrsg.). Beratung zu Forschungsmethoden: Begleiter des Beraters . Huizen, Niederlande: Johannes van Kessel Pub. S. 333–356. ISBN 9789079418015. OCLC  905799857 .
  • Adèr, Herman J. (2008b). "Kapitel 15: Die Hauptanalysephase". In Adèr, Herman J.; Mellenbergh, Gideon J. ; Hand, David J (Hrsg.). Beratung zu Forschungsmethoden: Begleiter des Beraters . Huizen, Niederlande: Johannes van Kessel Pub. S. 357–386. ISBN 9789079418015. OCLC  905799857 .
  • Tabachnick, BG & Fidell, LS (2007). Kapitel 4: Aufräumen Ihrer Tat. Screening-Daten vor der Analyse. In BG Tabachnick & LS Fidell (Hrsg.), Using Multivariate Statistics, Fifth Edition (S. 60–116). Boston: Pearson Education, Inc. / Allyn und Bacon.

Weiterlesen

  • Adèr, HJ & Mellenbergh, GJ (mit Beiträgen von DJ Hand) (2008). Beratung zu Forschungsmethoden: Der Begleiter eines Beraters . Huizen, Niederlande: Johannes van Kessel Publishing. ISBN  978-90-79418-01-5
  • Kammern, John M.; Cleveland, William S.; Kleiner, Beat; Tukey, Paul A. (1983). Grafische Methoden zur Datenanalyse , Wadsworth/Duxbury Press. ISBN  0-534-98052-X
  • Fandango, Armando (2017). Python-Datenanalyse, 2. Auflage . Packt-Publisher. ISBN  978-1787127487
  • Juran, Joseph M.; Godfrey, A. Blanton (1999). Jurans Qualitätshandbuch, 5. Auflage. New York: McGraw-Hügel. ISBN  0-07-034003-X
  • Lewis-Beck, Michael S. (1995). Datenanalyse: eine Einführung , Sage Publications Inc, ISBN  0-8039-5772-6
  • NIST/SEMATECH (2008) Handbuch statistischer Methoden ,
  • Pyzdek, T, (2003). Handbuch der Qualitätstechnik , ISBN  0-8247-4614-7
  • Richard Veryard (1984). Pragmatische Datenanalyse . Oxford: Blackwell wissenschaftliche Veröffentlichungen. ISBN  0-632-01311-7
  • Tabachnick, BG; Fidell, LS (2007). Verwenden multivariater Statistiken, 5. Auflage . Boston: Pearson Education, Inc. / Allyn and Bacon, ISBN  978-0-205-45938-4