Datenzusammenführung - Data blending

Data Blending ist ein Prozess, bei dem Big Data aus mehreren Quellen in einem einzigen Data Warehouse oder Datensatz zusammengeführt werden . Dabei geht es nicht nur um das Zusammenführen unterschiedlicher Dateiformate oder unterschiedlicher Datenquellen, sondern auch um unterschiedliche Arten von Daten. Data Blending ermöglicht es Business-Analysten, mit der Datenexpansion fertig zu werden, die sie benötigen, um kritische Geschäftsentscheidungen auf der Grundlage qualitativ hochwertiger Business Intelligence zu treffen .

Data Blending wurde aufgrund der Anforderungen von Datenanalysten , Quellen sehr schnell zusammenzuführen, zu schnell für jede praktische Intervention durch Data Scientists, als anders als die Datenintegration beschrieben .

Als Repräsentant der gestiegenen Nachfrage nach der Kombination von Datenquellen durch Analysten verzeichneten mehrere Softwareunternehmen ein starkes Wachstum und sammelten Millionen von Dollar, wobei einige der frühen Marktteilnehmer jetzt börsennotierte Unternehmen sind. Beispiele sind AWS , Alteryx , Microsoft Power Query und Incorta , die das Kombinieren von Daten aus vielen verschiedenen Datenquellen ermöglichen, beispielsweise Textdateien, Datenbanken, XML, JSON und viele andere Formen strukturierter und halbstrukturierter Daten.

Data Blending ähnelt in vielerlei Hinsicht ETL . Sowohl ETL als auch Data Blending nehmen Daten aus verschiedenen Quellen und kombinieren sie. ETL wird jedoch verwendet, um Daten in einer Zieldatenbank, häufig einem Data Warehouse , zusammenzuführen und zu strukturieren . Die Datenzusammenführung unterscheidet sich geringfügig, da es darum geht, Daten für einen bestimmten Anwendungsfall zu einem bestimmten Zeitpunkt zusammenzuführen. Bei einiger Software werden Daten nicht in eine Datenbank geschrieben, was sich stark von ETL unterscheidet. Bei Google Data Studio und Tableau erfolgt die Datenzusammenführung beispielsweise auf der Berichtsebene. es wird nirgendwo geschrieben, sondern nur angezeigt.

Datenverschmelzung in Tableau

In der Tableau-Software ist Data Blending eine Technik zum Kombinieren von Daten aus mehreren Datenquellen in der Datenvisualisierung . Die Datenquellen werden separat gespeichert und nur zusammen in einem Dashboard auf der Berichtsebene angezeigt . Dies ist eines der Schlüsselkonzepte, die eine Tableau-Datenmischung von anderen Definitionen der Datenmischung unterscheiden.

Das andere wichtige Unterscheidungsmerkmal ist die Granularität der Datenverknüpfung. Im Allgemeinen würde beim Zusammenführen von Daten zu einem einzelnen Datensatz ein Datenbank-Join verwendet , der normalerweise auf der granularsten Ebene zusammengeführt wird, wobei nach Möglichkeit ein ID-Feld verwendet wird. Eine Datenmischung in Tableau sollte auf der am wenigsten granularen Ebene erfolgen.

Datenzusammenführung in Google Data Studio

In Google Data Studio werden Datenquellen kombiniert, indem die Datensätze einer Datenquelle mit den Datensätzen von bis zu vier anderen Datenquellen zusammengeführt werden. Ähnlich wie bei Tableau erfolgt die Datenzusammenführung nur auf der Berichtsebene. Die gemischten Daten werden nie als separate kombinierte Datenquelle gespeichert.

Herausforderungen beim Data Blending

Die am häufigsten gestellte Frage zu benutzerdefinierten Metadaten lautet: "Wie kann dieser Datensatz mit meinen anderen Datensätzen verschmelzen (verknüpfen oder vereinigen)?" Eine Studie von Forrester Consulting aus dem Jahr 2015 ergab, dass 52 Prozent der Unternehmen 50 oder mehr Datenquellen und 12 Prozent über 1.000 Quellen zusammenführen.

Siehe auch

Verweise

  1. ^ Alteryx Analytics bringt Vorhersagekraft und Big Data auf den Markt
  2. ^ Data Blending ist der Prozess der Kombination von Daten aus mehreren Quellen zu einem funktionierenden Datensatz
  3. ^ Der endgültige Leitfaden für die Datenverschmelzung
  4. ^ "Datenverschmelzung" . Trifacta.com . 24.08.2017.
  5. ^ Was ist Data Blending und welche Tools machen es einfacher?
  6. ^ "Incorta sammelt 30 Millionen US-Dollar für die ETL-freie Datenverarbeitungslösung" . TechCrunch . Abgerufen 2021-02-27 .
  7. ^ "Alteryx gibt Preis für den Börsengang bekannt" . Alteryx . Abgerufen 2021-02-27 .
  8. ^ Unternehmen, Microsoft. "Microsoft PowerQuery" . powerquery.microsoft.com . Abgerufen 2021-02-27 .
  9. ^ „Direkte Datenanalyse-Software | Incorta“ . www.incorta.com . Abgerufen 2021-02-27 .
  10. ^ "Datenquellen" . docs.incorta.com . Abgerufen 2021-02-27 .
  11. ^ davidiseminger. "Formen und Kombinieren von Daten aus mehreren Quellen mit Power Query" . docs.microsoft.com . Abgerufen 2021-02-27 .
  12. ^ „Unterstützte Datenquellen – Amazon QuickSight“ . docs.aws.amazon.com . Abgerufen 2021-02-27 .
  13. ^ "Datenquellen | Alteryx-Hilfe" . help.alteryx.com . Abgerufen 2021-02-27 .
  14. ^ "So funktioniert ETL" . Databricks (auf Deutsch) . Abgerufen 2021-02-27 .
  15. ^ "Was ist Data Blending und welche Tools machen es einfacher?" . Software-Beratung . 2016-08-25 . Abgerufen 2021-02-27 .
  16. ^ "Google Data Studio-Übersicht" . datastudio.google.com . Abgerufen 2021-02-27 .
  17. ^ "Mischen Sie Ihre Daten" . help.tableau.com . Abgerufen 2021-02-27 .
  18. ^ "SQL-Joins erklärt" . SQL-Joins erklärt . Abgerufen 2021-02-27 .
  19. ^ TAR-Lösungen (2021-01-20). "Datenverschmelzung in Tableau" . TAR-Lösungen . Abgerufen 2021-02-27 .
  20. ^ "Informationen zum Zusammenführen von Daten - Hilfe zu Data Studio" . support.google.com . Abgerufen 2021-02-27 .
  21. ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (Juli 2017). Prinzipien des Data Wrangling . O'Reilly-Medien.
  22. ^ "Daten-Mashups für Analytics" . Pentaho .