Prädiktive Analysen - Predictive analytics

Predictive Analytics umfasst eine Vielzahl statistischer Techniken aus Data Mining , Predictive Modeling und Machine Learning , die aktuelle und historische Fakten analysieren, um Vorhersagen über zukünftige oder anderweitig unbekannte Ereignisse zu treffen .

In der Wirtschaft nutzen Vorhersagemodelle Muster aus historischen und Transaktionsdaten, um Risiken und Chancen zu identifizieren. Modelle erfassen Beziehungen zwischen vielen Faktoren, um eine Bewertung von Risiken oder Potenzialen zu ermöglichen, die mit einer bestimmten Reihe von Bedingungen verbunden sind, und leiten die Entscheidungsfindung für Kandidatentransaktionen.

Der entscheidende funktionale Effekt dieser technischen Ansätze besteht darin, dass Predictive Analytics für jede Person (Kunde, Mitarbeiter, Patient im Gesundheitswesen, Produkt-SKU, Fahrzeug, Komponente, Maschine oder andere Organisationseinheit) einen Vorhersagewert (Wahrscheinlichkeit) liefert, um zu bestimmen, zu informieren , oder Einfluss auf organisatorische Prozesse, die eine große Anzahl von Personen betreffen, wie Marketing, Kreditrisikobewertung, Betrugserkennung, Fertigung, Gesundheitswesen und Regierungsbetrieb einschließlich der Strafverfolgung.

Predictive Analytics wird in den Bereichen Versicherungsmathematik , Marketing , Betriebswirtschaft , Sport/ Fantasy Sports , Versicherungen , Polizei , Telekommunikation , Einzelhandel , Reisen , Mobilität , Gesundheitswesen , Kinderschutz , Pharma , Kapazitätsplanung , soziale Netzwerke und andere Bereiche eingesetzt.

Eine der bekanntesten Anwendungen ist das Kredit-Scoring , das in der gesamten Unternehmensführung zum Einsatz kommt . Scoring - Modelle verarbeiten , um einen Kunden Kredit - Geschichte , Kreditantrag , Kundendaten, etc., um zu Rangordnungs Individuen durch ihre Wahrscheinlichkeit künftiger Kredit Zahlungen auf Zeit.

Definition

Predictive Analytics ist ein Bereich der Statistik, der sich mit der Extraktion von Informationen aus Daten und deren Verwendung zur Vorhersage von Trends und Verhaltensmustern befasst. Die Weiterentwicklung von Predictive Web Analytics berechnet statistische Wahrscheinlichkeiten zukünftiger Ereignisse online. Zu den statistischen Techniken der Predictive Analytics gehören Datenmodellierung , maschinelles Lernen , KI , Deep-Learning- Algorithmen und Data Mining . Oft liegt das unbekannte Ereignis von Interesse in der Zukunft, aber Predictive Analytics kann auf jede Art von Unbekanntem angewendet werden, sei es in der Vergangenheit, Gegenwart oder Zukunft. Zum Beispiel die Identifizierung von Verdächtigen, nachdem eine Straftat begangen wurde, oder Kreditkartenbetrug, wenn es passiert. Der Kern von Predictive Analytics beruht darauf, Beziehungen zwischen erklärenden Variablen und den vorhergesagten Variablen vergangener Ereignisse zu erfassen und sie zur Vorhersage des unbekannten Ergebnisses zu nutzen. Es ist jedoch wichtig zu beachten, dass die Genauigkeit und Verwendbarkeit der Ergebnisse stark vom Niveau der Datenanalyse und der Qualität der Annahmen abhängen.

Predictive Analytics wird oft als Vorhersage mit einer detaillierteren Granularität definiert, dh das Generieren von Vorhersagewerten (Wahrscheinlichkeiten) für jedes einzelne Organisationselement. Dies unterscheidet sie von Prognosen . Zum Beispiel "Predictive Analytics – Technologie, die aus Erfahrungen (Daten) lernt, um das zukünftige Verhalten von Einzelpersonen vorherzusagen, um bessere Entscheidungen zu treffen." In zukünftigen Industriesystemen wird der Wert von Predictive Analytics darin bestehen, potenzielle Probleme vorherzusagen und zu verhindern, um einen Ausfall nahe Null zu erreichen und weiter in Prescriptive Analytics zur Entscheidungsoptimierung integriert zu werden .

Typen

Im Allgemeinen wird der Begriff prädiktive Analytik verwendet, um prädiktive Modellierung , das „Bewerten“ von Daten mit prädiktiven Modellen und Prognosen zu bedeuten . Der Begriff wird jedoch zunehmend verwendet, um sich auf verwandte analytische Disziplinen wie die deskriptive Modellierung und Entscheidungsmodellierung oder Optimierung zu beziehen. Diese Disziplinen beinhalten auch eine strenge Datenanalyse und werden in der Wirtschaft häufig zur Segmentierung und Entscheidungsfindung verwendet, haben jedoch unterschiedliche Zwecke und die ihnen zugrunde liegenden statistischen Techniken variieren.

Vorhersagemodelle

Die prädiktive Modellierung verwendet prädiktive Modelle, um die Beziehung zwischen der spezifischen Leistung einer Einheit in einer Stichprobe und einem oder mehreren bekannten Attributen oder Merkmalen dieser Einheit zu analysieren. Das Ziel des Modells besteht darin, die Wahrscheinlichkeit zu bewerten, dass eine ähnliche Einheit in einer anderen Stichprobe die spezifische Leistung aufweist. Diese Kategorie umfasst Modelle in vielen Bereichen, wie z. B. im Marketing, wo sie nach subtilen Datenmustern suchen, um Fragen zur Kundenleistung zu beantworten, oder Modelle zur Betrugserkennung. Vorhersagemodelle führen häufig Berechnungen während Live-Transaktionen durch, um beispielsweise das Risiko oder die Chance eines bestimmten Kunden oder einer bestimmten Transaktion zu bewerten, um eine Entscheidung zu treffen. Mit Fortschritten in der Rechengeschwindigkeit sind individuelle Agentenmodellierungssysteme in der Lage, menschliches Verhalten oder Reaktionen auf gegebene Stimuli oder Szenarien zu simulieren.

Die verfügbaren Stichprobeneinheiten mit bekannten Attributen und bekannten Leistungen werden als "Trainingsstichprobe" bezeichnet. Die Einheiten in anderen Stichproben mit bekannten Attributen, aber unbekannten Leistungen werden als Einheiten "außerhalb der [Trainings-]Stichprobe" bezeichnet. Die Out-of-Sample-Units haben nicht unbedingt eine chronologische Beziehung zu den Trainings-Sample-Units. Zum Beispiel kann die Trainingsstichprobe aus literarischen Attributen von Schriften viktorianischer Autoren mit bekannter Zuschreibung bestehen, und die Einheit außerhalb der Stichprobe kann neu gefundene Schriften mit unbekannter Autorschaft sein; ein Vorhersagemodell kann dabei helfen, ein Werk einem bekannten Autor zuzuordnen. Ein weiteres Beispiel ist die Analyse von Blutspritzern in simulierten Tatorten, bei denen die außerhalb der Probe befindliche Einheit das tatsächliche Blutspritzermuster von einem Tatort ist. Die Out-of-Sample-Einheit kann von der gleichen Zeit wie die Trainingseinheiten, von einer früheren Zeit oder von einer zukünftigen Zeit stammen.

Beschreibende Modelle

Deskriptive Modelle quantifizieren Beziehungen in Daten auf eine Weise, die häufig verwendet wird, um Kunden oder Interessenten in Gruppen zu klassifizieren. Im Gegensatz zu Vorhersagemodellen, die sich auf die Vorhersage eines einzelnen Kundenverhaltens (z. B. Kreditrisiko) konzentrieren, identifizieren beschreibende Modelle viele verschiedene Beziehungen zwischen Kunden oder Produkten. Deskriptive Modelle ordnen Kunden nicht nach ihrer Wahrscheinlichkeit, eine bestimmte Aktion auszuführen, wie dies bei Vorhersagemodellen der Fall ist. Stattdessen können beschreibende Modelle verwendet werden, um beispielsweise Kunden nach Produktpräferenzen und Lebensphase zu kategorisieren. Mit deskriptiven Modellierungswerkzeugen können weitere Modelle entwickelt werden, die eine große Anzahl individualisierter Agenten simulieren und Vorhersagen treffen können.

Entscheidungsmodelle

Entscheidungsmodelle beschreiben die Beziehung zwischen allen Elementen einer Entscheidung – den bekannten Daten (einschließlich Ergebnissen von Vorhersagemodellen), der Entscheidung und den prognostizierten Ergebnissen der Entscheidung –, um die Ergebnisse von Entscheidungen mit vielen Variablen vorherzusagen. Diese Modelle können bei der Optimierung verwendet werden, um bestimmte Ergebnisse zu maximieren und andere zu minimieren. Entscheidungsmodelle werden im Allgemeinen verwendet, um eine Entscheidungslogik oder einen Satz von Geschäftsregeln zu entwickeln, die für jeden Kunden oder jede Situation die gewünschte Aktion erzeugen.

Anwendungen

Obwohl Predictive Analytics in vielen Anwendungen eingesetzt werden kann, skizzieren wir einige Beispiele, in denen Predictive Analytics in den letzten Jahren positive Auswirkungen gezeigt hat.

Unternehmen

Analytisches Customer Relationship Management (CRM) ist eine häufige kommerzielle Anwendung der prädiktiven Analyse. Methoden der prädiktiven Analyse werden auf Kundendaten angewendet, um eine ganzheitliche Sicht auf den Kunden zu konstruieren. CRM verwendet vorausschauende Analysen in Anwendungen für Marketingkampagnen, Vertrieb und Kundenservice. Analytisches CRM kann die ganze angewandt wird Kunden - Lebenszyklus ( Akquisition , Beziehung Wachstum , Retention , und Win-back).

Oft Unternehmensorganisationen zu sammeln und zu pflegen reichlich Daten wie Kundenaufzeichnungen oder Verkaufstransaktionen. In diesen Fällen kann Predictive Analytics helfen, die Ausgaben, die Nutzung und das andere Verhalten der Kunden zu analysieren, was zu einem effizienten Cross-Sales oder dem Verkauf zusätzlicher Produkte an bestehende Kunden führt.

Die richtige Anwendung von Predictive Analytics kann zu proaktiveren und effektiveren Bindungsstrategien führen. Durch eine häufige Untersuchung der früheren Servicenutzung, Serviceleistung, Ausgaben und anderer Verhaltensmuster eines Kunden können Vorhersagemodelle die Wahrscheinlichkeit einer baldigen Beendigung des Service durch einen Kunden bestimmen. Eine Intervention mit Angeboten mit hoher Wertwahrnehmung kann die Chance erhöhen, den Kunden zu konvertieren oder zu binden. Predictive Analytics kann auch Silent Attrition vorhersagen, das Verhalten eines Kunden, die Nutzung langsam, aber stetig zu reduzieren.

Kinderschutz

Einige Kinderschutzbehörden haben damit begonnen, prädiktive Analysen zu verwenden, um Fälle mit hohem Risiko zu erkennen. In Hillsborough County, Florida , hat beispielsweise der Einsatz eines prädiktiven Modellierungswerkzeugs durch die Kinderschutzbehörde missbrauchsbedingte Todesfälle von Kindern in der Zielbevölkerung verhindert.

Klinische Entscheidungsunterstützungssysteme

Prädiktive Analysen haben in der Gesundheitsversorgung in erster Linie Verwendung gefunden, um zu bestimmen, bei welchen Patienten das Risiko besteht, Erkrankungen wie Diabetes, Asthma oder Herzerkrankungen zu entwickeln. Darüber hinaus beinhalten hochentwickelte klinische Entscheidungsunterstützungssysteme prädiktive Analytik, um die medizinische Entscheidungsfindung zu unterstützen.

Eine Studie zu neurodegenerativen Erkrankungen aus dem Jahr 2016 liefert ein aussagekräftiges Beispiel für eine CDS-Plattform zur Diagnose, Verfolgung, Vorhersage und Überwachung des Fortschreitens der Parkinson-Krankheit .

Vorhersage der Ergebnisse von Rechtsentscheidungen

Die Vorhersage des Ergebnisses juristischer Entscheidungen kann durch KI-Programme erfolgen. Diese Programme können als Hilfsmittel für Berufe in dieser Branche verwendet werden.

Vorhersage auf Portfolio-, Produkt- oder Wirtschaftsebene

Im Fokus der Analyse steht oft nicht der Konsument, sondern das Produkt, das Portfolio, das Unternehmen, die Branche oder auch die Wirtschaft. Ein Einzelhändler könnte beispielsweise daran interessiert sein, die Nachfrage auf Ladenebene für Bestandsverwaltungszwecke vorherzusagen. Oder das Federal Reserve Board könnte daran interessiert sein, die Arbeitslosenquote für das nächste Jahr vorherzusagen. Diese Art von Problemen kann durch Predictive Analytics unter Verwendung von Zeitreihentechniken angegangen werden (siehe unten). Sie können auch über maschinelle Lernansätze adressiert werden, die die ursprüngliche Zeitreihe in einen Merkmalsvektorraum umwandeln, in dem der Lernalgorithmus Muster mit Vorhersagekraft findet.

Versicherungswesen

Viele Unternehmen müssen die Risiken aufgrund ihrer unterschiedlichen Dienstleistungen berücksichtigen und die zur Deckung des Risikos erforderlichen Kosten ermitteln. Predictive Analytics kann dabei helfen , diese Mengen durch Vorhersage der Wahrscheinlichkeit von Krankheit, Zahlungsausfall , Insolvenz usw. abzusichern. Predictive Analytics kann den Prozess der Kundenakquise rationalisieren, indem das zukünftige Risikoverhalten eines Kunden anhand von Daten auf Anwendungsebene vorhergesagt wird. Predictive Analytics in Form von Bonitätsscores haben insbesondere im Hypothekenmarkt den Zeitaufwand für die Kreditbewilligung verkürzt. Angemessene prädiktive Analysen können zu richtigen Preisentscheidungen führen, die dazu beitragen können, das zukünftige Ausfallrisiko zu mindern.

Technologie- und Big-Data-Einflüsse

Big Data ist eine Sammlung von Datensätzen, die so groß und komplex sind, dass sie mit herkömmlichen Datenbankverwaltungstools umständlich zu bearbeiten sind. Das Volumen, die Vielfalt und die Geschwindigkeit von Big Data haben auf der ganzen Linie Herausforderungen für Erfassung, Speicherung, Suche, gemeinsame Nutzung, Analyse und Visualisierung mit sich gebracht. Beispiele für Big-Data-Quellen sind Weblogs , RFID , Sensordaten , soziale Netzwerke , Internet-Suchindexierung, Anrufdetailaufzeichnungen, militärische Überwachung und komplexe Daten in Astronomie, Biogeochemie, Genomik und Atmosphärenwissenschaften. Big Data ist der Kern der meisten prädiktiven Analysedienste, die von IT-Organisationen angeboten werden. Dank technologischer Fortschritte in der Computerhardware – schnellere CPUs, billigerer Speicher und MPP- Architekturen – und neuer Technologien wie Hadoop , MapReduce und datenbankinterne und Textanalysen zur Verarbeitung von Big Data ist es jetzt möglich, Daten zu sammeln, zu analysieren und zu minen riesige Mengen an strukturierten und unstrukturierten Daten für neue Erkenntnisse. Es ist auch möglich, Vorhersagealgorithmen für Streaming-Daten auszuführen. Heutzutage ist die Erforschung von Big Data und der Einsatz von Predictive Analytics für mehr Unternehmen erreichbar als je zuvor, und es werden neue Methoden vorgeschlagen, die in der Lage sind, solche Datensätze zu verarbeiten.

Analytische Techniken

Die Ansätze und Techniken zur Durchführung von Predictive Analytics lassen sich grob in Regressionstechniken und maschinelle Lerntechniken einteilen.

Regressionstechniken

Regressionsmodelle sind die tragende Säule der Predictive Analytics. Der Fokus liegt auf der Aufstellung einer mathematischen Gleichung als Modell zur Darstellung der Wechselwirkungen zwischen den verschiedenen betrachteten Variablen. Je nach Situation gibt es eine Vielzahl von Modellen, die bei der Durchführung von Predictive Analytics angewendet werden können. Einige von ihnen werden im Folgenden kurz diskutiert.

Lineares Regressionsmodell

Das lineare Regressionsmodell sagt die Antwortvariable als lineare Funktion der Parameter mit unbekannten Koeffizienten voraus. Diese Parameter werden so angepasst, dass ein Maß der Anpassung optimiert wird. Ein Großteil des Aufwands bei der Modellanpassung konzentriert sich darauf, die Größe des Residuums zu minimieren und sicherzustellen, dass es in Bezug auf die Modellvorhersagen zufällig verteilt wird.

Das Ziel der Regression besteht darin, die Parameter des Modells so auszuwählen, dass die Summe der quadrierten Residuen minimiert wird. Dies wird als gewöhnliche kleinste Quadrate (OLS)-Schätzung bezeichnet.

Modelle mit diskreter Auswahl

Multiple Regression (oben) wird im Allgemeinen verwendet, wenn die Antwortvariable stetig ist und einen unbegrenzten Bereich hat. Oftmals ist die Antwortvariable möglicherweise nicht kontinuierlich, sondern eher diskret. Während es mathematisch möglich ist, die multiple Regression auf diskrete geordnete abhängige Variablen anzuwenden, gelten einige der Annahmen hinter der Theorie der multiplen linearen Regression nicht mehr, und es gibt andere Techniken wie diskrete Auswahlmodelle, die für diese Art von Analyse besser geeignet sind. Wenn die abhängige Variable diskret ist, sind einige dieser überlegenen Methoden logistische Regression , multinomiale Logit- und Probit- Modelle. Logistische Regressions- und Probit-Modelle werden verwendet, wenn die abhängige Variable binär ist .

Logistische Regression

In einer Klassifikationsumgebung kann die Zuweisung von Ergebniswahrscheinlichkeiten zu Beobachtungen durch die Verwendung eines logistischen Modells (auch als logisches Modell bezeichnet) erreicht werden, das Informationen über die binäre abhängige Variable in eine unbeschränkte kontinuierliche Variable umwandelt und ein reguläres multivariates Modell schätzt.

Der Wald- und der Likelihood-Ratio-Test werden verwendet, um die statistische Signifikanz jedes Koeffizienten b im Modell zu testen (analog zu den t-Tests, die bei der OLS-Regression verwendet werden; siehe oben). Ein Test, der die Anpassungsgüte eines Klassifikationsmodells bewertet, ist der "Prozentsatz richtig vorhergesagt".

Probit-Regression

Probit-Modelle bieten eine Alternative zur logistischen Regression zur Modellierung kategorialer abhängiger Variablen.

Multinomiale logistische Regression

Eine Erweiterung des binären Logit-Modells auf Fälle, in denen die abhängige Variable mehr als 2 Kategorien hat, ist das multinomiale Logit-Modell . In solchen Fällen ist es möglicherweise nicht sinnvoll, die Daten in zwei Kategorien zu unterteilen, oder kann zu einem Verlust des Datenreichtums führen. Das multinomiale Logit-Modell ist in diesen Fällen die geeignete Technik, insbesondere wenn die Kategorien der abhängigen Variablen nicht geordnet sind (zum Beispiel Farben wie Rot, Blau, Grün). Einige Autoren haben die multinomiale Regression erweitert, um Merkmalsauswahl-/Wichtigkeitsmethoden wie den zufälligen multinomialen Logit einzuschließen .

Logit versus Probit

Die beiden Regressionen verhalten sich tendenziell ähnlich, außer dass die logistische Verteilung tendenziell etwas flacher ist. Die aus dem Logit- und dem Probit-Modell erhaltenen Koeffizienten liegen normalerweise nahe beieinander. Allerdings ist das Odds Ratio im Logit-Modell einfacher zu interpretieren.

Praktische Gründe für die Wahl des Probit-Modells gegenüber dem Logistikmodell können sein:

  • Es besteht die starke Überzeugung, dass die zugrunde liegende Verteilung normal ist
  • Das tatsächliche Ereignis ist kein binäres Ergebnis ( z. B. Konkursstatus), sondern ein Anteil ( z. B. Anteil der Bevölkerung mit unterschiedlichen Schuldenständen).

Zeitreihenmodelle

Zeitreihenmodelle werden verwendet, um das zukünftige Verhalten von Variablen vorherzusagen oder vorherzusagen. Diese Modelle berücksichtigen die Tatsache, dass Datenpunkte, die im Laufe der Zeit erfasst wurden, eine interne Struktur (wie Autokorrelation, Trend oder saisonale Variation) haben können, die berücksichtigt werden sollte. Infolgedessen können Standardregressionstechniken nicht auf Zeitreihendaten angewendet werden, und es wurde eine Methodik entwickelt, um die Trend-, Saison- und zyklische Komponente der Reihe zu zerlegen.

Zeitreihenmodelle schätzen Differenzengleichungen, die stochastische Komponenten enthalten. Zwei häufig verwendete Formen dieser Modelle sind autoregressive Modelle (AR) und gleitender Durchschnitt (MA) Modelle. Die Box-Jenkins- Methodik kombiniert die AR- und MA-Modelle, um das ARMA- Modell (Autoregressive Moving Average) zu erstellen , das den Eckpfeiler der stationären Zeitreihenanalyse darstellt. ARIMA (Autoregressive Integrated Moving Average Models) hingegen werden verwendet, um instationäre Zeitreihen zu beschreiben.

In den letzten Jahren wurden Zeitreihenmodelle ausgefeilter und versuchen, bedingte Heteroskedastizität zu modellieren. Solche Modelle umfassen das ARCH- Modell ( Autoregressive Conditional Heteroskedasticity ) und das GARCH-Modell (Generalized Autoregressive Conditional Heteroskedasticity), die beide häufig für Finanzzeitreihen verwendet werden.

Überlebens- oder Daueranalyse

Überlebensanalyse ist eine andere Bezeichnung für die Time-to-Event-Analyse. Diese Techniken wurden hauptsächlich in den medizinischen und biologischen Wissenschaften entwickelt, werden aber auch in den Sozialwissenschaften wie den Wirtschaftswissenschaften sowie in den Ingenieurwissenschaften weit verbreitet eingesetzt.

Zensierung und Nicht-Normalität, die für Überlebensdaten charakteristisch sind, führen zu Schwierigkeiten, wenn versucht wird, die Daten mit herkömmlichen statistischen Modellen wie der multiplen linearen Regression zu analysieren . Die Normalverteilung nimmt als symmetrische Verteilung sowohl positive als auch negative Werte an, aber die Dauer kann von Natur aus nicht negativ sein und daher kann beim Umgang mit Dauer-/Überlebensdaten keine Normalität angenommen werden.

Dauermodelle können parametrisch, nichtparametrisch oder semiparametrisch sein. Einige der gebräuchlichsten Modelle sind das proportionale Gefährdungsmodell nach Kaplan-Meier und Cox (nicht parametrisch).

Klassifikations- und Regressionsbäume (CART)

Klassifikations- und Regressionsbäume (CART) sind eine nicht parametrische Entscheidungsbaum-Lerntechnik , die entweder Klassifikations- oder Regressionsbäume erzeugt, je nachdem, ob die abhängige Variable kategorial oder numerisch ist.

Entscheidungsbäume werden durch eine Sammlung von Regeln basierend auf Variablen im Modellierungsdatensatz gebildet:

  • Regeln basierend auf Variablenwerten werden ausgewählt, um die beste Aufteilung zu erhalten, um Beobachtungen basierend auf der abhängigen Variablen zu differenzieren
  • Sobald eine Regel ausgewählt ist und einen Knoten in zwei teilt, wird der gleiche Prozess auf jeden "Kind"-Knoten angewendet (dh es handelt sich um ein rekursives Verfahren).
  • Das Aufteilen stoppt, wenn CART erkennt, dass keine weitere Verstärkung mehr möglich ist oder einige voreingestellte Stoppregeln erfüllt sind. (Alternativ werden die Daten so weit wie möglich aufgeteilt und dann der Baum später beschnitten .)

Jeder Zweig des Baums endet in einem Endknoten. Jede Beobachtung fällt in einen und genau einen Endknoten, und jeder Endknoten ist durch ein Regelwerk eindeutig definiert.

Eine sehr beliebte Methode für Predictive Analytics sind Random Forests .

Multivariate adaptive Regressionssplines

Multivariate adaptive Regressionssplines (MARS) sind eine nicht parametrische Technik, die flexible Modelle erstellt, indem stückweise lineare Regressionen angepasst werden .

Beim multivariaten und adaptiven Regressionsspline-Ansatz wird das Modell absichtlich überangepasst und dann beschnitten, um das optimale Modell zu erhalten. Der Algorithmus ist rechenintensiv, und in der Praxis wird eine Obergrenze für die Anzahl der Basisfunktionen festgelegt.

Techniken des maschinellen Lernens

Maschinelles Lernen umfasst eine Reihe fortschrittlicher statistischer Methoden zur Regression und Klassifizierung und findet Anwendung in einer Vielzahl von Bereichen, darunter medizinische Diagnostik , Erkennung von Kreditkartenbetrug , Gesichts- und Spracherkennung und Analyse des Aktienmarktes .

Werkzeuge

In der Vergangenheit erforderte die Verwendung von Predictive-Analytics-Tools sowie das Verstehen der Ergebnisse, die sie lieferten, fortgeschrittene Fähigkeiten. Moderne Predictive-Analytics-Tools sind jedoch längst nicht mehr auf IT-Spezialisten beschränkt. Da immer mehr Unternehmen Predictive Analytics in Entscheidungsprozesse integrieren und in ihren Betrieb integrieren, verlagern sie den Markt hin zu Geschäftsanwendern als Hauptkonsumenten der Informationen. Geschäftsanwender möchten Tools, die sie selbst verwenden können. Anbieter reagieren darauf, indem sie neue Software entwickeln, die die mathematische Komplexität beseitigt, benutzerfreundliche grafische Oberflächen bietet und/oder Abkürzungen einbaut, die beispielsweise die Art der verfügbaren Daten erkennen und ein geeignetes Vorhersagemodell vorschlagen können. Predictive Analytics-Tools sind inzwischen ausgereift genug, um Datenprobleme angemessen darzustellen und zu analysieren, sodass jeder datenversierte Information Worker sie verwenden kann, um Daten zu analysieren und aussagekräftige, nützliche Ergebnisse zu erhalten. Moderne Tools präsentieren beispielsweise Ergebnisse mit einfachen Diagrammen, Grafiken und Scores, die die Wahrscheinlichkeit möglicher Ergebnisse anzeigen.

Es gibt zahlreiche Tools auf dem Markt, die bei der Durchführung von Predictive Analytics helfen. Diese reichen von solchen, die sehr wenig Benutzererfahrung erfordern, bis hin zu solchen, die für den erfahrenen Praktiker entwickelt wurden. Der Unterschied zwischen diesen Tools liegt oft im Grad der Anpassung und im zulässigen Datenvolumen.

PMML

Die Predictive Model Markup Language (PMML) wurde als Standardsprache zum Ausdrücken von Vorhersagemodellen vorgeschlagen. Eine solche XML-basierte Sprache bietet den verschiedenen Tools die Möglichkeit, Vorhersagemodelle zu definieren und gemeinsam zu nutzen. PMML 4.0 wurde im Juni 2009 veröffentlicht.

Kritik

Es gibt viele Skeptiker, wenn es um die Fähigkeit von Computern und Algorithmen geht, die Zukunft vorherzusagen, darunter Gary King , Professor an der Harvard University und Direktor des Institute for Quantitative Social Science. Menschen werden auf unzählige Arten von ihrer Umwelt beeinflusst. Um perfekt vorherzusagen, was Menschen als nächstes tun werden, müssen alle einflussreichen Variablen bekannt und genau gemessen werden. „Die Umgebung der Menschen ändert sich noch schneller als sie selbst. Alles, vom Wetter bis zur Beziehung zu ihrer Mutter, kann die Art und Weise verändern, wie Menschen denken und handeln. All diese Variablen sind unvorhersehbar. Wie sie sich auf eine Person auswirken werden, ist noch weniger vorhersehbar morgen in genau die gleiche Situation versetzt, können sie eine ganz andere Entscheidung treffen. Das bedeutet, dass eine statistische Vorhersage nur unter sterilen Laborbedingungen gültig ist, was plötzlich nicht mehr so ​​​​nützlich ist, wie es vorher schien."

In einer Studie von 1072 Artikeln, die zwischen 1990 und 2006 in Information Systems Research und MIS Quarterly veröffentlicht wurden, versuchten nur 52 empirische Artikel prädiktive Behauptungen, von denen nur 7 geeignete prädiktive Modellierungen oder Tests durchführten.

Siehe auch

Verweise

Weiterlesen

  • Agresti, Alan (2002). Kategoriale Datenanalyse . Hoboken: John Wiley und Söhne. ISBN 0-471-36093-7.
  • Coggeshall, Stephen, Davies, John, Jones, Roger. und Schutzer, Daniel, "Intelligent Security Systems", in Freedman, Roy S., Flein, Robert A. und Lederman, Jess, Editors (1995). Künstliche Intelligenz auf den Kapitalmärkten . Chicago: Irwin. ISBN 1-55738-811-3.CS1-Wartung: mehrere Namen: Autorenliste ( Link )
  • L. Devroye; L. Györfi; G. Lugosi (1996). Eine probabilistische Theorie der Mustererkennung . New York: Springer-Verlag. ISBN 9781461207115.
  • Enders, Walter (2004). Angewandte Zeitreihenökonometrie . Hoboken: John Wiley und Söhne. ISBN 0-521-83919-X.
  • Greene, William (2012). Ökonometrische Analyse, 7. Aufl . London: Prentice Hall. ISBN 978-0-13-139538-1.
  • Guidère, Mathieu; Howard N, Sh. Argamon (2009). Rich Language Analysis zur Terrorismusbekämpfung . Berlin, London, New York: Springer-Verlag. ISBN 978-3-642-01140-5.
  • Mitchell, Tom (1997). Maschinelles Lernen . New York: McGraw-Hill. ISBN 0-07-042807-7.
  • Siegel, Eric (2016). Predictive Analytics: Die Macht vorherzusagen, wer klicken, kaufen, lügen oder sterben wird . John Wiley. ISBN 978-1119145677.
  • Tukey, John (1977). Explorative Datenanalyse . New York: Addison-Wesley. ISBN 0-201-07616-0.
  • Finlay, Steven (2014). Predictive Analytics, Data Mining und Big Data. Mythen, Missverständnisse und Methoden . Basingstoke: Palgrave Macmillan. ISBN 978-1-137-37927-6.
  • Coker, Frank (2014). Pulse: Die Vitalfunktionen Ihres Unternehmens verstehen . Bellevue, WA: Ambient Light Publishing. ISBN 978-0-9893086-0-1.