Modellauswahl - Model selection

Die Modellauswahl ist die Aufgabe, ein statistisches Modell aus einem Satz von Kandidatenmodellen bei gegebenen Daten auszuwählen . Im einfachsten Fall wird ein bereits vorhandener Datensatz berücksichtigt. Die Aufgabe kann aber auch darin bestehen, Experimente so zu gestalten, dass die erhobenen Daten für das Problem der Modellauswahl gut geeignet sind. Bei Kandidatenmodellen mit ähnlicher Vorhersage- oder Erklärungskraft ist das einfachste Modell höchstwahrscheinlich die beste Wahl ( Occams Rasiermesser ).

Konishi & Kitagawa (2008 , S. 75) stellen fest: „Die meisten Probleme bei der statistischen Inferenz können als Probleme im Zusammenhang mit der statistischen Modellierung angesehen werden“. In ähnlicher Weise hat Cox (2006 , S. 197) gesagt: "Wie [die] Übersetzung von einem fachlichen Problem in ein statistisches Modell erfolgt, ist oft der kritischste Teil einer Analyse".

Die Modellauswahl kann sich auch auf das Problem der Auswahl einiger weniger repräsentativer Modelle aus einer großen Menge von Rechenmodellen zum Zweck der Entscheidungsfindung oder Optimierung unter Unsicherheit beziehen .

Einführung

Der wissenschaftliche Beobachtungszyklus.

In ihren grundlegendsten Formen ist die Modellauswahl eine der grundlegenden Aufgaben der wissenschaftlichen Forschung . Die Bestimmung des Prinzips, das eine Reihe von Beobachtungen erklärt, ist oft direkt mit einem mathematischen Modell verbunden, das diese Beobachtungen vorhersagt. Als Galileo beispielsweise seine Experimente mit geneigter Ebene durchführte, zeigte er, dass die Bewegung der Kugeln zu der von seinem Modell vorhergesagten Parabel passte.

Wie kann man aus den unzähligen möglichen Mechanismen und Prozessen, die die Daten hätten produzieren können, überhaupt das beste Modell auswählen? Der üblicherweise gewählte mathematische Ansatz entscheidet zwischen einer Reihe von Kandidatenmodellen; dieser Satz muss vom Forscher ausgewählt werden. Oft werden, zumindest anfangs, einfache Modelle wie Polynome verwendet. Burnham & Anderson (2002) betonen in ihrem gesamten Buch, wie wichtig es ist, Modelle zu wählen, die auf soliden wissenschaftlichen Prinzipien basieren, wie zum Beispiel dem Verständnis der phänomenologischen Prozesse oder Mechanismen (zB chemische Reaktionen), die den Daten zugrunde liegen.

Nachdem der Satz von Kandidatenmodellen ausgewählt wurde, ermöglicht uns die statistische Analyse, das beste dieser Modelle auszuwählen. Was mit am besten gemeint ist, ist umstritten. Eine gute Modellauswahltechnik wird die Anpassungsgüte mit der Einfachheit in Einklang bringen. Komplexere Modelle können ihre Form besser an die Daten anpassen (beispielsweise kann ein Polynom fünfter Ordnung genau sechs Punkte passen), aber die zusätzlichen Parameter stellen möglicherweise nichts Nützliches dar. (Vielleicht sind diese sechs Punkte wirklich nur zufällig um eine gerade Linie verteilt.) Die Anpassungsgüte wird im Allgemeinen unter Verwendung eines Likelihood-Ratio- Ansatzes oder einer Annäherung daran bestimmt, was zu einem Chi-Quadrat-Test führt . Die Komplexität wird im Allgemeinen gemessen, indem die Anzahl der Parameter im Modell gezählt wird.

Modellauswahltechniken können als Schätzer einer physikalischen Größe betrachtet werden, wie etwa der Wahrscheinlichkeit, dass das Modell die gegebenen Daten erzeugt. Die Bias und Varianz sind wichtige Maßnahmen für die Qualität dieser Schätzer; Auch die Effizienz wird häufig berücksichtigt.

Ein Standardbeispiel für die Modellauswahl ist die Kurvenanpassung , bei der wir bei einer gegebenen Menge von Punkten und anderem Hintergrundwissen (z. B. Punkte sind das Ergebnis von iid- Samples) eine Kurve auswählen müssen, die die Funktion beschreibt, die die Punkte erzeugt hat.

Zwei Richtungen der Modellauswahl

Es gibt zwei Hauptziele bei der Inferenz und dem Lernen aus Daten. Einer dient der wissenschaftlichen Entdeckung, dem Verständnis des zugrunde liegenden Datengenerierungsmechanismus und der Interpretation der Natur der Daten. Ein weiteres Ziel des Lernens aus Daten ist die Vorhersage zukünftiger oder unsichtbarer Beobachtungen. Beim zweiten Ziel geht es dem Data Scientist nicht unbedingt um eine genaue probabilistische Beschreibung der Daten. Natürlich kann man sich auch für beide Richtungen interessieren.

Entsprechend den beiden unterschiedlichen Zielsetzungen kann die Modellauswahl auch zwei Richtungen haben: Modellauswahl für Inferenz und Modellauswahl für Vorhersage. Die erste Richtung besteht darin, das beste Modell für die Daten zu identifizieren, das vorzugsweise eine zuverlässige Charakterisierung der Unsicherheitsquellen für die wissenschaftliche Interpretation liefert. Für dieses Ziel ist es von wesentlicher Bedeutung, dass das ausgewählte Modell nicht zu empfindlich auf die Stichprobengröße reagiert. Dementsprechend ist ein geeigneter Begriff zum Bewerten der Modellauswahl die Auswahlkonsistenz, was bedeutet, dass der robusteste Kandidat bei ausreichend vielen Datenproben konsistent ausgewählt wird.

Die zweite Richtung besteht darin, ein Modell als Maschine zu wählen, das eine hervorragende Vorhersageleistung bietet. Bei letzterem kann das gewählte Modell jedoch nur der glückliche Gewinner unter wenigen engen Konkurrenten sein, die Vorhersageleistung kann jedoch immer noch die bestmögliche sein. Wenn dies der Fall ist, ist die Modellauswahl für das zweite Ziel (Vorhersage) in Ordnung, aber die Verwendung des ausgewählten Modells zur Einsicht und Interpretation kann sehr unzuverlässig und irreführend sein. Darüber hinaus können bei auf diese Weise ausgewählten sehr komplexen Modellen sogar Vorhersagen für Daten, die sich nur geringfügig von denen unterscheiden, auf denen die Auswahl getroffen wurde, unzumutbar sein.

Methoden zur Unterstützung bei der Auswahl des Satzes von Kandidatenmodellen

Kriterien

Nachfolgend finden Sie eine Liste von Kriterien für die Modellauswahl. Die am häufigsten verwendeten Kriterien sind (i) das Akaike-Informationskriterium und (ii) der Bayes-Faktor und/oder das Bayessche Informationskriterium (das dem Bayes-Faktor in gewissem Maße nahe kommt), siehe Stoica & Selen (2004) für eine Übersicht.

Unter diesen Kriterien ist die Kreuzvalidierung typischerweise das genaueste und rechnerisch am teuersten für überwachte Lernprobleme.

Burnham & Anderson (2002 , §6.3) sagen folgendes:

Es gibt verschiedene Methoden zur Modellauswahl. Im Hinblick auf die statistische Leistung einer Methode und den beabsichtigten Kontext ihrer Verwendung gibt es jedoch nur zwei verschiedene Klassen von Methoden: Diese wurden als effizient und konsistent bezeichnet . (...) Unter dem frequentistischen Paradigma zur Modellauswahl hat man im Allgemeinen drei Hauptansätze: (I) Optimierung einiger Auswahlkriterien, (II) Hypothesentests und (III) Ad-hoc-Methoden.

Siehe auch

Anmerkungen

Verweise