Statistische Lerntheorie - Statistical learning theory

Die statistische Lerntheorie ist ein Rahmenwerk für maschinelles Lernen , das aus den Bereichen Statistik und Funktionsanalyse schöpft . Die statistische Lerntheorie beschäftigt sich mit dem Problem, anhand von Daten eine Vorhersagefunktion zu finden. Die statistische Lerntheorie hat zu erfolgreichen Anwendungen in Bereichen wie Computer Vision , Spracherkennung und Bioinformatik geführt .

Einführung

Die Ziele des Lernens sind Verstehen und Vorhersagen. Lernen lässt sich in viele Kategorien einteilen, darunter überwachtes Lernen , unüberwachtes Lernen , Online-Lernen und verstärkendes Lernen . Aus der Perspektive der statistischen Lerntheorie wird überwachtes Lernen am besten verstanden. Überwachtes Lernen beinhaltet das Lernen aus einem Trainingsdatensatz . Jeder Punkt im Training ist ein Eingabe-Ausgabe-Paar, bei dem die Eingabe einer Ausgabe zugeordnet wird. Das Lernproblem besteht darin, die Funktion abzuleiten, die zwischen der Eingabe und der Ausgabe abbildet, so dass die gelernte Funktion verwendet werden kann, um die Ausgabe von zukünftigen Eingaben vorherzusagen.

Abhängig von der Art des Outputs sind überwachte Lernprobleme entweder Regressions- oder Klassifikationsprobleme . Wenn die Ausgabe einen kontinuierlichen Wertebereich annimmt, handelt es sich um ein Regressionsproblem. Am Beispiel des Ohmschen Gesetzes könnte eine Regression mit Spannung als Eingang und Strom als Ausgang durchgeführt werden. Die Regression würde die funktionale Beziehung zwischen Spannung und Strom zu finden , so dass

Klassifikationsprobleme sind solche, bei denen die Ausgabe ein Element aus einem diskreten Satz von Labels ist. Die Klassifizierung ist für Anwendungen des maschinellen Lernens sehr verbreitet. Bei der Gesichtserkennung wäre beispielsweise ein Bild des Gesichts einer Person die Eingabe und die Ausgabebezeichnung wäre der Name dieser Person. Die Eingabe würde durch einen großen mehrdimensionalen Vektor dargestellt, dessen Elemente Pixel im Bild darstellen.

Nach dem Lernen einer Funktion basierend auf den Trainingssatzdaten wird diese Funktion an einem Testdatensatz validiert, Daten, die nicht im Trainingssatz erschienen sind.

Formale Beschreibung

Nehmen wir den Vektorraum aller möglichen Eingaben und den Vektorraum aller möglichen Ausgaben. Die statistische Lerntheorie geht davon aus, dass es eine unbekannte Wahrscheinlichkeitsverteilung über den Produktraum gibt , dh es existiert eine unbekannte . Der Trainingssatz besteht aus Stichproben dieser Wahrscheinlichkeitsverteilung und wird notiert

Jeder ist ein Eingabevektor aus den Trainingsdaten und ist die Ausgabe, die ihm entspricht.

In diesem Formalismus besteht das Inferenzproblem darin, eine Funktion zu finden, so dass . Sei ein Raum von Funktionen , der Hypothesenraum genannt wird. Der Hypothesenraum ist der Funktionsraum, den der Algorithmus durchsucht. Sei die Verlustfunktion , eine Metrik für die Differenz zwischen dem vorhergesagten Wert und dem tatsächlichen Wert . Das erwartete Risiko ist definiert als

Die Zielfunktion, die bestmögliche Funktion , die gewählt werden kann, ist gegeben durch die , die erfüllt

Da die Wahrscheinlichkeitsverteilung unbekannt ist, muss ein Proxy-Maß für das erwartete Risiko verwendet werden. Dieses Maß basiert auf dem Trainingssatz, einer Stichprobe aus dieser unbekannten Wahrscheinlichkeitsverteilung. Es heißt das empirische Risiko

Ein lernender Algorithmus, der die Funktion wählt , die das empirische Risiko minimiert, wird als empirische Risikominimierung bezeichnet .

Verlustfunktionen

Die Wahl der Verlustfunktion ist ein bestimmender Faktor für die Funktion , die vom Lernalgorithmus gewählt wird. Die Verlustfunktion beeinflusst auch die Konvergenzrate für einen Algorithmus. Wichtig ist, dass die Verlustfunktion konvex ist.

Je nachdem, ob es sich um ein Regressions- oder ein Klassifikationsproblem handelt, werden unterschiedliche Verlustfunktionen verwendet.

Rückschritt

Die gebräuchlichste Verlustfunktion für die Regression ist die quadratische Verlustfunktion (auch bekannt als L2-Norm ). Diese bekannte Verlustfunktion wird in der Ordinary Least Squares Regression verwendet . Das Formular ist:

Manchmal wird auch der Absolutwertverlust (auch L1-Norm genannt ) verwendet:

Einstufung

In gewisser Weise ist die 0-1- Indikatorfunktion die natürlichste Verlustfunktion für die Klassifizierung. Es nimmt den Wert 0 an, wenn die vorhergesagte Ausgabe gleich der tatsächlichen Ausgabe ist, und nimmt den Wert 1 an, wenn die vorhergesagte Ausgabe sich von der tatsächlichen Ausgabe unterscheidet. Für die binäre Klassifizierung mit ist dies:

wo ist die Heaviside-Stufenfunktion .

Regulierung

Dieses Bild stellt ein Beispiel für Overfitting beim maschinellen Lernen dar. Die roten Punkte repräsentieren Trainingssatzdaten. Die grüne Linie stellt die wahre funktionale Beziehung dar, während die blaue Linie die erlernte Funktion zeigt, die an die Trainingssatzdaten überangepasst wurde.

Bei Problemen des maschinellen Lernens ist ein Hauptproblem das der Überanpassung . Da Lernen ein Vorhersageproblem ist, besteht das Ziel nicht darin, eine Funktion zu finden, die am besten zu den (zuvor beobachteten) Daten passt, sondern eine zu finden, die die Ausgabe von zukünftigen Eingaben am genauesten vorhersagt. Die empirische Risikominimierung birgt dieses Risiko der Überanpassung: das Finden einer Funktion, die genau mit den Daten übereinstimmt, aber die zukünftige Ausgabe nicht gut vorhersagt.

Überanpassung ist symptomatisch für instabile Lösungen; eine kleine Störung in den Trainingssatzdaten würde eine große Variation in der gelernten Funktion verursachen. Es kann gezeigt werden, dass, wenn die Stabilität der Lösung garantiert werden kann, auch Generalisierung und Konsistenz gewährleistet sind. Regularisierung kann das Überanpassungsproblem lösen und dem Problem Stabilität verleihen.

Eine Regularisierung kann durch Einschränken des Hypothesenraums erreicht werden . Ein gängiges Beispiel wäre die Beschränkung auf lineare Funktionen: Dies kann als Reduktion auf das Standardproblem der linearen Regression angesehen werden . könnte auch auf Polynome des Grades , Exponentialfunktionen oder beschränkte Funktionen auf L1 beschränkt werden . Die Beschränkung des Hypothesenraums vermeidet eine Überanpassung, da die Form der Potentialfunktionen begrenzt ist und somit die Wahl einer Funktion nicht möglich ist, die das empirische Risiko willkürlich nahe Null liefert.

Ein Beispiel für Regularisierung ist die Tikhonov-Regularisierung . Dies besteht in der Minimierung

wobei ein fester und positiver Parameter, der Regularisierungsparameter, ist. Die Tikhonov-Regularisierung stellt die Existenz, Eindeutigkeit und Stabilität der Lösung sicher.

Siehe auch

Verweise