Additives Glätten - Additive smoothing

In der Statistik ist die additive Glättung , auch Laplace - Glättung genannt ( nicht zu verwechseln mit der Laplace - Glättung , wie sie in der Bildverarbeitung verwendet wird ) oder Lidstone - Glättung , eine Technik zum Glätten kategorialer Daten . Bei einer Reihe von Beobachtungszahlen aus einer -dimensionalen Multinomialverteilung mit Versuchen ergibt eine "geglättete" Version der Zählungen den Schätzer :

wobei der geglättete Zählwert und der "Pseudozählwert" α  > 0 ein Glättungsparameter ist . α  = 0 entspricht keiner Glättung. (Dieser Parameter wird weiter unten in § Pseudocount erklärt .) Die additive Glättung ist eine Art Schrumpfungsschätzer , da die resultierende Schätzung zwischen der empirischen Wahrscheinlichkeit ( relative Häufigkeit ) und der einheitlichen Wahrscheinlichkeit liegt . Unter Berufung auf die Nachfolgeregel von Laplace haben einige Autoren argumentiert, dass α 1 sein sollte (in diesem Fall wird auch der Begriff Add-One-Glättung verwendet), obwohl in der Praxis typischerweise ein kleinerer Wert gewählt wird.

Aus Bayesianischer Sicht entspricht dies dem Erwartungswert der Posterior-Verteilung unter Verwendung einer symmetrischen Dirichlet-Verteilung mit dem Parameter α als Prior-Verteilung . In dem speziellen Fall, in dem die Anzahl der Kategorien 2 beträgt, entspricht dies der Verwendung einer Beta-Verteilung als Konjugat-Vorrang für die Parameter der Binomialverteilung .

Geschichte

Laplace kam auf diese Glättungstechnik, als er versuchte, die Wahrscheinlichkeit abzuschätzen, dass die Sonne morgen aufgehen wird. Seine Begründung war, dass wir selbst bei einer großen Anzahl von Tagen mit aufgehender Sonne immer noch nicht ganz sicher sein können, ob die Sonne morgen noch aufgehen wird (bekannt als Sonnenaufgangsproblem ).

Pseudoanzahl

Ein Pseudocount ist ein Betrag (im Allgemeinen keine ganze Zahl, trotz seines Namens), der zur Anzahl der beobachteten Fälle addiert wird, um die erwartete Wahrscheinlichkeit in einem Modell dieser Daten zu ändern , wenn nicht bekannt ist, dass er null ist . Es wird so genannt, weil, grob gesagt, eine Pseudozahl von Werten in die Posterior-Verteilung eingeht, ähnlich wie jede Kategorie mit einer zusätzlichen Zählung von . Wenn die Frequenz der einzelnen Elemente ist aus Proben, die empirische Wahrscheinlichkeit des Ereignisses ist

aber die Posterior-Wahrscheinlichkeit bei additiver Glättung ist

als ob jede Zahl zu erhöhen durch a priori.

Abhängig vom Vorwissen, das manchmal ein subjektiver Wert ist, kann ein Pseudocount jeden nicht-negativen endlichen Wert haben. Es darf nur Null (oder die Möglichkeit ignoriert) sein, wenn dies per Definition unmöglich ist, z wenn ein gültiges Programm für pi ausgeführt wird oder ausgeschlossen und nicht gezählt wird, weil es kein Interesse hat, beispielsweise wenn nur die Nullen und Einsen interessiert sind. Im Allgemeinen besteht auch die Möglichkeit, dass in einer endlichen Zeit kein Wert berechenbar oder beobachtbar ist (siehe das Halteproblem ). Aber mindestens eine Möglichkeit muss einen Pseudocount ungleich Null haben, sonst könnte vor der ersten Beobachtung keine Vorhersage berechnet werden. Die relativen Werte von Pseudozählungen repräsentieren die relativen vorher erwarteten Wahrscheinlichkeiten ihrer Möglichkeiten. Die Summe der Pseudocounts, die sehr groß sein kann, repräsentiert das geschätzte Gewicht des Vorwissens im Vergleich zu allen tatsächlichen Beobachtungen (jeweils eine) bei der Bestimmung der erwarteten Wahrscheinlichkeit.

Bei jedem beobachteten Datensatz oder jeder Stichprobe besteht die Möglichkeit, insbesondere bei Ereignissen mit geringer Wahrscheinlichkeit und bei kleinen Datensätzen, dass ein mögliches Ereignis nicht eintritt. Seine beobachtete Häufigkeit ist daher null, was anscheinend eine Wahrscheinlichkeit von null impliziert. Diese Vereinfachung ist ungenau und oft nicht hilfreich, insbesondere bei wahrscheinlichkeitsbasierten maschinellen Lerntechniken wie künstlichen neuronalen Netzen und Hidden-Markov-Modellen . Durch künstliches Anpassen der Wahrscheinlichkeit seltener (aber nicht unmöglicher) Ereignisse, sodass diese Wahrscheinlichkeiten nicht genau Null sind, werden Nullfrequenzprobleme vermieden. Siehe auch Cromwells Regel .

Der einfachste Ansatz besteht darin, zu jeder beobachteten Anzahl von Ereignissen eins hinzuzufügen , einschließlich der Nullzählmöglichkeiten. Dies wird manchmal als Laplacesche Erbfolgeregel bezeichnet . Dieser Ansatz ist äquivalent zur Annahme einer gleichmäßigen Prior-Verteilung über die Wahrscheinlichkeiten für jedes mögliche Ereignis (das den Simplex überspannt, wobei jede Wahrscheinlichkeit zwischen 0 und 1 liegt und alle Summen 1 ergeben).

Unter Verwendung des früheren Ansatzes von Jeffreys sollte zu jedem möglichen Ergebnis eine Pseudozählung von einer Hälfte hinzugefügt werden.

Pseudocounts sollten nur dann auf eins gesetzt werden, wenn überhaupt kein Vorwissen vorliegt – siehe das Prinzip der Indifferenz . Bei entsprechenden Vorkenntnissen sollte die Summe jedoch proportional zur Erwartung angepasst werden, dass die A-Wahrscheinlichkeiten trotz gegenteiliger Beweise als richtig angesehen werden – siehe weitere Analyse . Höhere Werte sind insofern angemessen, als die wahren Werte vorher bekannt sind (z. B. für eine neuwertige Münze); niedrigere Werte, da im Vorhinein bekannt ist, dass ein wahrscheinlicher Bias vorliegt, jedoch von unbekanntem Ausmaß (z. B. für eine verbogene Münze).

Ein komplexerer Ansatz besteht darin , die Wahrscheinlichkeit der Ereignisse anhand anderer Faktoren abzuschätzen und entsprechend anzupassen.

Beispiele

Eine Möglichkeit, Pseudozählungen zu motivieren, insbesondere für Binomialdaten, besteht in der Verwendung einer Formel für den Mittelpunkt einer Intervallschätzung , insbesondere eines Konfidenzintervalls für Binomialanteile . Das bekannteste stammt von Edwin Bidwell Wilson in Wilson (1927) : Der Mittelpunkt des Wilson-Score-Intervalls , das den Standardabweichungen auf beiden Seiten entspricht, ist:

Wenn man die Standardabweichungen auf ein 95%-Konfidenzintervall ( ) annähert, ergibt sich für jedes Ergebnis eine Pseudoanzahl von 2, also insgesamt 4, umgangssprachlich als "Plus-Vier-Regel" bekannt:

Dies ist auch der Mittelpunkt des Agresti-Coull-Intervalls ( Agresti & Coull 1998 ).

Verallgemeinert auf den Fall bekannter Inzidenzraten

Häufig testen Sie den Bias einer unbekannten Studienpopulation gegenüber einer Kontrollpopulation mit bekannten Parametern (Inzidenzraten) . In diesem Fall sollte die einheitliche Wahrscheinlichkeit durch die bekannte Inzidenzrate der Kontrollpopulation ersetzt werden , um den geglätteten Schätzer zu berechnen:

Als Konsistenzprüfung, wenn der empirische Schätzer zufällig gleich der Inzidenzrate ist, dh der geglättete Schätzer ist unabhängig von der Inzidenzrate und ist auch gleich der Inzidenzrate.

Anwendungen

Einstufung

Die additive Glättung ist häufig Bestandteil naiver Bayes-Klassifikatoren .

Statistische Sprachmodellierung

In einem Bag-of-Words-Modell der Verarbeitung natürlicher Sprache und des Informationsabrufs bestehen die Daten aus der Anzahl der Vorkommen jedes Wortes in einem Dokument. Die additive Glättung ermöglicht die Zuweisung von Wahrscheinlichkeiten ungleich Null an Wörter, die in der Stichprobe nicht vorkommen. Jüngste Studien haben gezeigt , dass additive Glättungs wirksamer als andere Wahrscheinlichkeitsglättungsverfahren in mehreren Retrieval Aufgaben sind wie sprachmodellbasierte pseudo-Relevanz - Feedback und Empfehlungssysteme .

Siehe auch

Verweise

Quellen

Externe Links