Theorie der großen Abweichungen - Large deviations theory

In der Wahrscheinlichkeitstheorie betrifft die Theorie der großen Abweichungen das asymptotische Verhalten von entfernten Enden von Folgen von Wahrscheinlichkeitsverteilungen. Während einige Grundgedanken der Theorie auf Laplace zurückgeführt werden können, begann die Formalisierung mit der Versicherungsmathematik, nämlich der Ruinentheorie mit Cramér und Lundberg . Eine einheitliche Formalisierung der Theorie der großen Abweichung wurde 1966 in einem Artikel von Varadhan entwickelt . Die Theorie der großen Abweichungen formalisiert die heuristischen Ideen der Konzentration von Maßen und verallgemeinert weitgehend den Begriff der Konvergenz von Wahrscheinlichkeitsmaßen .

Grob gesagt befasst sich die Theorie der großen Abweichungen mit dem exponentiellen Rückgang der Wahrscheinlichkeitsmaße bestimmter Arten von Extrem- oder Schwanzereignissen .

Einführende Beispiele

Ein elementares Beispiel

Betrachten Sie eine Folge unabhängiger Würfe einer fairen Münze. Die möglichen Ergebnisse können Kopf oder Zahl sein. Bezeichnen wir das mögliche Ergebnis des i-ten Versuchs mit , wobei wir head als 1 und tail als 0 kodieren. Bezeichnen wir nun den Mittelwert nach den Versuchen, nämlich

.

Dann liegt zwischen 0 und 1. Aus dem Gesetz der großen Zahlen folgt, dass mit wachsendem N die Verteilung von konvergiert gegen (den Erwartungswert eines einzelnen Münzwurfs).

Darüber hinaus folgt aus dem zentralen Grenzwertsatz , dass für große ungefähr normalverteilt ist . Der zentrale Grenzwertsatz kann detailliertere Informationen über das Verhalten liefern als das Gesetz der großen Zahlen. Zum Beispiel können wir ungefähr eine Tail-Wahrscheinlichkeit von , finden , die größer ist als , für einen festen Wert von . Die Näherung durch den zentralen Grenzwertsatz kann jedoch nicht genau sein, wenn sie weit davon entfernt ist, es sei denn, sie ist ausreichend groß. Es liefert auch keine Informationen über die Konvergenz der Tail-Wahrscheinlichkeiten als . Die Theorie der großen Abweichung kann jedoch Antworten auf solche Probleme liefern.

Lassen Sie uns diese Aussage präzisieren. Für einen bestimmten Wert , lassen Sie uns den Schwanz Wahrscheinlichkeit berechnen . Definieren

.

Beachten Sie, dass die Funktion eine konvexe, nichtnegative Funktion ist, die bei Null ist und bei Annäherung an zunimmt . Es ist das Negative der Bernoulli-Entropie mit ; dass es für Münzwürfe geeignet ist, folgt aus der asymptotischen Gleichverteilungseigenschaft, die auf einen Bernoulli-Versuch angewendet wird . Dann kann mit der Chernoff-Ungleichung gezeigt werden, dass . Diese Grenze ist ziemlich scharf in dem Sinne, dass sie nicht durch eine größere Zahl ersetzt werden kann, die eine strikte Ungleichung für alle Positiven ergeben würde . (Die exponentielle Schranke kann jedoch immer noch um einen subexponentiellen Faktor in der Größenordnung von reduziert werden ; dies folgt aus der Stirling-Approximation, die auf den in der Bernoulli-Verteilung auftretenden Binomialkoeffizienten angewendet wird .) Damit erhalten wir folgendes Ergebnis:

.

Die Wahrscheinlichkeit fällt exponentiell mit einer von x abhängigen Geschwindigkeit ab . Diese Formel approximiert jede Tail-Wahrscheinlichkeit des Stichprobenmittelwerts von iid-Variablen und gibt seine Konvergenz an, wenn die Anzahl der Stichproben zunimmt.

Große Abweichungen für Summen unabhängiger Zufallsvariablen

Im obigen Beispiel des Münzwurfs haben wir explizit angenommen, dass jeder Wurf ein unabhängiger Versuch ist und die Wahrscheinlichkeit, Kopf oder Zahl zu treffen, immer gleich ist.

Lassen Sie werden unabhängig und identisch verteilt (iid) Zufallsvariablen , deren gemeinsame Verteilung erfüllt eine bestimmte Wachstumsbedingungen. Dann gilt folgende Grenze:

.

Hier

,

wie vorher.

Die Funktion wird als „ Ratenfunktion “ oder „Cramér-Funktion“ oder manchmal als „Entropiefunktion“ bezeichnet.

Die oben genannte Grenze bedeutet, dass für große ,

,

Dies ist das grundlegende Ergebnis der Theorie der großen Abweichungen.

Wenn wir die Wahrscheinlichkeitsverteilung von kennen , kann ein expliziter Ausdruck für die Ratenfunktion erhalten werden. Dies ist durch eine Legendre-Fenchel-Transformation gegeben .

,

wo

wird als kumulierte Erzeugungsfunktion (CGF) bezeichnet und bezeichnet den mathematischen Erwartungswert .

Folgt einer Normalverteilung , wird die Geschwindigkeitsfunktion zu einer Parabel, deren Spitze im Mittel der Normalverteilung liegt.

Wenn es sich um eine Markov-Kette handelt , kann die oben angegebene Variante des Ergebnisses der grundlegenden großen Abweichungen gelten.

Formale Definition

Bei einem polnischer Raum läßt Sie eine Folge von seinem Borel Wahrscheinlichkeitsmaß auf , läßt eine Folge von positiven reellen Zahlen sein , so dass , und schließlich läßt sein , nach unten halb auf Funktions Die Sequenz wird gesagt , ein zufrieden zu stellen große Abweichung Prinzip mit Geschwindigkeit und Rate , wenn, und nur dann , wenn für jede Borel meßbare Menge ,

,

wobei und jeweils den Abschluss und das Innere von bezeichnen .

Kurze Geschichte

Die ersten rigorosen Ergebnisse zu großen Abweichungen sind dem schwedischen Mathematiker Harald Cramér zu verdanken , der sie zur Modellierung des Versicherungsgeschäfts verwendet hat. Aus Sicht einer Versicherungsgesellschaft ist der Verdienst konstant pro Monat (die monatliche Prämie), aber die Schadenfälle kommen zufällig. Damit das Unternehmen über einen bestimmten Zeitraum (am besten viele Monate) erfolgreich ist, sollte der Gesamtverdienst den Gesamtanspruch übersteigen. Um die Prämie zu schätzen, muss man sich also folgende Frage stellen: "Welche Prämie sollen wir so wählen, dass über Monate hinweg der Gesamtschaden kleiner als ?" Dies ist eindeutig dieselbe Frage, die von der Theorie der großen Abweichungen gestellt wird. Cramér hat diese Frage für iid - Zufallsvariablen gelöst , wobei die Geschwindigkeitsfunktion als Potenzreihe ausgedrückt wird .

Eine sehr unvollständige Liste von Mathematikern, die wichtige Fortschritte gemacht haben, würde Petrov , Sanov , SRS Varadhan (der den Abel-Preis für seinen Beitrag zur Theorie gewonnen hat), D. Ruelle , OE Lanford , Amir Dembo und Ofer Zeitouni umfassen .

Anwendungen

Prinzipien großer Abweichungen können effektiv angewendet werden, um Informationen aus einem probabilistischen Modell zu sammeln. So findet die Theorie der großen Abweichungen ihre Anwendung in der Informationstheorie und im Risikomanagement . In der Physik findet man die bekannteste Anwendung der Theorie großer Abweichungen in der Thermodynamik und der statistischen Mechanik (in Verbindung mit der Beziehung der Entropie mit der Geschwindigkeitsfunktion).

Große Abweichungen und Entropie

Die Geschwindigkeitsfunktion hängt mit der Entropie in der statistischen Mechanik zusammen. Dies kann heuristisch wie folgt gesehen werden. In der statistischen Mechanik hängt die Entropie eines bestimmten Makrozustands mit der Anzahl der Mikrozustände zusammen, die diesem Makrozustand entsprechen. In unserem Münzwurf-Beispiel könnte der Mittelwert einen bestimmten Makrozustand bezeichnen. Und die besondere Abfolge von Kopf und Zahl, die zu einem besonderen Wert von führt, bildet einen besonderen Mikrozustand. Grob gesagt hat ein Makrozustand mit einer höheren Anzahl von Mikrozuständen, die ihn hervorbringen, eine höhere Entropie. Und ein Zustand mit höherer Entropie hat eine höhere Chance, in tatsächlichen Experimenten realisiert zu werden. Der Makrozustand mit einem Mittelwert von 1/2 (so viele Köpfe wie Zahlen) hat die höchste Anzahl von Mikrozuständen, die ihn entstehen lassen, und er ist tatsächlich der Zustand mit der höchsten Entropie. Und in den meisten praktischen Situationen werden wir diesen Makrozustand tatsächlich für eine große Anzahl von Versuchen erhalten. Die "Ratenfunktion" misst dagegen die Wahrscheinlichkeit des Auftretens eines bestimmten Makrozustands. Je kleiner die Ratenfunktion, desto höher ist die Wahrscheinlichkeit, dass ein Makrozustand auftritt. Bei unserem Münzwurf ist der Wert der "Kursfunktion" für einen Mittelwert gleich 1/2 Null. Auf diese Weise kann man die "Ratenfunktion" als das Negative der "Entropie" sehen.

Es gibt einen Zusammenhang zwischen der "Ratenfunktion" in der Theorie der großen Abweichungen und der Kullback-Leibler-Divergenz , der Zusammenhang wird durch den Satz von Sanov hergestellt (siehe Sanov und Novak, Kap. 14.5).

Im Sonderfall hängen große Abweichungen eng mit dem Konzept der Gromov-Hausdorff-Grenzen zusammen .

Siehe auch

Verweise

Literaturverzeichnis