Prinzip der maximalen Entropie - Principle of maximum entropy

Das Prinzip der maximalen Entropie besagt, dass die Wahrscheinlichkeitsverteilung, die den aktuellen Wissensstand über ein System am besten darstellt, diejenige mit der größten Entropie im Kontext genau angegebener vorheriger Daten ist (z. B. ein Satz , der überprüfbare Informationen ausdrückt ).

Eine andere Möglichkeit, dies auszudrücken: Nehmen Sie genau angegebene vorherige Daten oder überprüfbare Informationen über eine Wahrscheinlichkeitsverteilungsfunktion. Betrachten Sie die Menge aller Versuchswahrscheinlichkeitsverteilungen, die die vorherigen Daten codieren würden. Nach diesem Prinzip ist die Verteilung mit maximaler Informationsentropie die beste Wahl.

Da die Verteilung mit der maximalen Entropie die geringsten Annahmen über die tatsächliche Verteilung von Daten macht, kann das Prinzip der maximalen Entropie als Anwendung von Occams Rasiermesser angesehen werden .

Geschichte

Das Prinzip wurde erstmals 1957 von ET Jaynes in zwei Arbeiten dargelegt, in denen er eine natürliche Entsprechung zwischen statistischer Mechanik und Informationstheorie hervorhob . Insbesondere bot Jaynes eine neue und sehr allgemeine Begründung, warum die Gibbs'sche Methode der statistischen Mechanik funktioniert. Er argumentierte, dass die Entropie der statistischen Mechanik und die Informationsentropie der Informationstheorie im Grunde dasselbe sind. Folglich sollte die statistische Mechanik nur als eine besondere Anwendung eines allgemeinen Werkzeugs der logischen Inferenz und der Informationstheorie angesehen werden.

Überblick

In den meisten praktischen Fällen werden die angegebenen vorherigen Daten oder überprüfbaren Informationen durch einen Satz konservierter Größen (Durchschnittswerte einiger Momentfunktionen) angegeben, die mit der fraglichen Wahrscheinlichkeitsverteilung verbunden sind . Auf diese Weise wird das Maximum-Entropie-Prinzip in der statistischen Thermodynamik am häufigsten verwendet . Eine andere Möglichkeit besteht darin, einige Symmetrien der Wahrscheinlichkeitsverteilung vorzuschreiben. Die Äquivalenz zwischen konservierten Größen und entsprechenden Symmetriegruppen impliziert eine ähnliche Äquivalenz für diese beiden Arten der Spezifizierung der testbaren Informationen in der Maximum-Entropie-Methode.

Das Maximum-Entropie-Prinzip wird auch benötigt, um die Eindeutigkeit und Konsistenz von Wahrscheinlichkeitszuweisungen zu gewährleisten, die insbesondere mit verschiedenen Methoden, statistischen Mechanismen und logischen Schlussfolgerungen erhalten werden .

Das Maximum-Entropie-Prinzip macht unsere Freiheit bei der Verwendung verschiedener Formen früherer Daten deutlich . Als Sonderfall kann eine einheitliche vorherige Wahrscheinlichkeitsdichte (Laplace- Prinzip der Gleichgültigkeit , manchmal auch als Prinzip der unzureichenden Vernunft bezeichnet) angewendet werden. Das Maximum-Entropie-Prinzip ist also nicht nur eine alternative Möglichkeit, die üblichen Inferenzmethoden der klassischen Statistik zu betrachten, sondern stellt eine signifikante konzeptionelle Verallgemeinerung dieser Methoden dar.

Diese Aussagen implizieren jedoch nicht, dass thermodynamische Systeme nicht als ergodisch erwiesen werden müssen , um die Behandlung als statistisches Ensemble zu rechtfertigen .

In der gewöhnlichen Sprache kann das Prinzip der maximalen Entropie als Ausdruck epistemischer Bescheidenheit oder maximaler Unwissenheit bezeichnet werden. Die ausgewählte Verteilung ist diejenige, die den geringsten Anspruch erhebt, über die angegebenen vorherigen Daten hinaus informiert zu werden, dh diejenige, die die größte Unwissenheit über die angegebenen vorherigen Daten hinaus zulässt.

Testbare Informationen

Das Prinzip der maximalen Entropie ist explizit nur dann nützlich, wenn es auf überprüfbare Informationen angewendet wird . Testbare Informationen sind Aussagen über eine Wahrscheinlichkeitsverteilung, deren Wahrheit oder Falschheit genau definiert ist. Zum Beispiel die Aussagen

Die Erwartung der Variablen beträgt 2,87

und

(wo und sind Wahrscheinlichkeiten von Ereignissen) sind Aussagen testbarer Informationen.

Bei testbaren Informationen besteht das Maximum-Entropie-Verfahren darin, die Wahrscheinlichkeitsverteilung zu suchen , die die Informationsentropie maximiert , vorbehaltlich der Einschränkungen der Informationen. Dieses eingeschränkte Optimierungsproblem wird typischerweise unter Verwendung der Methode der Lagrange-Multiplikatoren gelöst .

Die Entropiemaximierung ohne überprüfbare Informationen berücksichtigt die universelle "Einschränkung", dass die Summe der Wahrscheinlichkeiten eins ist. Unter dieser Bedingung ist die diskrete Wahrscheinlichkeitsverteilung mit maximaler Entropie die gleichmäßige Verteilung .

Anwendungen

Das Prinzip der maximalen Entropie wird üblicherweise auf zwei Arten auf Inferenzprobleme angewendet:

Vorherige Wahrscheinlichkeiten

Das Prinzip der maximalen Entropie wird häufig verwendet, um vorherige Wahrscheinlichkeitsverteilungen für die Bayes'sche Inferenz zu erhalten . Jaynes war ein starker Befürworter dieses Ansatzes und behauptete, die maximale Entropieverteilung sei die am wenigsten informative Verteilung. Eine große Menge an Literatur widmet sich nun der Ermittlung maximaler Entropieprioren und Verknüpfungen mit der Kanalcodierung .

Posteriore Wahrscheinlichkeiten

Maximale Entropie ist eine ausreichende Aktualisierungsregel für radikalen Probabilismus . Die Wahrscheinlichkeitskinematik von Richard Jeffrey ist ein Sonderfall maximaler Entropie-Inferenz. Die maximale Entropie ist jedoch keine Verallgemeinerung all dieser ausreichenden Aktualisierungsregeln.

Modelle mit maximaler Entropie

Alternativ wird das Prinzip häufig für die Modellspezifikation herangezogen: In diesem Fall wird angenommen, dass die beobachteten Daten selbst die überprüfbare Information sind. Solche Modelle sind in der Verarbeitung natürlicher Sprache weit verbreitet . Ein Beispiel für ein solches Modell ist die logistische Regression , die dem maximalen Entropieklassifikator für unabhängige Beobachtungen entspricht.

Wahrscheinlichkeitsdichteschätzung

Eine der Hauptanwendungen des Maximum-Entropie-Prinzips ist die diskrete und kontinuierliche Dichteschätzung . Ähnlich wie bei der Unterstützung von Vektormaschinenschätzern kann das Maximum-Entropie-Prinzip die Lösung eines quadratischen Programmierproblems erfordern und somit ein spärliches Mischungsmodell als optimalen Dichteschätzer bereitstellen. Ein wichtiger Vorteil des Verfahrens ist seine Fähigkeit, vorherige Informationen in die Dichteschätzung einzubeziehen.

Allgemeine Lösung für die maximale Entropieverteilung mit linearen Einschränkungen

Diskreter Fall

Wir haben einige überprüfbare Informationen I über eine Größe x, die Werte in { x 1 , x 2 , ..., x n } annimmt . Wir nehmen an, dass diese Information die Form von m Einschränkungen für die Erwartungen der Funktionen f k hat ; Das heißt, wir benötigen unsere Wahrscheinlichkeitsverteilung, um die momentanen Ungleichheits- / Gleichheitsbeschränkungen zu erfüllen:

wo sind die beobachtbaren. Wir fordern auch, dass sich die Wahrscheinlichkeitsdichte zu eins summiert, was als primitive Einschränkung der Identitätsfunktion und als beobachtbare Bedingung gleich 1 angesehen werden kann, die die Einschränkung ergibt

Die Wahrscheinlichkeitsverteilung mit maximaler Informationsentropie, die diesen Ungleichheits- / Gleichheitsbeschränkungen unterliegt, hat folgende Form:

für einige . Es wird manchmal die Gibbs-Verteilung genannt . Die Normalisierungskonstante wird bestimmt durch:

und wird herkömmlicherweise als Partitionsfunktion bezeichnet . (Das Pitman-Koopman-Theorem besagt, dass die notwendige und ausreichende Bedingung für eine Stichprobenverteilung, um ausreichende Statistiken mit begrenzter Dimension zuzulassen , darin besteht, dass sie die allgemeine Form einer maximalen Entropieverteilung hat.)

Die λ k -Parameter sind Lagrange-Multiplikatoren. Bei Gleichheitsbeschränkungen werden ihre Werte aus der Lösung der nichtlinearen Gleichungen bestimmt

Bei Ungleichheitsbeschränkungen werden die Lagrange-Multiplikatoren aus der Lösung eines konvexen Optimierungsprogramms mit linearen Beschränkungen bestimmt. In beiden Fällen gibt es keine geschlossene Lösung , und die Berechnung der Lagrange-Multiplikatoren erfordert normalerweise numerische Methoden .

Kontinuierlicher Fall

Für kontinuierliche Verteilungen kann die Shannon-Entropie nicht verwendet werden, da sie nur für diskrete Wahrscheinlichkeitsräume definiert ist. Stattdessen gab Edwin Jaynes (1963, 1968, 2003) die folgende Formel an, die eng mit der relativen Entropie zusammenhängt (siehe auch Differentialentropie ).

wobei q ( x ), das Jaynes das "invariante Maß" nannte, proportional zur Grenzdichte diskreter Punkte ist . Im Moment nehmen wir an, dass q bekannt ist; Wir werden es weiter diskutieren, nachdem die Lösungsgleichungen gegeben sind.

Eine eng verwandte Größe, die relative Entropie, wird normalerweise als Kullback-Leibler-Divergenz von p von q definiert (obwohl sie manchmal verwirrenderweise als das Negative davon definiert wird). Das Inferenzprinzip, dies aufgrund von Kullback zu minimieren, ist als das Prinzip der minimalen Diskriminierungsinformation bekannt .

Wir haben einige überprüfbare Informationen I über eine Größe x, die Werte in einem Intervall der reellen Zahlen annimmt (alle Integrale unten liegen über diesem Intervall). Wir nehmen an, dass diese Information die Form von m Einschränkungen für die Erwartungen der Funktionen f k hat , dh wir benötigen unsere Wahrscheinlichkeitsdichtefunktion, um die Ungleichheits- (oder rein Gleichheits-) Momentbeschränkungen zu erfüllen:

wo sind die beobachtbaren. Wir benötigen auch die Wahrscheinlichkeitsdichte, um sie in eine zu integrieren, was als primitive Einschränkung der Identitätsfunktion und als beobachtbare Bedingung gleich 1 angesehen werden kann, die die Einschränkung ergibt

Die Wahrscheinlichkeitsdichtefunktion mit maximalem H c unter diesen Bedingungen ist:

mit der Partitionsfunktion bestimmt durch

Wie im diskreten Fall werden in dem Fall, in dem alle Momentbeschränkungen Gleichheiten sind, die Werte der Parameter durch das System nichtlinearer Gleichungen bestimmt:

Bei Ungleichheitsmomentbeschränkungen werden die Lagrange-Multiplikatoren aus der Lösung eines konvexen Optimierungsprogramms bestimmt .

Die invariante Messfunktion q ( x ) kann am besten verstanden werden, indem angenommen wird, dass x bekanntermaßen nur in dem begrenzten Intervall ( a , b ) Werte annimmt und dass keine anderen Informationen gegeben werden. Dann ist die maximale Entropiewahrscheinlichkeitsdichtefunktion

wobei A eine Normalisierungskonstante ist. Die invariante Messfunktion ist tatsächlich die vorherige Dichtefunktion, die "Mangel an relevanten Informationen" codiert. Sie kann nicht durch das Prinzip der maximalen Entropie bestimmt werden und muss durch eine andere logische Methode bestimmt werden, wie das Prinzip der Transformationsgruppen oder die Marginalisierungstheorie .

Beispiele

Einige Beispiele für maximale Entropieverteilungen finden Sie im Artikel über maximale Entropiewahrscheinlichkeitsverteilungen .

Begründung für das Prinzip der maximalen Entropie

Befürworter des Prinzips der maximalen Entropie begründen seine Verwendung bei der Zuweisung von Wahrscheinlichkeiten auf verschiedene Weise, einschließlich der folgenden zwei Argumente. Diese Argumente verwenden die Bayes'sche Wahrscheinlichkeit wie angegeben und unterliegen daher denselben Postulaten.

Informationsentropie als Maß für „Uninformativität“

Betrachten Sie eine diskrete Wahrscheinlichkeitsverteilung zwischen sich gegenseitig ausschließenden Sätzen . Die informativste Verteilung würde auftreten, wenn bekannt wäre, dass eine der Aussagen wahr ist. In diesem Fall wäre die Informationsentropie gleich Null. Die am wenigsten informative Verteilung würde auftreten, wenn es keinen Grund gibt, einen der Sätze den anderen vorzuziehen. In diesem Fall wäre die einzig vernünftige Wahrscheinlichkeitsverteilung gleichmäßig, und dann wäre die Informationsentropie gleich ihrem maximal möglichen Wert . Die Informationsentropie kann daher als numerisches Maß angesehen werden, das beschreibt, wie uninformativ eine bestimmte Wahrscheinlichkeitsverteilung ist und von Null (vollständig informativ) bis (vollständig uninformativ) reicht.

Indem wir uns dafür entscheiden, die Verteilung mit der maximalen Entropie zu verwenden, die unsere Informationen zulassen, wählen wir die uninformativste Verteilung, die möglich ist. Eine Verteilung mit niedrigerer Entropie zu wählen, würde bedeuten, Informationen anzunehmen, die wir nicht besitzen. Somit ist die maximale Entropieverteilung die einzig vernünftige Verteilung. Die Abhängigkeit der Lösung von der dominierenden Maßnahme, die durch dargestellt wird, ist jedoch eine Quelle der Kritik am Ansatz, da diese dominierende Maßnahme tatsächlich willkürlich ist.

Die Wallis-Ableitung

Das folgende Argument ist das Ergebnis eines Vorschlags von Graham Wallis an ET Jaynes aus dem Jahr 1962. Es ist im Wesentlichen dasselbe mathematische Argument, das für die Maxwell-Boltzmann-Statistik in der statistischen Mechanik verwendet wird , obwohl die konzeptionelle Betonung sehr unterschiedlich ist. Es hat den Vorteil, dass es streng kombinatorischer Natur ist und sich nicht auf die Informationsentropie als Maß für „Unsicherheit“, „Uninformativität“ oder ein anderes ungenau definiertes Konzept bezieht. Die Informationsentropiefunktion wird nicht a priori angenommen , sondern im Verlauf des Arguments gefunden; und das Argument führt natürlich zu dem Verfahren, die Informationsentropie zu maximieren, anstatt sie auf andere Weise zu behandeln.

Angenommen, eine Person möchte eine Wahrscheinlichkeitszuordnung zwischen sich gegenseitig ausschließenden Sätzen vornehmen . Er verfügt über einige überprüfbare Informationen, ist sich jedoch nicht sicher, wie er diese Informationen in seine Wahrscheinlichkeitsbewertung einbeziehen soll. Er stellt sich daher das folgende zufällige Experiment vor. Er wird die Wahrscheinlichkeitsquanten (jeden Wert ) zufällig auf die Möglichkeiten verteilen . (Man könnte sich vorstellen, dass er Bälle mit verbundenen Augen in Eimer wirft . Um so fair wie möglich zu sein, muss jeder Wurf unabhängig von jedem anderen sein und jeder Eimer muss die gleiche Größe haben.) Sobald das Experiment abgeschlossen ist, er wird prüfen, ob die so erhaltene Wahrscheinlichkeitszuordnung mit seinen Angaben übereinstimmt. (Damit dieser Schritt erfolgreich ist, muss die Information eine Einschränkung sein, die durch eine offene Menge im Raum der Wahrscheinlichkeitsmaße gegeben ist.) Wenn es inkonsistent ist, wird er es ablehnen und es erneut versuchen. Wenn es konsistent ist, wird seine Einschätzung sein

wo ist die Wahrscheinlichkeit des th Satzes, während n i die Anzahl der Quanten ist, die dem th Satz zugewiesen wurden (dh die Anzahl der Kugeln, die im Eimer gelandet sind ).

Um nun die "Körnigkeit" der Wahrscheinlichkeitszuordnung zu verringern, wird es notwendig sein, eine ziemlich große Anzahl von Wahrscheinlichkeitsquanten zu verwenden. Anstatt das ziemlich lange zufällige Experiment tatsächlich durchzuführen und möglicherweise wiederholen zu müssen, beschließt der Protagonist, einfach das wahrscheinlichste Ergebnis zu berechnen und zu verwenden. Die Wahrscheinlichkeit eines bestimmten Ergebnisses ist die multinomiale Verteilung .

wo

wird manchmal als die Vielzahl des Ergebnisses bezeichnet.

Das wahrscheinlichste Ergebnis ist dasjenige, das die Vielfalt maximiert . Anstatt direkt zu maximieren , könnte der Protagonist jede monoton ansteigende Funktion von äquivalent maximieren . Er beschließt zu maximieren

Um den Ausdruck zu vereinfachen, nimmt der Protagonist an dieser Stelle die Grenze als , dh wenn die Wahrscheinlichkeitsniveaus von körnigen diskreten Werten zu glatten kontinuierlichen Werten gehen. Mit Stirlings Annäherung findet er

Der Protagonist muss lediglich die Entropie unter den Bedingungen seiner überprüfbaren Informationen maximieren. Er hat herausgefunden, dass die maximale Entropieverteilung die wahrscheinlichste aller "fairen" Zufallsverteilungen ist, im Grenzbereich, wenn die Wahrscheinlichkeitsniveaus von diskret zu kontinuierlich gehen.

Kompatibilität mit dem Satz von Bayes

Giffin und Caticha (2007) stellen fest, dass der Satz von Bayes und das Prinzip der maximalen Entropie vollständig kompatibel sind und als Sonderfälle der "Methode der maximalen relativen Entropie" angesehen werden können. Sie geben an, dass diese Methode jeden Aspekt der orthodoxen Bayes'schen Inferenzmethoden reproduziert. Darüber hinaus öffnet diese neue Methode die Tür zur Lösung von Problemen, die weder mit dem Prinzip der maximalen Entropie noch mit orthodoxen Bayes'schen Methoden einzeln angegangen werden konnten. Darüber hinaus zeigen jüngste Beiträge (Lazar 2003 und Schennach 2005), dass häufig auftretende, auf relativer Entropie basierende Inferenzansätze (wie empirische Wahrscheinlichkeit und exponentiell geneigte empirische Wahrscheinlichkeit - siehe z. B. Owen 2001 und Kitamura 2006) mit vorherigen Informationen kombiniert werden können, um Bayesian durchzuführen hintere Analyse.

Jaynes erklärte, der Satz von Bayes sei ein Weg, eine Wahrscheinlichkeit zu berechnen, während die maximale Entropie ein Weg sei, eine vorherige Wahrscheinlichkeitsverteilung zuzuweisen.

Es ist jedoch konzeptionell möglich, eine posteriore Verteilung direkt aus einer angegebenen vorherigen Verteilung unter Verwendung des Prinzips der minimalen Kreuzentropie zu lösen (oder das Prinzip der maximalen Entropie ist ein Sonderfall der Verwendung einer gleichmäßigen Verteilung wie zuvor angegeben), unabhängig davon alle Bayes'schen Überlegungen, indem das Problem formal als eingeschränktes Optimierungsproblem behandelt wird, wobei die Entropiefunktion die Zielfunktion ist. Für den Fall gegebener Durchschnittswerte als überprüfbare Information (gemittelt über die gesuchte Wahrscheinlichkeitsverteilung) ist die gesuchte Verteilung formal die Gibbs- (oder Boltzmann-) Verteilung, deren Parameter gelöst werden müssen, um eine minimale Kreuzentropie zu erreichen und zu erfüllen die gegebenen prüfbaren Informationen.

Relevanz für die Physik

Das Prinzip der maximalen Entropie steht in Beziehung zu einer Schlüsselannahme der kinetischen Theorie der Gase, die als molekulares Chaos oder Stosszahlansatz bekannt ist . Dies behauptet, dass die Verteilungsfunktion, die Partikel charakterisiert, die in eine Kollision eintreten, faktorisiert werden kann. Obwohl diese Aussage als streng physikalische Hypothese verstanden werden kann, kann sie auch als heuristische Hypothese bezüglich der wahrscheinlichsten Konfiguration von Partikeln vor einer Kollision interpretiert werden.

Siehe auch

Anmerkungen

Verweise

Weiterführende Literatur