Bayessche Wahrscheinlichkeit - Bayesian probability

Bayessche Wahrscheinlichkeit ist eine Interpretation des Begriffs der Wahrscheinlichkeit , bei der anstelle der Häufigkeit oder Neigung eines Phänomens die Wahrscheinlichkeit als vernünftige Erwartung interpretiert wird, die einen Wissensstand repräsentiert oder als Quantifizierung einer persönlichen Überzeugung.

Die Bayessche Interpretation der Wahrscheinlichkeit kann als eine Erweiterung der Aussagenlogik angesehen werden , die das Argumentieren mit Hypothesen ermöglicht ; dh mit Sätzen, deren Wahrheit oder Falschheit unbekannt ist. In der Bayesschen Sicht wird einer Hypothese eine Wahrscheinlichkeit zugewiesen, während bei der frequentistischen Inferenz eine Hypothese typischerweise getestet wird, ohne dass eine Wahrscheinlichkeit zugewiesen wird.

Bayessche Wahrscheinlichkeit gehört zur Kategorie der Beweiswahrscheinlichkeiten; Um die Wahrscheinlichkeit einer Hypothese zu bewerten, gibt der Bayessche Wahrscheinlichkeitsrechnung eine A- priori-Wahrscheinlichkeit an . Diese wird dann wiederum im Lichte neuer relevanter Daten (Beweise) auf eine spätere Wahrscheinlichkeit aktualisiert . Die Bayes'sche Interpretation stellt einen Standardsatz von Prozeduren und Formeln zur Verfügung, um diese Berechnung durchzuführen.

Der Begriff Bayesian stammt aus dem 18. Jahrhundert Mathematiker und Theologen Thomas Bayes , der die erste mathematische Behandlung eines nicht-trivialen Problem der statistischen bereitgestellt Datenanalyse mit , was jetzt als bekannt ist Bayes - Inferenz . Der Mathematiker Pierre-Simon Laplace leistete Pionierarbeit und machte populär, was heute als Bayessche Wahrscheinlichkeit bezeichnet wird.

Bayes'sche Methodik

Bayessche Methoden zeichnen sich durch folgende Konzepte und Vorgehensweisen aus:

  • Die Verwendung von Zufallsvariablen oder allgemeiner unbekannten Größen, um alle Unsicherheitsquellen in statistischen Modellen zu modellieren, einschließlich der Unsicherheit, die sich aus Informationsmangel ergibt (siehe auch aleatorische und epistemische Unsicherheit ).
  • Die Notwendigkeit, die Prior-Wahrscheinlichkeitsverteilung unter Berücksichtigung der verfügbaren (Prior-)Informationen zu bestimmen.
  • Die sequentielle Verwendung der Bayes-Formel : Wenn mehr Daten verfügbar sind, berechnen Sie die Posterior-Verteilung unter Verwendung der Bayes-Formel; anschließend wird die Posterior-Verteilung zum nächsten Prior.
  • Während für den Frequentisten eine Hypothese eine Aussage ist (die entweder wahr oder falsch sein muss ), so dass die Frequentist-Wahrscheinlichkeit einer Hypothese entweder 0 oder 1 ist, kann in der Bayesschen Statistik die Wahrscheinlichkeit, die einer Hypothese zugeordnet werden kann, auch in . sein ein Bereich von 0 bis 1, wenn der Wahrheitswert unsicher ist.

Objektive und subjektive Bayessche Wahrscheinlichkeiten

Im Großen und Ganzen gibt es zwei Interpretationen der Bayesschen Wahrscheinlichkeit. Für Objektivisten, die Wahrscheinlichkeit als eine Erweiterung der Logik interpretieren , quantifiziert die Wahrscheinlichkeit die vernünftige Erwartung, dass jeder (auch ein "Roboter"), der das gleiche Wissen teilt, gemäß den Regeln der Bayesschen Statistik teilen sollte, was durch das Cox-Theorem gerechtfertigt werden kann . Für Subjektivisten entspricht Wahrscheinlichkeit einer persönlichen Überzeugung. Rationalität und Kohärenz ermöglichen erhebliche Variationen innerhalb der von ihnen auferlegten Beschränkungen; die Beschränkungen werden durch das niederländische Buchargument oder durch die Entscheidungstheorie und den Satz von de Finetti gerechtfertigt . Die objektiven und subjektiven Varianten der Bayesschen Wahrscheinlichkeit unterscheiden sich hauptsächlich in ihrer Interpretation und Konstruktion der a-priori-Wahrscheinlichkeit.

Geschichte

Der Begriff Bayesian leitet sich von Thomas Bayes (1702–1761) ab, der in einer Arbeit mit dem Titel „ An Essay tosolving a Problem in the Doctrine of Chances “ einen Sonderfall des heutigen Bayesschen Theorems bewies . In diesem speziellen Fall waren die vorherige und die spätere Verteilung Beta-Verteilungen und die Daten stammten aus Bernoulli-Versuchen . Es war Pierre-Simon Laplace (1749–1827), der eine allgemeine Version des Theorems einführte und damit Probleme in der Himmelsmechanik , medizinischen Statistik, Zuverlässigkeit und Rechtswissenschaft anging . Frühe Bayessche Inferenz, die nach dem Laplaceschen Prinzip der unzureichenden Vernunft einheitliche Prioren verwendete , wurde " inverse Wahrscheinlichkeit " genannt (weil sie von Beobachtungen auf Parameter oder von Wirkungen auf Ursachen rückwärts folgert ). Nach den 1920er Jahren wurde die "inverse Wahrscheinlichkeit" weitgehend durch eine Sammlung von Methoden ersetzt, die als frequentistische Statistik bezeichnet wurden .

Im 20. Jahrhundert entwickelten sich die Ideen von Laplace in zwei Richtungen, was zu objektiven und subjektiven Strömungen in der Bayesschen Praxis führte. Harold Jeffreys ' Theory of Probability (Erstveröffentlichung 1939) spielte eine wichtige Rolle bei der Wiederbelebung der Bayes'schen Wahrscheinlichkeitsauffassung, gefolgt von Werken von Abraham Wald (1950) und Leonard J. Savage (1954). Das Adjektiv Bayesian selbst stammt aus den 1950er Jahren; der abgeleitete Bayesianismus , der Neo-Bayesianismus, stammt aus den 1960er Jahren. Im objektivistischen Strom hängt die statistische Analyse nur von dem angenommenen Modell und den analysierten Daten ab. Es müssen keine subjektiven Entscheidungen getroffen werden. Im Gegensatz dazu leugnen "subjektivistische" Statistiker die Möglichkeit einer vollständig objektiven Analyse für den allgemeinen Fall.

In den 1980er Jahren gab es ein dramatisches Wachstum in der Forschung und Anwendung von Bayes'schen Methoden, was hauptsächlich auf die Entdeckung der Markov-Ketten-Monte-Carlo- Methoden und die konsequente Beseitigung vieler Rechenprobleme sowie auf ein zunehmendes Interesse an nicht standardmäßigen, komplexen Anwendungen zurückzuführen ist. Während die frequentistische Statistik nach wie vor stark ist (was daran zu erkennen ist, dass der Großteil der grundständigen Lehre immer noch darauf basiert), werden Bayessche Methoden weithin akzeptiert und verwendet, z. B. im Bereich des maschinellen Lernens .

Begründung von Bayes'schen Wahrscheinlichkeiten

Die Verwendung von Bayes-Wahrscheinlichkeiten als Grundlage der Bayes-Inferenz wurde durch mehrere Argumente unterstützt, wie beispielsweise die Cox-Axiome , das niederländische Buchargument , Argumente, die auf der Entscheidungstheorie und dem Satz von de Finetti basieren .

Axiomatischer Ansatz

Richard T. Cox zeigte, dass die Bayessche Aktualisierung aus mehreren Axiomen folgt, darunter zwei Funktionsgleichungen und eine Differenzierbarkeitshypothese. Die Annahme von Differenzierbarkeit oder gar Kontinuität ist umstritten; Halpern fand ein Gegenbeispiel basierend auf seiner Beobachtung, dass die Boolesche Algebra von Aussagen endlich sein kann. Andere Axiomatisierungen wurden von verschiedenen Autoren vorgeschlagen, um die Theorie rigoroser zu machen.

Niederländischer Buchansatz

Das niederländische Buchargument wurde von de Finetti vorgeschlagen ; es basiert auf Wetten. Ein niederländisches Buch entsteht, wenn ein cleverer Spieler eine Reihe von Wetten platziert, die einen Gewinn garantieren, unabhängig vom Ergebnis der Wetten. Wenn ein Buchmacher bei der Konstruktion seiner Quoten die Regeln des Bayes'schen Kalküls befolgt, kann kein niederländisches Buch erstellt werden.

Ian Hacking stellte jedoch fest, dass traditionelle niederländische Buchargumente keine bayessche Aktualisierung spezifizieren: Sie ließen die Möglichkeit offen, dass nicht-bayesische Aktualisierungsregeln niederländische Bücher vermeiden könnten. Hacking schreibt zum Beispiel : „Und weder das niederländische Buchargument noch irgendein anderes im personalistischen Arsenal von Beweisen der Wahrscheinlichkeitsaxiome beinhaltet die dynamische Annahme Es stimmt, dass ein Personalist konsequenterweise das Bayessche Modell des Lernens aus Erfahrung aufgeben könnte. Salz könnte seinen Geschmack verlieren.“

Tatsächlich gibt es nicht-Bayessche Aktualisierungsregeln, die auch niederländische Bücher meiden (wie in der Literatur zur „ Wahrscheinlichkeitskinematik “ im Anschluss an die Veröffentlichung von Richard C. Jeffreys ' Regel diskutiert , die selbst als Bayesian gilt). Die zusätzlichen Hypothesen, die ausreichend sind, um die Bayessche Aktualisierung (eindeutig) zu spezifizieren, sind substanziell und werden nicht allgemein als zufriedenstellend angesehen.

Entscheidungstheoretischer Ansatz

Eine entscheidungstheoretische Begründung für die Verwendung der Bayesschen Inferenz (und damit der Bayesschen Wahrscheinlichkeiten) lieferte Abraham Wald , der bewies, dass jedes zulässige statistische Verfahren entweder ein Bayes-Verfahren oder eine Grenze von Bayes-Verfahren ist. Umgekehrt ist jedes Bayessche Verfahren zulässig .

Persönliche Wahrscheinlichkeiten und objektive Methoden zur Konstruktion von Prioren

Im Anschluss an die Arbeiten an den erwarteten Nutzen Theorie von Ramsey und von Neumann , Entscheidungstheoretiker haben berücksichtigt rationales Verhalten eine Wahrscheinlichkeitsverteilung für die Verwendung von Agenten . Johann Pfanzagl vervollständigte die Theorie der Spiele und des ökonomischen Verhaltens durch eine Axiomatisierung von subjektiver Wahrscheinlichkeit und Nutzen, eine Aufgabe, die von Neumann und Oskar Morgenstern unvollendet blieben : Ihre ursprüngliche Theorie ging davon aus, dass alle Agenten aus Bequemlichkeit die gleiche Wahrscheinlichkeitsverteilung hatten. Pfanzagls Axiomatisierung wurde von Oskar Morgenstern unterstützt: "Von Neumann und ich haben vorausgesehen, dass ... gewünschten numerischen Nutzen zusammen mit einer Zahl für die Wahrscheinlichkeiten (vgl. S. 19 der Spieltheorie und des ökonomischen Verhaltens ). Wir haben dies nicht durchgeführt, es wurde von Pfanzagl ... mit aller nötigen Strenge demonstriert".

Ramsey und Savage stellten fest, dass die Wahrscheinlichkeitsverteilung der einzelnen Agenten in Experimenten objektiv untersucht werden kann. Verfahren zum Testen von Hypothesen über Wahrscheinlichkeiten (unter Verwendung endlicher Stichproben) gehen auf Ramsey (1931) und de Finetti (1931, 1937, 1964, 1970) zurück. Sowohl Bruno de Finetti als auch Frank P. Ramsey bekennen sich zu ihrer Verpflichtung gegenüber der pragmatischen Philosophie , insbesondere (für Ramsey) gegenüber Charles S. Peirce .

Der "Ramsey-Test" zur Bewertung von Wahrscheinlichkeitsverteilungen ist theoretisch umsetzbar und beschäftigt experimentelle Psychologen seit einem halben Jahrhundert. Diese Arbeit zeigt, dass Bayes'sche Wahrscheinlichkeitsaussagen falsifiziert werden können und somit ein empirisches Kriterium von Charles S. Peirce erfüllen , dessen Arbeit Ramsey inspirierte. (Dieses Falsifizierbarkeitskriterium wurde von Karl Popper populär gemacht .)

Moderne Arbeiten zur experimentellen Bewertung persönlicher Wahrscheinlichkeiten verwenden die Randomisierungs-, Verblindungs- und Boolesche-Entscheidungsverfahren des Peirce-Jastrow-Experiments. Da Individuen nach unterschiedlichen Wahrscheinlichkeitsurteilen handeln, sind die Wahrscheinlichkeiten dieser Agenten „persönlich“ (aber einer objektiven Untersuchung zugänglich).

Persönliche Wahrscheinlichkeiten sind für die Wissenschaft und für einige Anwendungen problematisch, bei denen Entscheidungsträgern das Wissen oder die Zeit fehlt, um eine informierte Wahrscheinlichkeitsverteilung festzulegen (zu der sie bereit sind zu handeln). Um den Anforderungen der Wissenschaft und der menschlichen Grenzen gerecht zu werden, haben Bayes'sche Statistiker "objektive" Methoden zur Spezifizierung von A-priori-Wahrscheinlichkeiten entwickelt.

Tatsächlich haben einige Bayesianer argumentiert, dass der vorherige Wissensstand die (einzigartige) vorherige Wahrscheinlichkeitsverteilung für "reguläre" statistische Probleme definiert; vgl. gut gestellte Probleme . Die Suche nach der richtigen Methode zur Konstruktion solcher "objektiver" Prioren (für geeignete Klassen von regulären Problemen) war die Suche statistischer Theoretiker von Laplace bis John Maynard Keynes , Harold Jeffreys und Edwin Thompson Jaynes . Diese Theoretiker und ihre Nachfolger haben verschiedene Methoden vorgeschlagen, um "objektive" Priors zu konstruieren (Leider ist nicht klar, wie die relative "Objektivität" der unter diesen Methoden vorgeschlagenen Priors zu beurteilen ist):

Jedes dieser Verfahren trägt nützliche Priors für "normale" Einparameterprobleme bei, und jedes Prior kann einige schwierige statistische Modelle (mit "Unregelmäßigkeit" oder mehreren Parametern) handhaben . Jede dieser Methoden hat sich in der Bayesschen Praxis als nützlich erwiesen. Tatsächlich wurden Methoden zur Konstruktion "objektiver" (alternativ "Standard" oder "Ignoranz") Priors von erklärten subjektiven (oder "persönlichen") Bayesianern wie James Berger ( Duke University ) und José-Miguel Bernardo ( Universat de València ) entwickelt. , einfach weil solche Prioren für die Bayessche Praxis benötigt werden, insbesondere in der Wissenschaft. Die Suche nach "der universellen Methode zur Konstruktion von Prioren" zieht weiterhin statistische Theoretiker an.

Daher muss der Bayes-Statistiker entweder informierte Prioritäten verwenden (unter Verwendung von relevantem Fachwissen oder früherer Daten) oder zwischen den konkurrierenden Methoden zur Konstruktion "objektiver" Prioritäten wählen.

Siehe auch

Verweise

Literaturverzeichnis