Grundlagen der Statistik - Foundations of statistics

Die Grundlagen der Statistik betreffen die erkenntnistheoretische Debatte in der Statistik darüber, wie man induktive Schlussfolgerungen aus Daten ziehen soll. Unter den in Betracht gezogenen Fragen statistische Inferenz ist die Frage der Bayes - Inferenz im Vergleich zu frequentistischen Folgerung , die Unterscheidung zwischen Fisher ‚s‚Signifikanztests‘und Neyman - Pearson ‚Hypothesentests‘und ob die Wahrscheinlichkeit Prinzip gefolgt werden soll. Einige dieser Fragen wurden bis zu 200 Jahre lang ohne Lösung diskutiert.

Bandyopadhyay & Forster beschreiben vier statistische Paradigmen: "(i) klassische Statistik oder Fehlerstatistik, (ii) Bayes'sche Statistik, (iii) Wahrscheinlichkeitsstatistik und (iv) Akaikean-Information Criterion- basierte Statistik".

Savages Text Foundations of Statistics wurde in Google Scholar über 15000 Mal zitiert . Es heißt Folgendes.

Man ist sich einig, dass die Statistik irgendwie von der Wahrscheinlichkeit abhängt. Aber was die Wahrscheinlichkeit ist und wie sie mit Statistiken zusammenhängt, hat es seit dem Turm von Babel selten so völlige Meinungsverschiedenheiten und Zusammenbrüche gegeben. Zweifellos ist ein Großteil der Meinungsverschiedenheiten lediglich terminologisch und würde bei ausreichend scharfer Analyse verschwinden.

Fischers "Signifikanztest" vs. Neyman-Pearson "Hypothesentest"

Bei der Entwicklung der klassischen Statistik im zweiten Viertel des 20. Jahrhunderts wurden zwei konkurrierende Modelle für induktive statistische Tests entwickelt. Ihre relativen Verdienste wurden (über 25 Jahre) bis zu Fischers Tod heiß diskutiert. Während eine Mischung aus beiden Methoden weit verbreitet gelehrt und angewendet wird, wurden die in der Debatte aufgeworfenen philosophischen Fragen nicht gelöst.

Signifikanzprüfung

Fisher hat Signifikanztests populär gemacht, hauptsächlich in zwei populären und einflussreichen Büchern. Fischers Schreibstil in diesen Büchern war stark an Beispielen und relativ schwach an Erklärungen. In den Büchern fehlten Beweise oder Ableitungen der Signifikanzteststatistik (wodurch die statistische Praxis der statistischen Theorie vorausging). Fischers erklärenderes und philosophischeres Schreiben wurde viel später geschrieben. Es scheint einige Unterschiede zwischen seinen früheren Praktiken und seinen späteren Meinungen zu geben.

Fisher war motiviert, wissenschaftliche experimentelle Ergebnisse ohne den ausdrücklichen Einfluss vorheriger Meinungen zu erhalten. Der Signifikanztest ist eine probabilistische Version von Modus tollens , einer klassischen Form der deduktiven Inferenz. Der Signifikanztest könnte vereinfacht ausgedrückt werden: "Wenn die Beweise mit der Hypothese nicht übereinstimmen, lehnen Sie die Hypothese ab." In der Anwendung wird aus den experimentellen Daten eine Statistik berechnet, eine Wahrscheinlichkeit, diese Statistik zu überschreiten, bestimmt und die Wahrscheinlichkeit mit einem Schwellenwert verglichen. Der Schwellenwert (die numerische Version von "ausreichend diskordant") ist willkürlich (normalerweise durch Konvention festgelegt). Eine übliche Anwendung der Methode ist die Entscheidung, ob eine Behandlung einen meldepflichtigen Effekt hat, basierend auf einem Vergleichsexperiment. Die statistische Signifikanz ist ein Maß für die Wahrscheinlichkeit, die nicht von praktischer Bedeutung ist. Dies kann als Anforderung an das statistische Signal / Rauschen angesehen werden. Die Methode basiert auf der angenommenen Existenz einer imaginären unendlichen Population, die der Nullhypothese entspricht.

Der Signifikanztest erfordert nur eine Hypothese. Das Ergebnis des Tests ist, die Hypothese (oder nicht), eine einfache Zweiteilung, abzulehnen. Der Test unterscheidet zwischen der Wahrheit der Hypothese und der Unzulänglichkeit von Beweisen, um die Hypothese zu widerlegen; Es ist also wie ein Strafverfahren, bei dem die Schuld des Angeklagten anhand einer Nullhypothese beurteilt wird, bei der der Angeklagte bis zum Beweis seiner Schuld als unschuldig gilt.

Hypothesentest

Neyman & Pearson arbeiteten an einem anderen, aber verwandten Problem zusammen - der Auswahl unter konkurrierenden Hypothesen allein auf der Grundlage der experimentellen Beweise. Die am häufigsten zitierte ihrer gemeinsamen Arbeiten stammt aus dem Jahr 1933. Das berühmte Ergebnis dieser Arbeit ist das Neyman-Pearson-Lemma . Das Lemma besagt, dass ein Wahrscheinlichkeitsverhältnis ein hervorragendes Kriterium für die Auswahl einer Hypothese ist (wobei der Vergleichsschwellenwert willkürlich ist). Die Arbeit bewies eine Optimalität des Student-T-Tests (einer der Signifikanztests). Neyman äußerte die Meinung, dass das Testen von Hypothesen eine Verallgemeinerung und Verbesserung des Signifikanztests sei. Die Gründe für ihre Methoden finden sich in ihren gemeinsamen Arbeiten.

Das Testen von Hypothesen erfordert mehrere Hypothesen. Es wird immer eine Hypothese ausgewählt, eine Mehrfachauswahl. Ein Mangel an Beweisen ist keine unmittelbare Überlegung. Die Methode basiert auf der Annahme einer wiederholten Stichprobe derselben Population (die klassische frequentistische Annahme), obwohl diese Annahme von Fisher kritisiert wurde (Rubin, 2020).

Gründe für Meinungsverschiedenheiten

Die Länge des Streits ermöglichte die Debatte über eine Vielzahl von Fragen, die als Grundlage für die Statistik angesehen wurden.

Ein Beispielaustausch von 1955–1956
Fischers Angriff Neymans Gegenargument Diskussion
Wiederholte Probenahme derselben Population
  • Eine solche Stichprobe ist die Grundlage für die Wahrscheinlichkeit von Frequentisten
  • Fisher bevorzugte Referenzschluss
Fischers Theorie der Referenzschlussfolgerung ist fehlerhaft
  • Paradoxe sind weit verbreitet
Fischers Angriff auf der Grundlage der Wahrscheinlichkeit von Frequentisten schlug fehl, war jedoch nicht ohne Ergebnis. Er identifizierte einen speziellen Fall (2 × 2-Tabelle), in dem die beiden Testschulen unterschiedliche Ergebnisse erzielen. Dieser Fall ist einer von mehreren, die immer noch beunruhigend sind. Kommentatoren glauben, dass die "richtige" Antwort kontextabhängig ist. Die Referenzwahrscheinlichkeit hat sich nicht gut entwickelt, da sie praktisch ohne Befürworter ist, während die Wahrscheinlichkeit von Frequentisten eine gängige Interpretation bleibt.
Fehler vom Typ II
  • Welche ergeben sich aus einer alternativen Hypothese
Eine rein probabilistische Testtheorie erfordert eine alternative Hypothese Fischers Angriff auf Typ-II-Fehler ist mit der Zeit verblasst. In den vergangenen Jahren hat die Statistik das Sondierungs- und das Bestätigungsverfahren getrennt. In der gegenwärtigen Umgebung wird das Konzept von Typ-II-Fehlern in Leistungsberechnungen zur Bestimmung der Stichprobengröße des Bestätigungshypothesentests verwendet .
Induktives Verhalten Fischers Angriff auf induktives Verhalten war aufgrund seiner Auswahl des Schlachtfeldes weitgehend erfolgreich. Während betriebliche Entscheidungen routinemäßig anhand einer Vielzahl von Kriterien (wie z. B. Kosten) getroffen werden, werden wissenschaftliche Schlussfolgerungen aus Experimenten in der Regel allein auf der Grundlage der Wahrscheinlichkeit getroffen.

In diesem Austausch erörterte Fisher auch die Anforderungen an die induktive Inferenz, wobei eine spezifische Kritik an Kostenfunktionen fehlerhafte Urteile bestrafte. Neyman konterte, dass Gauß und Laplace sie benutzten. Dieser Argumentationsaustausch fand 15 Jahre nach dem Beginn des Lehrens einer hybriden Theorie statistischer Tests in Lehrbüchern statt.

Fisher und Neyman waren sich über die Grundlagen der Statistik nicht einig (obwohl sie sich vehement gegen die Bayes'sche Sichtweise aussprachen):

  • Die Interpretation der Wahrscheinlichkeit
    • Die Meinungsverschiedenheit über Fischers induktives Denken gegenüber Neymans induktivem Verhalten enthielt Elemente der Bayesian / Frequentist-Kluft. Fisher war bereit, seine Meinung auf der Grundlage einer berechneten Wahrscheinlichkeit zu ändern (zu einer vorläufigen Schlussfolgerung zu gelangen), während Neyman eher bereit war, sein beobachtbares Verhalten (eine Entscheidung zu treffen) auf der Grundlage berechneter Kosten zu ändern.
  • Die richtige Formulierung wissenschaftlicher Fragen mit besonderem Interesse an der Modellierung
  • Ob es sinnvoll ist, eine Hypothese mit geringer Wahrscheinlichkeit abzulehnen, ohne die Wahrscheinlichkeit einer Alternative zu kennen
  • Ob eine Hypothese jemals auf der Grundlage von Daten akzeptiert werden könnte
    • In der Mathematik beweisen Abzüge, Gegenbeispiele widerlegen
    • In der popperianischen Wissenschaftsphilosophie werden Fortschritte erzielt, wenn Theorien widerlegt werden
  • Subjektivität: Während Fisher und Neyman darum kämpften, die Subjektivität zu minimieren, erkannten beide die Bedeutung eines "guten Urteils" an. Jeder beschuldigte den anderen der Subjektivität.
    • Fisher wählte subjektiv die Nullhypothese.
    • Neyman-Pearson wählte subjektiv das Auswahlkriterium (das nicht auf eine Wahrscheinlichkeit beschränkt war).
    • Beide subjektiv bestimmten numerischen Schwellenwerte.

Fisher und Neyman waren durch Einstellungen und vielleicht Sprache getrennt. Fisher war Wissenschaftler und ein intuitiver Mathematiker. Induktives Denken war natürlich. Neyman war ein strenger Mathematiker. Er war eher von deduktivem Denken als von einer auf einem Experiment basierenden Wahrscheinlichkeitsberechnung überzeugt. Somit gab es einen Konflikt zwischen angewandter und theoretischer, zwischen Wissenschaft und Mathematik.

Verwandte Geschichte

Neyman, der das gleiche Gebäude in England wie Fisher besetzt hatte, nahm 1938 eine Position an der Westküste der Vereinigten Staaten von Amerika an. Sein Umzug beendete effektiv seine Zusammenarbeit mit Pearson und deren Entwicklung von Hypothesentests. Die Weiterentwicklung wurde von anderen fortgesetzt.

Lehrbücher lieferten bis 1940 eine hybride Version von Signifikanz- und Hypothesentests. Keiner der Schulleiter hatte eine bekannte persönliche Beteiligung an der Weiterentwicklung des Hybrids, der heute in der Einführungsstatistik gelehrt wird.

Statistiken entwickelten sich später in verschiedene Richtungen, einschließlich Entscheidungstheorie (und möglicherweise Spieltheorie), Bayes'sche Statistik, explorative Datenanalyse, robuste Statistik und nichtparametrische Statistik. Das Testen von Neyman-Pearson-Hypothesen trug stark zur Entscheidungstheorie bei, die sehr häufig verwendet wird (zum Beispiel bei der statistischen Qualitätskontrolle). Das Testen von Hypothesen ließ sich leicht verallgemeinern, um frühere Wahrscheinlichkeiten zu akzeptieren, die ihm einen Bayes'schen Geschmack verliehen. Das Testen von Neyman-Pearson-Hypothesen ist zu einem abstrakten mathematischen Fach geworden, das in der Postgraduiertenstatistik gelehrt wird, während das meiste, was Studenten unter dem Banner des Hypothesentests beigebracht wird, von Fisher stammt.

Zeitgenössische Meinung

Seit Jahrzehnten sind keine größeren Kämpfe zwischen den beiden klassischen Testschulen ausgebrochen, aber das Scharfschützen geht weiter (möglicherweise ermutigt durch Partisanen anderer Kontroversen). Nach Generationen von Streitigkeiten besteht praktisch keine Chance, dass eine der statistischen Testtheorien in absehbarer Zukunft die andere ersetzen wird.

Die Mischung der beiden konkurrierenden Testschulen kann sehr unterschiedlich gesehen werden - als unvollkommene Vereinigung zweier mathematisch komplementärer Ideen oder als grundlegend fehlerhafte Vereinigung philosophisch inkompatibler Ideen. Fisher genoss einen philosophischen Vorteil, während Neyman & Pearson die strengere Mathematik anwendeten. Das Testen von Hypothesen ist bei einigen Benutzern umstritten , aber die beliebteste Alternative (Konfidenzintervalle) basiert auf derselben Mathematik.

Die Geschichte der Entwicklung ließ das Testen ohne eine einzige zitierfähige maßgebliche Quelle für die Hybridtheorie, die die gängige statistische Praxis widerspiegelt. Die zusammengeführte Terminologie ist ebenfalls etwas inkonsistent. Es gibt starke empirische Belege dafür, dass die Absolventen (und Ausbilder) einer einführenden Statistikklasse die Bedeutung von Hypothesentests nur schwach verstehen.

Zusammenfassung

  • Die Interpretation der Wahrscheinlichkeit wurde nicht geklärt (aber die Bezugswahrscheinlichkeit ist eine Waise).
  • Keine der Testmethoden wurde abgelehnt. Beide werden häufig für unterschiedliche Zwecke eingesetzt.
  • Die Texte haben die beiden Testmethoden unter dem Begriff Hypothesentest zusammengefasst.
    • Mathematiker behaupten (mit einigen Ausnahmen), dass Signifikanztests ein Sonderfall von Hypothesentests sind.
    • Andere behandeln die Probleme und Methoden als unterschiedlich (oder inkompatibel).
  • Der Streit hat sich nachteilig auf die statistische Bildung ausgewirkt.

Bayesianische Inferenz versus frequentistische Inferenz

Zwei unterschiedliche Interpretationen der Wahrscheinlichkeit (basierend auf objektiven Beweisen und subjektiven Glaubensgraden) existieren seit langem. Gauß und Laplace hätten vor mehr als 200 Jahren über Alternativen diskutieren können. Infolgedessen haben sich zwei konkurrierende statistische Schulen entwickelt. Die klassische Inferenzstatistik wurde größtenteils im zweiten Viertel des 20. Jahrhunderts entwickelt, ein Großteil davon als Reaktion auf die (Bayes'sche) Wahrscheinlichkeit der Zeit, bei der das umstrittene Prinzip der Gleichgültigkeit zur Ermittlung früherer Wahrscheinlichkeiten herangezogen wurde. Die Rehabilitation der Bayes'schen Folgerung war eine Reaktion auf die Grenzen der frequentistischen Wahrscheinlichkeit. Weitere Reaktionen folgten. Während die philosophischen Interpretationen alt sind, ist die statistische Terminologie nicht. Die aktuellen statistischen Begriffe "Bayesian" und "Frequentist" stabilisierten sich in der zweiten Hälfte des 20. Jahrhunderts. Die (philosophische, mathematische, wissenschaftliche, statistische) Terminologie ist verwirrend: Die "klassische" Interpretation der Wahrscheinlichkeit ist Bayes'sch, während die "klassische" Statistik häufig ist. "Frequentist" hat auch unterschiedliche Interpretationen - anders in der Philosophie als in der Physik.

Die Nuancen philosophischer Wahrscheinlichkeitsinterpretationen werden an anderer Stelle diskutiert. In der Statistik der alternativen Interpretationen ermöglichen die Analyse verschiedenen Daten mit verschiedenen Methoden auf der Basis verschiedene Modelle leicht unterschiedliche Ziele zu erreichen. Jeder statistische Vergleich der konkurrierenden Schulen berücksichtigt pragmatische Kriterien, die über das Philosophische hinausgehen.

Hauptverantwortliche

Zwei Hauptverantwortliche für häufig auftretende (klassische) Methoden waren Fisher und Neyman . Fischers Interpretation der Wahrscheinlichkeit war eigenwillig (aber stark nicht-bayesianisch). Neymans Ansichten waren streng frequentistisch. Drei Hauptverantwortliche für die Bayes'sche statistische Philosophie, Mathematik und Methoden des 20. Jahrhunderts waren de Finetti , Jeffreys und Savage . Savage hat de Finettis Ideen im englischsprachigen Raum populär gemacht und die Bayes'sche Mathematik rigoros gemacht. Im Jahr 1965 brachte Dennis Lindleys zweibändiges Werk "Einführung in Wahrscheinlichkeit und Statistik aus Bayes'scher Sicht" die Bayes'schen Methoden einem breiten Publikum näher. Die Statistik hat in den letzten drei Generationen Fortschritte gemacht. Die "maßgeblichen" Ansichten der frühen Mitwirkenden sind nicht alle aktuell.

Kontrastierende Ansätze

Frequentistische Folgerung

Die häufig auftretende Folgerung ist oben in (Fisher's "Signifikanztest" vs. Neyman-Pearson "Hypothesentest") teilweise und knapp beschrieben. Frequentistische Inferenz kombiniert verschiedene Ansichten. Das Ergebnis kann wissenschaftliche Schlussfolgerungen stützen, operative Entscheidungen treffen und Parameter mit oder ohne Konfidenzintervalle schätzen . Frequentistische Folgerungen basieren ausschließlich auf (einem Satz von) Beweisen.

Bayesianische Folgerung

Eine klassische Häufigkeitsverteilung beschreibt die Wahrscheinlichkeit der Daten. Die Verwendung des Bayes-Theorems ermöglicht ein abstrakteres Konzept - die Wahrscheinlichkeit einer Hypothese (entsprechend einer Theorie) angesichts der Daten. Das Konzept war einst als "inverse Wahrscheinlichkeit" bekannt. Die Bayes'sche Inferenz aktualisiert die Wahrscheinlichkeitsschätzung für eine Hypothese, sobald zusätzliche Beweise vorliegen. Die Bayes'sche Folgerung basiert explizit auf den Beweisen und der vorherigen Meinung, was es ermöglicht, dass sie auf mehreren Beweisreihen basiert.

Vergleiche der Eigenschaften

Frequentisten und Bayesianer verwenden unterschiedliche Wahrscheinlichkeitsmodelle. Frequentisten betrachten Parameter häufig als fest, aber unbekannt, während Bayesianer ähnlichen Parametern Wahrscheinlichkeitsverteilungen zuweisen. Folglich sprechen Bayesianer von Wahrscheinlichkeiten, die für Frequentisten nicht existieren; Ein Bayesianer spricht von der Wahrscheinlichkeit einer Theorie, während ein wahrer Frequentist nur von der Übereinstimmung der Beweise mit der Theorie sprechen kann. Beispiel: Ein Frequentist sagt nicht, dass eine Wahrscheinlichkeit von 95% besteht, dass der wahre Wert eines Parameters innerhalb eines Konfidenzintervalls liegt, sondern dass 95% der Konfidenzintervalle den wahren Wert enthalten.

Efrons vergleichende Adjektive
Bayes Frequentist
  • Basis
  • Resultierendes Merkmal
  • _
  • Ideale Anwendung
  • Zielgruppe
  • Modellierungscharakteristik
  • Glaube (vor)
  • Prinzipielle Philosophie
  • Eine Verteilung
  • Dynamisch (wiederholte Abtastung)
  • Individuell (subjektiv)
  • Aggressiv
  • Verhalten (Methode)
  • Opportunistische Methoden
  • Viele Distributionen (Bootstrap?)
  • Statisch (eine Probe)
  • Gemeinschaft (Ziel)
  • Defensive
Alternativer Vergleich
Bayesian Frequentist
Strengths
  • Komplett
  • Kohärent
  • Vorschriftlich
  • _
  • _
  • _
  • _
  • _
  • Starke Folgerung aus dem Modell
  • Schlussfolgerungen gut kalibriert
  • Es ist nicht erforderlich, vorherige Verteilungen anzugeben
  • Flexibles Verfahrensspektrum
    • Unvoreingenommenheit, Genügsamkeit, Nebensächlichkeit ...
    • Weit verbreitet und zuverlässig
    • Asymptotische Theorie
    • Einfach zu interpretieren
    • Kann von Hand berechnet werden
  • Starke Modellformulierung und -bewertung
Weaknesses
  • Zu subjektiv für wissenschaftliche Schlussfolgerungen
  • Verweigert die Rolle der Randomisierung für das Design
  • Erfordert und verlässt sich auf die vollständige Spezifikation eines Modells (Wahrscheinlichkeit und Vorgänger)
  • _
  • _
  • _
  • Schwache Modellformulierung und -bewertung
  • Unvollständig
  • Mehrdeutig
  • Inkohärent
  • Nicht vorschreibend
  • Keine einheitliche Theorie
  • (Über?) Betonung asymptotischer Eigenschaften
  • Schwache Schlussfolgerung aus dem Modell

Mathematische Ergebnisse

Keine Schule ist immun gegen mathematische Kritik und keine akzeptiert sie kampflos. Steins Paradoxon (zum Beispiel) hat gezeigt, dass es subtil ist, eine "flache" oder "nicht informative" vorherige Wahrscheinlichkeitsverteilung in hohen Dimensionen zu finden. Die Bayesianer betrachten dies als Randbereich des Kerns ihrer Philosophie, während sie feststellen, dass der Frequentismus mit Inkonsistenzen, Paradoxien und schlechtem mathematischen Verhalten behaftet ist. Frequentisten können am meisten erklären. Einige der "schlechten" Beispiele sind Extremsituationen - beispielsweise die Schätzung des Gewichts einer Elefantenherde anhand der Messung des Gewichts einer Elefantenherde ("Basus Elefanten"), die keine statistische Schätzung der Variabilität von Gewichten zulässt. Das Wahrscheinlichkeitsprinzip war ein Schlachtfeld.

Statistische Ergebnisse

Beide Schulen haben beeindruckende Ergebnisse bei der Lösung realer Probleme erzielt. Die klassische Statistik hat effektiv die längere Aufzeichnung, da mit mechanischen Taschenrechnern und gedruckten Tabellen mit speziellen statistischen Funktionen zahlreiche Ergebnisse erzielt wurden. Bayesianische Methoden waren sehr erfolgreich bei der Analyse von Informationen, die auf natürliche Weise nacheinander abgetastet werden (Radar und Sonar). Viele Bayes'sche Methoden und einige neuere frequentistische Methoden (wie der Bootstrap) erfordern die Rechenleistung, die erst in den letzten Jahrzehnten allgemein verfügbar war. Es gibt eine aktive Diskussion über die Kombination von Bayes'schen und frequentistischen Methoden, aber es werden Vorbehalte gegen die Bedeutung der Ergebnisse und die Verringerung der Vielfalt der Ansätze geäußert.

Philosophische Ergebnisse

Die Bayesianer sind sich im Gegensatz zu den Grenzen des Frequentismus einig, aber philosophisch in zahlreiche Lager unterteilt (empirisch, hierarchisch, objektiv, persönlich, subjektiv), die jeweils unterschiedliche Schwerpunkte haben. Ein (häufig auftretender) Philosoph der Statistik hat in den letzten zwei Generationen einen Rückzug vom statistischen Bereich zu philosophischen Wahrscheinlichkeitsinterpretationen festgestellt . Es besteht die Auffassung, dass Erfolge bei Bayes'schen Anwendungen die unterstützende Philosophie nicht rechtfertigen. Bayesianische Methoden erzeugen oft nützliche Modelle, die nicht für traditionelle Schlussfolgerungen verwendet werden und die der Philosophie wenig zu verdanken haben. Keine der philosophischen Interpretationen der Wahrscheinlichkeit (frequentistisch oder bayesianisch) erscheint robust. Die frequentistische Sichtweise ist zu starr und einschränkend, während die Bayes'sche Sichtweise gleichzeitig objektiv und subjektiv sein kann usw.

Illustrative Zitate

  • "Der häufig verwendete Ansatz wird häufig angewendet und liefert allgemein anwendbare, wenn auch manchmal ungeschickte Antworten."
  • "Das Beharren auf unvoreingenommenen [frequentistischen] Techniken kann zu negativen (aber unvoreingenommenen) Schätzungen einer Varianz führen; die Verwendung von p-Werten in mehreren Tests kann zu offensichtlichen Widersprüchen führen; herkömmliche 0,95-Konfidenzbereiche können tatsächlich aus der gesamten realen Linie bestehen. Kein Wunder, dass es Mathematikern oft schwer fällt zu glauben, dass konventionelle statistische Methoden ein Zweig der Mathematik sind. "
  • "Der Bayesianismus ist eine ordentliche und prinzipielle Philosophie, während der Frequentismus eine Sammlung opportunistischer, individuell optimaler Methoden ist."
  • "Bei Problemen mit mehreren Parametern können flache Prioren sehr schlechte Antworten liefern."
  • "[Bayes 'Regel] besagt, dass es eine einfache, elegante Möglichkeit gibt, aktuelle Informationen mit früheren Erfahrungen zu kombinieren, um festzustellen, wie viel bekannt ist. Dies impliziert, dass ausreichend gute Daten zuvor unterschiedliche Beobachter zu einer Einigung bringen. Sie nutzen die verfügbaren Informationen in vollem Umfang." Informationen, und es erzeugt Entscheidungen mit der geringstmöglichen Fehlerrate. "
  • "In der Bayes'schen Statistik geht es darum, Wahrscheinlichkeitsaussagen zu machen, in der frequentistischen Statistik geht es darum, Wahrscheinlichkeitsaussagen zu bewerten."
  • "[S] -Tatistiker werden häufig in eine Umgebung versetzt, die an das Paradoxon von Arrow erinnert, in der wir gebeten werden, informative und unvoreingenommene Schätzungen und Vertrauensaussagen bereitzustellen, die von den Daten und auch von den zugrunde liegenden wahren Parametern abhängig sind." (Dies sind widersprüchliche Anforderungen.)
  • "Formale Inferenzaspekte sind oft ein relativ kleiner Teil der statistischen Analyse."
  • "Die beiden Philosophien, Bayesian und Frequentist, sind eher orthogonal als antithetisch."
  • "Eine Hypothese, die wahr sein könnte, wird zurückgewiesen, weil es nicht gelungen ist, beobachtbare Ergebnisse vorherzusagen, die nicht aufgetreten sind. Dies scheint ein bemerkenswertes Verfahren zu sein."

Zusammenfassung

  • Die Bayes'sche Theorie hat einen mathematischen Vorteil
    • Die häufig auftretende Wahrscheinlichkeit hat Existenz- und Konsistenzprobleme
    • Es bleibt jedoch (sehr?) Schwierig, gute Prioritäten für die Anwendung der Bayes'schen Theorie zu finden
  • Beide Theorien haben beeindruckende Aufzeichnungen über eine erfolgreiche Anwendung
  • Keine der unterstützenden philosophischen Interpretationen der Wahrscheinlichkeit ist robust
  • Die Verbindung zwischen Anwendung und Philosophie wird zunehmend skeptisch
  • Einige Statistiker empfehlen eine aktive Zusammenarbeit (über einen Waffenstillstand hinaus).

Das Wahrscheinlichkeitsprinzip

Wahrscheinlichkeit ist ein Synonym für Wahrscheinlichkeit im allgemeinen Gebrauch. In Statistiken ist das nicht wahr. Eine Wahrscheinlichkeit bezieht sich auf variable Daten für eine feste Hypothese, während sich eine Wahrscheinlichkeit auf variable Hypothesen für einen festen Datensatz bezieht. Wiederholte Messungen einer festen Länge mit einem Lineal erzeugen eine Reihe von Beobachtungen. Jeder feste Satz von Beobachtungsbedingungen ist mit einer Wahrscheinlichkeitsverteilung verbunden, und jeder Satz von Beobachtungen kann als Stichprobe aus dieser Verteilung interpretiert werden - der häufigeren Sicht der Wahrscheinlichkeit. Alternativ kann eine Reihe von Beobachtungen aus der Abtastung einer beliebigen Anzahl von Verteilungen resultieren (jede ergibt sich aus einer Reihe von Beobachtungsbedingungen). Die probabilistische Beziehung zwischen einer festen Stichprobe und einer variablen Verteilung (resultierend aus einer variablen Hypothese) wird als Wahrscheinlichkeit bezeichnet - eine Bayes'sche Sicht der Wahrscheinlichkeit. Eine Reihe von Längenmessungen kann Messwerte implizieren, die von vorsichtigen, nüchternen, ausgeruhten und motivierten Beobachtern bei guter Beleuchtung vorgenommen wurden.

Eine Wahrscheinlichkeit ist eine Wahrscheinlichkeit (oder nicht) mit einem anderen Namen, die aufgrund der begrenzten häufig vorkommenden Definition der Wahrscheinlichkeit existiert. Likelihood ist ein Konzept, das Fisher seit mehr als 40 Jahren eingeführt und weiterentwickelt hat (obwohl frühere Verweise auf das Konzept existieren und die Unterstützung von Fisher halbherzig war). Das Konzept wurde von Jeffreys akzeptiert und grundlegend geändert . 1962 "bewies" Birnbaum das Wahrscheinlichkeitsprinzip aus Räumlichkeiten, die für die meisten Statistiker akzeptabel waren. Der "Beweis" wurde von Statistikern und Philosophen bestritten. Das Prinzip besagt, dass alle Informationen in einer Stichprobe in der Wahrscheinlichkeitsfunktion enthalten sind , die von Bayesianern (aber nicht von Frequentisten) als gültige Wahrscheinlichkeitsverteilung akzeptiert wird.

Einige (häufig auftretende) Signifikanztests stimmen nicht mit dem Wahrscheinlichkeitsprinzip überein. Die Bayesianer akzeptieren das Prinzip, das mit ihrer Philosophie übereinstimmt (möglicherweise gefördert durch das Unbehagen der Frequentisten). "[D] Der Likelihood-Ansatz ist mit der Bayes'schen statistischen Inferenz in dem Sinne kompatibel, dass die hintere Bayes-Verteilung für einen Parameter nach dem Bayes-Theorem durch Multiplikation der vorherigen Verteilung mit der Likelihood-Funktion ermittelt wird." Frequentisten interpretieren das Prinzip nachteilig für Bayesianer so, dass es keine Bedenken hinsichtlich der Zuverlässigkeit von Beweisen impliziert. "Das Wahrscheinlichkeitsprinzip der Bayes'schen Statistik impliziert, dass Informationen über den Versuchsaufbau, aus dem Beweise gesammelt werden, nicht in die statistische Analyse der Daten einfließen." Viele Bayesianer (zum Beispiel Savage) erkennen diese Implikation als Schwachstelle an.

Das Wahrscheinlichkeitsprinzip ist für beide großen philosophischen Schulen der Statistik zu einer Verlegenheit geworden; Es hat beide eher geschwächt als begünstigt. Die stärksten Befürworter behaupten, dass es eine bessere Grundlage für Statistiken bietet als jede der beiden Schulen. "[L] ikelihood sieht in der Tat sehr gut aus, wenn man es mit diesen [bayesianischen und frequentistischen] Alternativen vergleicht." Zu diesen Unterstützern zählen Statistiker und Wissenschaftsphilosophen. Während die Bayesianer die Bedeutung der Wahrscheinlichkeit für die Berechnung anerkennen, glauben sie, dass die posteriore Wahrscheinlichkeitsverteilung die richtige Grundlage für die Schlussfolgerung ist.

Modellieren

Inferenzstatistiken basieren auf statistischen Modellen . Ein Großteil der klassischen Hypothesentests basierte beispielsweise auf der angenommenen Normalität der Daten. Es wurden robuste und nichtparametrische Statistiken entwickelt, um die Abhängigkeit von dieser Annahme zu verringern. Die Bayes'sche Statistik interpretiert neue Beobachtungen aus der Perspektive des Vorwissens - unter der Annahme einer modellierten Kontinuität zwischen Vergangenheit und Gegenwart. Die Versuchsplanung setzt voraus, dass einige Kenntnisse über diese Faktoren kontrolliert, variiert, randomisiert und beobachtet werden. Statistiker sind sich der Schwierigkeiten beim Nachweis der Kausalität bewusst (eher eine Modellierungsbeschränkung als eine mathematische) und sagen: " Korrelation bedeutet keine Kausalität ".

Bei komplexeren Statistiken werden komplexere Modelle verwendet, häufig mit der Absicht, eine latente Struktur zu finden, die einer Reihe von Variablen zugrunde liegt. Mit zunehmender Komplexität von Modellen und Datensätzen wurden grundlegende Fragen zur Rechtfertigung der Modelle und zur Gültigkeit der daraus gezogenen Schlussfolgerungen aufgeworfen. Das Spektrum widersprüchlicher Meinungen zur Modellierung ist groß.

  • Modelle können auf wissenschaftlicher Theorie oder auf Ad-hoc-Datenanalyse basieren. Die Ansätze verwenden unterschiedliche Methoden. Es gibt Befürworter von jedem.
  • Modellkomplexität ist ein Kompromiss. Das Akaikean-Informationskriterium und das Bayesian-Informationskriterium sind zwei weniger subjektive Ansätze, um diesen Kompromiss zu erreichen.
  • Grundlegende Vorbehalte wurden sogar gegenüber einfachen Regressionsmodellen geäußert , die in den Sozialwissenschaften verwendet werden. Eine lange Liste von Annahmen, die der Gültigkeit eines Modells inhärent sind, wird normalerweise weder erwähnt noch überprüft. Ein günstiger Vergleich zwischen Beobachtungen und Modell wird oft als ausreichend angesehen.
  • Die Bayes'sche Statistik konzentriert sich so stark auf die posteriore Wahrscheinlichkeit, dass sie den grundlegenden Vergleich von Beobachtungen und Modell ignoriert.
  • Herkömmliche beobachtungsbasierte Modelle reichen nicht aus, um viele wichtige Probleme zu lösen. Ein viel breiterer Bereich von Modellen, einschließlich algorithmischer Modelle, muss verwendet werden. "Wenn das Modell eine schlechte Nachahmung der Natur ist, können die Schlussfolgerungen falsch sein."
  • Die Modellierung wird oft schlecht durchgeführt (die falschen Methoden werden verwendet) und schlecht berichtet.

In Ermangelung eines starken philosophischen Konsenses über die statistische Modellierung akzeptieren viele Statistiker die warnenden Worte des Statistikers George Box : " Alle Modelle sind falsch , aber einige sind nützlich. "

Andere Lesart

Für eine kurze Einführung in die Grundlagen der Statistik siehe Stuart, A.; Ord, JK (1994). "Kap. 8 - Wahrscheinlichkeit und statistische Folgerung". Kendalls fortgeschrittene Theorie der Statistik . Vol. I: Verteilungstheorie (6. Aufl.). Edward Arnold.

In seinem Buch Statistik als Principled Argument , Robert P. Abelson artikuliert die Position , dass die Statistiken dienen als standardisiertes Mittel von Streitigkeiten zwischen Wissenschaftlern Einschwingzeit , die sonst jeder der Vorzüge ihrer eigenen Positionen argumentieren könnte ad infinitum . Unter diesem Gesichtspunkt ist Statistik eine Form der Rhetorik; Wie bei allen Mitteln zur Beilegung von Streitigkeiten können statistische Methoden nur dann erfolgreich sein, wenn sich alle Parteien auf den verwendeten Ansatz einigen.

Siehe auch

Fußnoten

Zitate

Verweise

Weiterführende Literatur

Externe Links