Schätzungsstatistiken - Estimation statistics

Schätzungsstatistiken oder einfach Schätzungen sind ein Datenanalyse-Framework, das eine Kombination aus Effektstärken , Konfidenzintervallen , Präzisionsplanung und Metaanalyse verwendet , um Experimente zu planen, Daten zu analysieren und Ergebnisse zu interpretieren. Es unterscheidet sich vom Nullhypothesen-Signifikanztest (NHST), der als weniger aussagekräftig erachtet wird. Schätzungsstatistik ist auch als neue Statistik in den Bereichen Psychologie , medizinische Forschung , Biowissenschaften und andere experimentelle Wissenschaften bekannt, in denen NHST trotz gegenteiliger Empfehlungen seit mehreren Jahrzehnten immer noch weit verbreitet ist.

Das primäre Ziel von Schätzmethoden besteht darin, eine Effektstärke (eine Punktschätzung ) zusammen mit ihrem Konfidenzintervall anzugeben , wobei letzteres mit der Präzision der Schätzung zusammenhängt. Das Konfidenzintervall fasst eine Reihe wahrscheinlicher Werte des zugrunde liegenden Populationseffekts zusammen. Befürworter der Schätzung sehen die Angabe eines P- Werts als wenig hilfreiche Ablenkung von der wichtigen Aufgabe, eine Effektgröße mit ihren Konfidenzintervallen anzugeben, und glauben, dass Schätzungen Signifikanztests für die Datenanalyse ersetzen sollten. Dies ist jedoch irreführend, da p-Werte und Konfidenzintervalle zwei Seiten derselben Medaille sind und dieselbe Art von Informationen liefern.

Geschichte

Ab 1929 veröffentlichte der Physiker Raymond Thayer Birge Übersichtsartikel, in denen er gewichtete Mittelwerte zur Berechnung von Schätzungen physikalischer Konstanten verwendete, ein Verfahren, das als Vorläufer der modernen Metaanalyse angesehen werden kann .

In den 1960er Jahren wurde die Schätzstatistik von den nichtphysikalischen Wissenschaften mit der Entwicklung der standardisierten Effektgröße durch Jacob Cohen übernommen .

In den 1970er Jahren wurde die moderne Forschungssynthese von Gene V. Glass mit der ersten systematischen Überprüfung und Metaanalyse für die Psychotherapie vorangetrieben . Diese Pionierarbeit beeinflusste in der Folge die Annahme von Metaanalysen für medizinische Behandlungen im Allgemeinen.

In den 1980er und 1990er Jahren wurden Schätzmethoden von Biostatistikern wie Larry Hedges , Michael Borenstein, Doug Altman , Martin Gardner und vielen anderen mit der Entwicklung der modernen (medizinischen) Metaanalyse erweitert und verfeinert .

Ab den 1980er Jahren wurde die systematische Überprüfung in Verbindung mit der Metaanalyse zu einer weit verbreiteten Methode in der medizinischen Forschung. Es gibt über 200.000 Zitate zu "Meta-Analyse" in PubMed .

In den 1990er Jahren verbot der Herausgeber Kenneth Rothman die Verwendung von p-Werten aus der Zeitschrift Epidemiology ; Die Übereinstimmung war unter den Autoren hoch, aber dies änderte ihr analytisches Denken nicht wesentlich.

In den 2010er Jahren veröffentlichte Geoff Cumming ein Lehrbuch, das sich der Schätzungsstatistik widmet, zusammen mit einer Software in Excel, die hauptsächlich Psychologen das Denken in Effektgröße beibringen soll. Auch in den 2010er Jahren wurden Schätzmethoden zunehmend in die Neurowissenschaften übernommen.

Im Jahr 2013 empfahl das Publikationshandbuch der American Psychological Association Schätzungen statt Hypothesentests. Ebenfalls 2013 gab das Dokument Uniform Requirements for Manuscripts Submitted to Biomedical Journals eine ähnliche Empfehlung: "Vermeiden Sie sich ausschließlich auf statistische Hypothesentests wie P-Werte, die keine wichtigen Informationen über die Effektstärke liefern."

Im Jahr 2019 hat das Journal der Society for Neuroscience eNeuro eine Richtlinie eingeführt, die die Verwendung von Schätzgrafiken als bevorzugte Methode für die Datenpräsentation empfiehlt.

Trotz der weit verbreiteten Annahme von Metaanalysen für die klinische Forschung und der Empfehlungen mehrerer großer Verlagsinstitute wird der Schätzrahmen in der biomedizinischen Primärforschung nicht routinemäßig verwendet.

Methodik

Viele Signifikanztests haben ein Gegenstück zur Schätzung; in fast allen Fällen kann das Testergebnis (oder sein p-Wert ) einfach durch die Effektstärke und eine Präzisionsschätzung ersetzt werden. Anstatt beispielsweise den Student-t-Test zu verwenden , kann der Analytiker zwei unabhängige Gruppen vergleichen, indem er die mittlere Differenz und ihr 95-%- Konfidenzintervall berechnet . Entsprechende Verfahren können für einen gepaarten t-Test und Mehrfachvergleiche verwendet werden. In ähnlicher Weise würde ein Analytiker bei einer Regressionsanalyse anstelle des p-Werts des Modells das Bestimmtheitsmaß (R 2 ) und die Modellgleichung angeben.

Befürworter von Schätzstatistiken warnen jedoch davor, nur wenige Zahlen anzugeben. Vielmehr empfiehlt es sich, Daten mittels Datenvisualisierung zu analysieren und darzustellen. Beispiele geeigneter Visualisierungen sind das Streudiagramm für die Regression und Gardner-Altman-Diagramme für zwei unabhängige Gruppen. Während historische Datengruppendiagramme (Balkendiagramme, Boxdiagramme und Violindiagramme) den Vergleich nicht anzeigen, fügen Schätzdiagramme eine zweite Achse hinzu, um die Effektstärke explizit zu visualisieren.

Das Gardner-Altman-Plot. Links: Ein herkömmliches Balkendiagramm mit Sternchen, um zu zeigen, dass der Unterschied „statistisch signifikant“ ist. Rechts: Ein Gardner-Altman-Diagramm, das alle Datenpunkte zusammen mit der mittleren Differenz und ihren Konfidenzintervallen zeigt.

Gardner-Altman-Plot

Das Gardner-Altman-Mittelwertdifferenzdiagramm wurde erstmals 1986 von Martin Gardner und Doug Altman beschrieben ; Es ist ein statistischer Graph, der Daten von zwei unabhängigen Gruppen anzeigt. Es gibt auch eine für gepaarte Daten geeignete Version . Die wichtigsten Anweisungen zur Erstellung dieses Diagramms sind wie folgt: (1) alle beobachteten Werte für beide Gruppen nebeneinander anzeigen; (2) Platzieren einer zweiten Achse auf der rechten Seite, verschoben, um die mittlere Differenzskala anzuzeigen; und (3) Plotten der mittleren Differenz mit ihrem Konfidenzintervall als Marker mit Fehlerbalken. Gardner-Altman-Plots können mit DABEST-Python oder dabestr erzeugt werden ; Alternativ kann der Analyst eine GUI-Software wie die App Estimation Stats verwenden .

Der Cumming-Plot. Ein Cumming-Diagramm, wie es von der EstimationStats-Webanwendung gerendert wird . Im oberen Bereich werden alle beobachteten Werte angezeigt. Die Effektstärken, die Stichprobenverteilung und die 95-%-Konfidenzintervalle werden auf einer separaten Achse unter den Rohdaten aufgetragen. Für jede Gruppe werden zusammenfassende Messungen (Mittelwert ± Standardabweichung) als Linien mit Lücken gezeichnet.

Cumming-Plot

Für mehrere Gruppen führte Geoff Cumming die Verwendung eines sekundären Panels ein, um zwei oder mehr Mittelwertdifferenzen und ihre Konfidenzintervalle darzustellen, die unterhalb des Panels der beobachteten Werte platziert wurden. Diese Anordnung ermöglicht einen einfachen Vergleich von Mittelwertdifferenzen ('Deltas') über mehrere Datengruppierungen. Cumming-Plots können mit dem ESCI-Paket , DABEST oder der App Estimation Stats erstellt werden .

Andere Methoden

Neben der mittleren Differenz gibt es zahlreiche andere Effektstärkentypen , die alle einen relativen Nutzen haben. Zu den wichtigsten Typen gehören Effektstärken in der Cohen- d- Klasse standardisierter Metriken und das Bestimmtheitsmaß (R 2 ) für die Regressionsanalyse . Für Nicht-Normalverteilungen gibt es eine Reihe robusterer Effektstärken , darunter das Cliff-Delta und die Kolmogorov-Smirnov-Statistik .

Fehler beim Hypothesentest

Beim Hypothesentesten besteht das Hauptziel statistischer Berechnungen darin, einen p-Wert zu erhalten , die Wahrscheinlichkeit, ein erhaltenes Ergebnis oder ein extremeres Ergebnis zu sehen, wenn die Nullhypothese wahr ist. Wenn der p-Wert niedrig ist (normalerweise < 0,05), wird der Statistiker dann ermutigt, die Nullhypothese abzulehnen. Befürworter der Schätzung lehnen die Gültigkeit von Hypothesentests unter anderem aus folgenden Gründen ab:

  • P-Werte werden leicht und häufig falsch interpretiert. Zum Beispiel wird der p-Wert oft fälschlicherweise als „die Wahrscheinlichkeit, dass die Nullhypothese wahr ist“ angesehen.
  • Die Nullhypothese ist für alle Beobachtungen immer falsch: Es gibt immer einen Effekt, auch wenn er winzig ist.
  • Das Testen von Hypothesen erzeugt willkürlich dichotome Ja-Nein-Antworten, während wichtige Informationen über die Größenordnung verworfen werden.
  • Jeder bestimmte p-Wert entsteht durch das Zusammenspiel von Effektgröße , Stichprobengröße (bei gleichen Bedingungen ergibt eine größere Stichprobe einen kleineren p-Wert) und Stichprobenfehler.
  • Bei niedriger Leistung zeigt die Simulation, dass der Abtastfehler die p-Werte extrem volatil macht.

Vorteile von Schätzstatistiken

Vorteile von Konfidenzintervallen

Konfidenzintervalle verhalten sich vorhersehbar. Per Definition haben 95 %-Konfidenzintervalle eine Chance von 95 %, den zugrunde liegenden Populationsmittelwert (μ) abzudecken. Dieses Merkmal bleibt mit zunehmender Stichprobengröße konstant; was sich ändert ist, dass das Intervall kleiner wird. Darüber hinaus sind 95 %-Konfidenzintervalle auch 83 %-Vorhersageintervalle: Ein (vorexperimentelles) Konfidenzintervall hat eine Wahrscheinlichkeit von 83 %, den Mittelwert eines zukünftigen Experiments abzudecken. Die Kenntnis der 95-%-Konfidenzintervalle eines einzelnen Experiments gibt dem Analytiker daher einen angemessenen Bereich für den Mittelwert der Grundgesamtheit. Dennoch liefern Konfidenzverteilungen und Posterior-Verteilungen viel mehr Informationen als eine Einzelpunktschätzung oder Intervalle, die dichotomes Denken verschärfen können, je nachdem, ob das Intervall einen interessierenden "Null"-Wert abdeckt oder nicht abdeckt (dh das induktive Verhalten von Neyman im Gegensatz dazu). zu Fischer).

Evidenzbasierte Statistiken

Psychologische Studien zur Wahrnehmung von Statistiken zeigen, dass die Angabe von Intervallschätzungen eine genauere Wahrnehmung der Daten ermöglicht als die Angabe von p-Werten.

Präzise Planung

Die Genauigkeit einer Schätzung wird formal als 1/ Varianz definiert , und wie die Power steigt (verbessert) sich mit zunehmender Stichprobengröße. Genau wie Leistung ist auch ein hohes Maß an Präzision teuer; Anträge auf Forschungsstipendien würden idealerweise Präzisions-/Kostenanalysen beinhalten. Befürworter der Schätzung glauben, dass Präzisionsplanung die Power ersetzen sollte, da die statistische Power selbst konzeptionell mit Signifikanztests verbunden ist. Eine präzise Planung kann mit der ESCI Web-App erfolgen .

Siehe auch

Verweise