Korrelationskoeffizient nach Pearson - Pearson correlation coefficient

In Statistiken , der Pearson - Korrelationskoeffizient ( PCC , ausgesprochen / p ɪər s ən / ) - auch bekannt als Pearson- r , die Pearson Produkt-Moment - Korrelationskoeffizienten ( PPMCC ), die bivariate Korrelation oder umgangssprachlich einfach als die Korrelationskoeffizient - ist ein Maß für die lineare Korrelation zwischen zwei Datensätzen. Es ist das Verhältnis zwischen der Kovarianz zweier Variablen und dem Produkt ihrer Standardabweichungen ; es handelt sich also im Wesentlichen um eine normierte Messung der Kovarianz, sodass das Ergebnis immer einen Wert zwischen -1 und 1 hat. Wie bei der Kovarianz selbst kann die Messung nur eine lineare Korrelation von Variablen widerspiegeln und ignoriert viele andere Arten von Beziehungen oder Korrelationen . Als einfaches Beispiel würde man erwarten, dass das Alter und die Größe einer Stichprobe von Teenagern aus einer High School einen Pearson-Korrelationskoeffizienten aufweisen, der signifikant größer als 0, aber kleiner als 1 ist (da 1 eine unrealistisch perfekte Korrelation darstellen würde).

Beispiele für Streudiagramme mit unterschiedlichen Werten des Korrelationskoeffizienten ( ρ )
Mehrere Sätze von ( xy ) Punkten mit dem Korrelationskoeffizienten von x und y für jeden Satz. Beachten Sie, dass die Korrelation die Stärke und Richtung einer linearen Beziehung widerspiegelt (obere Reihe), aber nicht die Steigung dieser Beziehung (Mitte) noch viele Aspekte nichtlinearer Beziehungen (unten). Hinweis: Die Zahl in der Mitte hat eine Steigung von 0, aber in diesem Fall ist der Korrelationskoeffizient undefiniert, da die Varianz von Y Null ist.

Namensgebung und Geschichte

Es wurde von Karl Pearson aus einer verwandten Idee entwickelt, die von Francis Galton in den 1880er Jahren eingeführt wurde und für die die mathematische Formel 1844 von Auguste Bravais abgeleitet und veröffentlicht wurde. Die Benennung des Koeffizienten ist somit ein Beispiel für das Stiglersche Gesetz .

Definition

Der Korrelationskoeffizient nach Pearson ist die Kovarianz der beiden Variablen geteilt durch das Produkt ihrer Standardabweichungen. Die Form der Definition beinhaltet ein "Produktmoment", dh den Mittelwert (das erste Moment über den Ursprung) des Produkts der mittelwertbereinigten Zufallsvariablen; daher der Modifikator product-moment im Namen.

Für eine Bevölkerung

Der Korrelationskoeffizient von Pearson, wenn er auf eine Population angewendet wird , wird üblicherweise durch den griechischen Buchstaben ρ (rho) dargestellt und kann als Populations-Korrelationskoeffizient oder als Populations-Pearson-Korrelationskoeffizient bezeichnet werden . Bei einem Paar von Zufallsvariablen lautet die Formel für ρ :

 

 

 

 

( Gl.1 )

wo:

ist die Kovarianz
ist die Standardabweichung von
ist die Standardabweichung von

Die Formel für kann als Mittelwert und Erwartung ausgedrückt werden. Schon seit

die Formel für kann auch geschrieben werden als

 

 

 

 

( Gl.2 )

wo:

und sind wie oben definiert
ist der Mittelwert von
ist der Mittelwert von
ist die Erwartung .

Die Formel für kann in Form von nicht zentrierten Momenten ausgedrückt werden. Schon seit

die Formel für kann auch geschrieben werden als

Für eine Probe

Der Korrelationskoeffizient nach Pearson wird, wenn er auf eine Probe angewendet wird , im Allgemeinen durch den Korrelationskoeffizienten der Probe oder der Korrelationskoeffizient nach Pearson dargestellt und kann als dieser bezeichnet werden . Wir können eine Formel dafür erhalten, indem wir Schätzungen der Kovarianzen und Varianzen basierend auf einer Stichprobe in die obige Formel einsetzen. Gegebene gepaarte Daten, die aus Paaren bestehen, sind definiert als:

 

 

 

 

( Gl.3 )

wo:

ist Stichprobengröße
sind die einzelnen Abtastpunkte mit i . indiziert
(der Stichprobenmittelwert); und analog für

Die Umordnung gibt uns diese Formel für :

wo sind wie oben definiert.

Diese Formel schlägt einen bequemen Single-Pass-Algorithmus zum Berechnen von Stichprobenkorrelationen vor, obwohl er je nach den beteiligten Zahlen manchmal numerisch instabil sein kann .

Durch erneutes Anordnen erhalten wir diese Formel für :

wo sind wie oben definiert.

Ein äquivalenter Ausdruck ergibt die Formel für als Mittelwert der Produkte der Standardwerte wie folgt:

wo:

sind wie oben definiert und unten definiert
ist die Standardnote (und analog für die Standardnote von )

Alternative Formeln für sind ebenfalls verfügbar. Zum Beispiel. man kann die folgende Formel verwenden für :

wo:

sind wie oben definiert und:
(die Standardabweichung der Stichprobe); und analog für

Praktische Fragen

Unter starken Rauschbedingungen ist das Extrahieren des Korrelationskoeffizienten zwischen zwei Sätzen stochastischer Variablen nicht trivial, insbesondere wenn die kanonische Korrelationsanalyse aufgrund der starken Rauschbeiträge verschlechterte Korrelationswerte meldet. Eine Verallgemeinerung des Ansatzes wird an anderer Stelle gegeben.

Bei fehlenden Daten leitete Garren den Maximum-Likelihood- Schätzer ab.

Mathematische Eigenschaften

Die absoluten Werte der Pearson-Korrelationskoeffizienten sowohl der Stichprobe als auch der Grundgesamtheit liegen auf oder zwischen 0 und 1. Korrelationen gleich +1 oder –1 entsprechen Datenpunkten, die genau auf einer Linie liegen (im Fall der Stichprobenkorrelation) oder a bivariate Verteilung, die vollständig auf einer Linie unterstützt wird (im Fall der Populationskorrelation). Der Korrelationskoeffizient nach Pearson ist symmetrisch: corr( X , Y ) = corr( Y , X ).

Eine mathematische Schlüsseleigenschaft des Pearson-Korrelationskoeffizienten besteht darin, dass er invariant bei getrennten Änderungen der Position und des Maßstabs in den beiden Variablen ist. Das heißt, wir können X in a  +  bX transformieren und Y in c  +  dY transformieren , wobei a , b , c und d Konstanten mit b , d > 0 sind , ohne den Korrelationskoeffizienten zu ändern. (Dies gilt sowohl für die Pearson-Korrelationskoeffizienten der Grundgesamtheit als auch der Stichprobe.) Beachten Sie, dass allgemeinere lineare Transformationen die Korrelation ändern: siehe § Dekorrelation von n Zufallsvariablen für eine Anwendung davon.

Interpretation

Der Korrelationskoeffizient reicht von -1 bis 1. Ein Absolutwert von genau 1 bedeutet, dass eine lineare Gleichung die Beziehung zwischen X und Y perfekt beschreibt, wobei alle Datenpunkte auf einer Linie liegen . Das Korrelationszeichen wird durch die Regressionssteigung bestimmt : Ein Wert von +1 impliziert, dass alle Datenpunkte auf einer Linie liegen, bei der Y mit zunehmendem X zunimmt, und umgekehrt bei -1. Ein Wert von 0 bedeutet, dass keine lineare Abhängigkeit zwischen den Variablen besteht.

Allgemeiner ist zu beachten, dass ( X i  −  X )( Y i  −  Y ) genau dann positiv ist, wenn X i und Y i auf derselben Seite ihrer jeweiligen Mittelwerte liegen. Somit ist der Korrelationskoeffizient positiv, wenn X i und Y i dazu neigen, gleichzeitig größer oder gleichzeitig kleiner als ihre jeweiligen Mittelwerte zu sein. Der Korrelationskoeffizient ist negativ ( Antikorrelation ), wenn X i und Y i dazu neigen, auf gegenüberliegenden Seiten ihrer jeweiligen Mittelwerte zu liegen. Darüber hinaus ist der Absolutwert des Korrelationskoeffizienten umso größer, je stärker eine der beiden Tendenzen ist .

Rodgers und Nicewander katalogisierten dreizehn Arten, Korrelationen oder einfache Funktionen davon zu interpretieren:

  • Funktion der Rohwerte und Mittelwerte
  • Standardisierte Kovarianz
  • Standardisierte Steigung der Regressionsgeraden
  • Geometrisches Mittel der beiden Regressionssteigungen
  • Quadratwurzel des Verhältnisses zweier Varianzen
  • Mittleres Kreuzprodukt standardisierter Variablen
  • Funktion des Winkels zwischen zwei standardisierten Regressionsgeraden
  • Funktion des Winkels zwischen zwei variablen Vektoren
  • Reskalierte Varianz der Differenz zwischen standardisierten Scores
  • Geschätzt aus der Ballonregel
  • Bezogen auf die bivariaten Ellipsen der Isokonzentration
  • Funktion von Teststatistiken aus entworfenen Experimenten
  • Verhältnis zweier Mittel

Geometrische Interpretation

Regressionsgeraden für y = g X ( x ) [ rot ] und x = g Y ( y ) [ blau ]

Bei nicht zentrierten Daten besteht eine Beziehung zwischen dem Korrelationskoeffizienten und dem Winkel φ zwischen den beiden Regressionsgeraden, y = g X ( x ) und x = g Y ( y ) , erhalten durch Regression von y auf x bzw. x auf y . (Hier wird φ im ersten Quadranten, der um den Schnittpunkt der Linien gebildet wird, gegen den Uhrzeigersinn gemessen, wenn r > 0 , oder gegen den Uhrzeigersinn vom vierten zum zweiten Quadranten, wenn r < 0 .) Man kann zeigen, dass, wenn die Standardabweichungen gleich sind, r = sec φ − tan φ , wobei sec und tan trigonometrische Funktionen sind .

Für zentrierte Daten (dh Daten, die durch die Stichprobenmittelwerte ihrer jeweiligen Variablen verschoben wurden, um einen Durchschnitt von Null für jede Variable zu haben) kann der Korrelationskoeffizient auch als der Kosinus des Winkels θ zwischen den beiden beobachteten . betrachtet werden Vektoren im N- dimensionalen Raum (für N Beobachtungen jeder Variablen)

Für einen Datensatz können sowohl der unzentrierte (nicht Pearson-konforme) als auch der zentrierte Korrelationskoeffizient bestimmt werden. Nehmen wir als Beispiel an, dass fünf Länder ein Bruttosozialprodukt von 1, 2, 3, 5 bzw. 8 Milliarden Dollar haben. Angenommen, diese fünf Länder (in derselben Reihenfolge) weisen 11 %, 12 %, 13 %, 15 % und 18 % Armut auf. Dann seien x und y geordnete 5-Element-Vektoren, die die obigen Daten enthalten: x = (1, 2, 3, 5, 8) und y = (0,11, 0,12, 0,13, 0,15, 0,18) .

Nach dem üblichen Verfahren zur Bestimmung des Winkels θ zwischen zwei Vektoren (siehe Punktprodukt ) ist der unzentrierte Korrelationskoeffizient:

Dieser unzentrierten Korrelationskoeffizient ist identisch mit der Cosinus - Ähnlichkeit . Beachten Sie, dass die obigen Daten bewusst so gewählt wurden, dass sie perfekt korreliert sind: y = 0,10 + 0,01 x . Der Korrelationskoeffizient nach Pearson muss daher genau eins sein. Zentrieren der Daten (Verschieben von x um ℰ( x ) = 3.8 und y um ℰ( y ) = 0.138 ) ergibt x = (−2.8, −1.8, −0.8, 1.2, 4.2) und y = (−0.028, −0.018, −0,008, 0,012, 0,042) , davon

wie erwartet.

Interpretation der Größe einer Korrelation

Diese Abbildung gibt einen Eindruck davon, wie die Nützlichkeit einer Pearson-Korrelation für die Vorhersage von Werten mit ihrer Größe variiert. Gegeben gemeinsam normalen X , Y mit Korrelation ρ , (hier als eine Funktion der geplottet ρ ) ist der Faktor , um den ein gegebener Prädiktionsintervall für Y reduziert werden , kann der entsprechende Wert von gegebenen X . Wenn beispielsweise ρ = 0,5, dann ist das 95%-Vorhersageintervall von Y | X wird etwa 13% kleiner als das 95% Vorhersageintervall sein , Y .

Mehrere Autoren haben Leitlinien für die Interpretation eines Korrelationskoeffizienten angeboten. Alle diese Kriterien sind jedoch in gewisser Weise willkürlich. Die Interpretation eines Korrelationskoeffizienten hängt vom Kontext und Zweck ab. Eine Korrelation von 0,8 kann sehr gering sein, wenn man ein physikalisches Gesetz mit hochwertigen Instrumenten verifiziert, kann aber in den Sozialwissenschaften als sehr hoch angesehen werden, wo komplizierende Faktoren einen größeren Beitrag leisten können.

Inferenz

Statistische Inferenz basierend auf dem Korrelationskoeffizienten von Pearson konzentriert sich oft auf eines der folgenden zwei Ziele:

  • Ein Ziel besteht darin, die Nullhypothese zu testen , dass der wahre Korrelationskoeffizient ρ gleich 0 ist, basierend auf dem Wert des Stichprobenkorrelationskoeffizienten r .
  • Das andere Ziel besteht darin, ein Konfidenzintervall abzuleiten , das bei wiederholter Abtastung eine gegebene Wahrscheinlichkeit hat, ρ zu enthalten .

Im Folgenden diskutieren wir Methoden, um eines oder beide dieser Ziele zu erreichen.

Permutationstest verwenden

Permutationstests bieten einen direkten Ansatz zur Durchführung von Hypothesentests und zur Konstruktion von Konfidenzintervallen. Ein Permutationstest für den Korrelationskoeffizienten nach Pearson umfasst die folgenden zwei Schritte:

  1. Unter Verwendung der ursprünglichen gepaarten Daten ( x iy i ) definieren Sie die Paare zufällig neu, um einen neuen Datensatz ( x iy i′ ) zu erstellen , wobei die i′ eine Permutation der Menge {1,..., n . sind }. Die Permutation i′ wird zufällig ausgewählt, wobei auf alle n ! mögliche Verwandlungen. Dies ist äquivalent zum zufälligen Ziehen des i′ ohne Ersetzung aus der Menge {1, ..., n }. Beim Bootstrapping , einem eng verwandten Ansatz, sind das i und das i′ gleich und werden mit Ersetzung von {1, ..., n } gezeichnet ;
  2. Konstruieren Sie einen Korrelationskoeffizienten r aus den randomisierten Daten.

Um den Permutationstest durchzuführen, wiederholen Sie die Schritte (1) und (2) viele Male. Der p-Wert für den Permutationstest ist der Anteil der in Schritt (2) erzeugten r- Werte, die größer sind als der aus den Originaldaten berechnete Pearson-Korrelationskoeffizient. Hier kann "größer" entweder bedeuten, dass der Wert betragsmäßig größer ist, oder größer im Vorzeichenwert, je nachdem, ob ein zweiseitiger oder einseitiger Test gewünscht wird.

Verwenden eines Bootstrap

Der Bootstrap kann verwendet werden, um Konfidenzintervalle für den Korrelationskoeffizienten nach Pearson zu konstruieren. In dem „nicht-parametrischen“ bootstrap, n - Paare ( x iy i ) sind neu abgetastete „mit replacement“ aus dem beobachteten Satz von n Paaren, und der Korrelationskoeffizient r wird auf die neu abgetasteten Daten berechnet. Dieser Prozess ist eine große Anzahl von Malen wiederholt, und die empirische Verteilung des neu abgetasteten R - Wertes verwendet werden , um die approximieren Stichprobenverteilung der Statistik. Ein 95-%- Konfidenzintervall für ρ kann als das Intervall definiert werden, das sich vom 2,5. bis zum 97,5. Perzentil der neu abgetasteten r- Werte erstreckt.

Testen mit Student's t -Verteilung

Kritische Werte des Korrelationskoeffizienten nach Pearson, die überschritten werden müssen, um auf dem Niveau von 0,05 als signifikant ungleich Null angesehen zu werden.

Für Paare von einer unkorrelierten bivariate Normalverteilung , die Stichprobenverteilung einer bestimmten Funktion des Korrelationskoeffizienten nach Pearson folgt Student - t - Verteilung mit Freiheitsgraden n  - 2. Insbesondere dann , wenn die zugrundeliegenden Variablen eine bivariate Normalverteilung aufweisen, die Variable

hat eine Student- t- Verteilung im Nullfall (Nullkorrelation). Dies gilt ungefähr bei nicht-normalen beobachteten Werten, wenn die Stichprobengrößen groß genug sind. Zur Bestimmung der kritischen Werte für r wird die Umkehrfunktion benötigt:

Alternativ können asymptotische Ansätze mit großen Stichproben verwendet werden.

Ein weiteres frühes Papier stellt Grafiken und Tabellen für allgemeine Werte von ρ für kleine Stichprobengrößen bereit und diskutiert rechnerische Ansätze.

Falls die zugrunde liegenden Variablen nicht normal sind, folgt die Stichprobenverteilung des Korrelationskoeffizienten nach Pearson einer Student- t- Verteilung , aber die Freiheitsgrade sind reduziert.

Verwenden der genauen Verteilung

Für Daten , die einer bivariaten Normalverteilung folgen , ist die exakte Dichtefunktion f ( r ) für den Stichprobenkorrelationskoeffizienten r einer normalen bivariaten

wo ist die Gammafunktion und ist die Gaußsche hypergeometrische Funktion .

Im Sonderfall when kann die exakte Dichtefunktion f ( r ) geschrieben werden als:

wo ist die Beta-Funktion , die eine Möglichkeit ist, die Dichte einer Student-t-Verteilung wie oben zu schreiben.

Verwenden der genauen Konfidenzverteilung

Konfidenzintervalle und Tests können aus einer Konfidenzverteilung berechnet werden . Eine exakte Konfidenzdichte für ρ ist

wo ist die Gaußsche hypergeometrische Funktion und .

Verwenden der Fisher-Transformation

In der Praxis werden Konfidenzintervalle und Hypothesentests bezüglich ρ üblicherweise mit der Fisher-Transformation durchgeführt , :

F ( r ) folgt näherungsweise einer Normalverteilung mit

    und Standardfehler

wobei n die Stichprobengröße ist. Der Näherungsfehler ist für eine große Stichprobengröße am geringsten und für kleine und andernfalls erhöht.

Unter Verwendung der Näherung ein z-Score ist ,

unter der Nullhypothese, dass unter der Annahme, dass die Stichprobenpaare unabhängig und identisch verteilt sind und einer bivariaten Normalverteilung folgen . Somit kann ein ungefährer p-Wert aus einer Normalwahrscheinlichkeitstabelle erhalten werden. Wenn beispielsweise z  = 2,2 beobachtet wird und ein zweiseitiger p-Wert gewünscht wird, um die Nullhypothese zu testen, ist der p-Wert 2 Φ(−2,2) = 0,028 , wobei Φ die kumulative Standardnormalverteilungsfunktion ist .

Um ein Konfidenzintervall für ρ zu erhalten, berechnen wir zunächst ein Konfidenzintervall für F ( ):

Die inverse Fisher-Transformation bringt das Intervall zurück auf die Korrelationsskala.

Nehmen wir zum Beispiel an, wir beobachten r  = 0,3 mit einer Stichprobengröße von n = 50 und möchten ein 95%-Konfidenzintervall für ρ erhalten. Der transformierte Wert ist arctanh( r ) = 0,30952, sodass das Konfidenzintervall auf der transformierten Skala 0,30952 ± 1,96/ 47 oder (0,023624, 0,595415) beträgt. Die Rückrechnung auf die Korrelationsskala ergibt (0,024, 0,534).

Regressionsanalyse nach der Methode der kleinsten Quadrate

Das Quadrat des Stichprobenkorrelationskoeffizienten wird typischerweise mit r 2 bezeichnet und ist ein Spezialfall des Bestimmtheitsmaßes . In diesem Fall schätzt es den Bruchteil der Varianz in Y , der durch X in einer einfachen linearen Regression erklärt wird . Wenn wir also den beobachteten Datensatz und den angepassten Datensatz haben, dann kann als Ausgangspunkt die Gesamtvariation in Y i um ihren Mittelwert wie folgt zerlegt werden

wobei die angepassten Werte aus der Regressionsanalyse sind. Dies kann neu arrangiert werden, um zu geben

Die beiden obigen Summanden sind der Bruchteil der Varianz in Y , der durch X erklärt wird (rechts) und der durch X unerklärt ist (links).

Als nächstes wenden wir eine Eigenschaft von Regressionsmodellen der kleinsten Quadrate an, dass die Stichprobenkovarianz zwischen und null ist. Somit kann der Stichprobenkorrelationskoeffizient zwischen den beobachteten und angepassten Antwortwerten in der Regression geschrieben werden (Berechnung ist unter Erwartung, geht von Gaußscher Statistik aus)

Daher

wo

ist der Varianzanteil in Y , der durch eine lineare Funktion von X erklärt wird .

In der obigen Ableitung ist die Tatsache, dass

kann bewiesen werden, indem man feststellt, dass die partiellen Ableitungen der Residualsumme der Quadrate ( RSS ) über β 0 und β 1 im Modell der kleinsten Quadrate gleich 0 sind, wobei

.

Am Ende lässt sich die Gleichung schreiben als:

wo

Das Symbol wird als Regressionsquadratsumme, auch als erklärte Quadratsumme bezeichnet , bezeichnet und ist die Gesamtsumme der Quadrate (proportional zur Varianz der Daten).

Empfindlichkeit gegenüber der Datenverteilung

Existenz

Die Population Pearson - Korrelationskoeffizient ist , in Bezug auf den festgelegten Momente , und besteht daher für jede bivariate Wahrscheinlichkeitsverteilung für die die Bevölkerung Kovarianz definiert ist und der Ränder Varianzen definiert und ungleich Null ist. Einige Wahrscheinlichkeitsverteilungen wie die Cauchy-Verteilung haben eine undefinierte Varianz und daher ist ρ nicht definiert, wenn X oder Y einer solchen Verteilung folgt. Bei einigen praktischen Anwendungen, beispielsweise bei Daten, bei denen der Verdacht besteht, dass sie einer starken Verteilung folgen , ist dies eine wichtige Überlegung. Das Vorhandensein des Korrelationskoeffizienten ist jedoch normalerweise kein Problem; wenn beispielsweise der Bereich der Verteilung beschränkt ist, ist ρ immer definiert.

Probengröße

  • Wenn die Stichprobengröße moderat oder groß und die Grundgesamtheit normal ist, dann ist im Fall der bivariaten Normalverteilung der Stichprobenkorrelationskoeffizient die maximale Wahrscheinlichkeitsschätzung des Populationskorrelationskoeffizienten und ist asymptotisch unverzerrt und effizient , was ungefähr bedeutet: dass es unmöglich ist, einen genaueren Schätzwert als den Stichprobenkorrelationskoeffizienten zu konstruieren.
  • Wenn der Stichprobenumfang groß und die Grundgesamtheit nicht normal ist, bleibt der Korrelationskoeffizient der Stichprobe ungefähr unverzerrt, ist jedoch möglicherweise nicht effizient.
  • Wenn der Stichprobenumfang groß ist, ist der Stichprobenkorrelationskoeffizient ein konsistenter Schätzer des Populationskorrelationskoeffizienten, solange die Stichprobenmittelwerte, Varianzen und Kovarianz konsistent sind (was garantiert ist, wenn das Gesetz der großen Zahlen angewendet werden kann).
  • Wenn die Stichprobengröße klein ist, ist der Stichprobenkorrelationskoeffizient r keine unverzerrte Schätzung von ρ . Stattdessen muss der angepasste Korrelationskoeffizient verwendet werden: siehe an anderer Stelle in diesem Artikel für die Definition.
  • Korrelationen können für unausgeglichene dichotome Daten unterschiedlich sein, wenn ein Varianzfehler in der Stichprobe vorliegt.

Robustheit

Wie viele häufig verwendete Statistiken ist die Stichprobenstatistik r nicht robust , daher kann ihr Wert irreführend sein, wenn Ausreißer vorhanden sind. Insbesondere ist der PMCC weder verteilungsrobust noch ausreißerresistent (siehe Robuste Statistiken#Definition ). Die Untersuchung des Streudiagramms zwischen X und Y wird in der Regel eine Situation aufdecken, in der mangelnde Robustheit ein Problem darstellen könnte, und in solchen Fällen kann es ratsam sein, ein robustes Assoziationsmaß zu verwenden. Beachten Sie jedoch, dass die meisten robusten Assoziationsschätzer zwar die statistische Abhängigkeit in gewisser Weise messen , aber im Allgemeinen nicht auf der gleichen Skala wie der Korrelationskoeffizient nach Pearson interpretierbar sind.

Die statistische Inferenz für den Korrelationskoeffizienten nach Pearson hängt von der Datenverteilung ab. Exakte Tests und asymptotische Tests basierend auf der Fisher-Transformation können angewendet werden, wenn die Daten ungefähr normalverteilt sind, können aber ansonsten irreführend sein. In einigen Situationen kann der Bootstrap angewendet werden, um Konfidenzintervalle zu konstruieren, und Permutationstests können angewendet werden, um Hypothesentests durchzuführen. Diese nicht-parametrischen Ansätze können in einigen Situationen, in denen die bivariate Normalität nicht gilt, aussagekräftigere Ergebnisse liefern. Die Standardversionen dieser Ansätze beruhen jedoch auf der Austauschbarkeit der Daten, was bedeutet, dass es keine Anordnung oder Gruppierung der analysierten Datenpaare gibt, die das Verhalten der Korrelationsschätzung beeinflussen könnten.

Eine stratifizierte Analyse ist eine Möglichkeit, entweder einem Mangel an bivariater Normalität Rechnung zu tragen oder die Korrelation zu isolieren, die sich aus einem Faktor ergibt, während ein anderer kontrolliert wird. Wenn W die Clustermitgliedschaft oder einen anderen zu kontrollierenden Faktor darstellt, können wir die Daten basierend auf dem Wert von W schichten und dann einen Korrelationskoeffizienten innerhalb jeder Schicht berechnen. Die Schätzungen auf Schichtebene können dann kombiniert werden, um die Gesamtkorrelation zu schätzen, während W kontrolliert wird .

Varianten

Variationen des Korrelationskoeffizienten können für verschiedene Zwecke berechnet werden. Hier sind einige Beispiele.

Angepasster Korrelationskoeffizient

Der Stichprobenkorrelationskoeffizient r ist keine unverzerrte Schätzung von ρ . Für Daten, die einer bivariaten Normalverteilung folgen , ist der Erwartungswert E[ r ] für den Stichprobenkorrelationskoeffizienten r einer normalen bivariaten

daher ist r ein verzerrter Schätzer von

Der eindeutige erwartungstreue Schätzer mit minimaler Varianz r adj ist gegeben durch

 

 

 

 

( 1 )

wo:

sind wie oben definiert,
ist die Gaußsche hypergeometrische Funktion .

Ein annähernd unverzerrter Schätzer r adj kann durch Abschneiden von E[ r ] und Lösen dieser abgeschnittenen Gleichung erhalten werden:

 

 

 

 

( 2 )

Eine Näherungslösung für Gleichung ( 2 ) ist:

 

 

 

 

( 3 )

wo in ( 3 ):

sind wie oben definiert,
r adj ist ein suboptimaler Schätzer,
r adj kann auch durch Maximieren von log( f ( r )) erhalten werden,
r adj hat minimale Varianz für große Werte von n ,
r adj hat einen Bias der Ordnung 1( n − 1) .

Ein weiterer vorgeschlagener angepasster Korrelationskoeffizient ist:

Man beachte , dass r adjr für große Werte von  n .

Gewichteter Korrelationskoeffizient

Angenommen, zu korrelierende Beobachtungen haben unterschiedliche Bedeutungsgrade, die mit einem Gewichtungsvektor w ausgedrückt werden können . Um die Korrelation zwischen den Vektoren x und y mit dem Gewichtsvektor w (alle der Länge  n ) zu berechnen ,

  • Gewichteter Mittelwert:
  • Gewichtete Kovarianz
  • Gewichtete Korrelation

Reflektierender Korrelationskoeffizient

Die reflektierende Korrelation ist eine Variante der Korrelation nach Pearson, bei der die Daten nicht um ihre Mittelwerte zentriert sind. Die Populationsreflexionskorrelation ist

Die reflektive Korrelation ist symmetrisch, aber nicht invariant gegenüber Translation:

Die reflektierende Korrelation der Probe entspricht der Cosinus-Ähnlichkeit :

Die gewichtete Version der reflektiven Korrelation der Stichprobe ist

Skalierter Korrelationskoeffizient

Die skalierte Korrelation ist eine Variante der Pearson-Korrelation, bei der der Bereich der Daten absichtlich und kontrolliert eingeschränkt wird, um Korrelationen zwischen schnellen Komponenten in Zeitreihen aufzudecken. Die skalierte Korrelation wird als durchschnittliche Korrelation über kurze Datensegmente definiert.

Sei die Anzahl der Segmente, die bei einer gegebenen Skala in die Gesamtlänge des Signals passen :

Die skalierte Korrelation über die gesamten Signale wird dann berechnet als

wobei der Korrelationskoeffizient nach Pearson für das Segment ist .

Durch die Wahl des Parameters wird der Wertebereich verkleinert und die Korrelationen auf langen Zeitskalen herausgefiltert, wobei nur die Korrelationen auf kurzen Zeitskalen sichtbar werden. Somit werden die Beiträge der langsamen Komponenten entfernt und die der schnellen Komponenten beibehalten.

Pearsons Distanz

Eine Distanzmetrik für zwei Variablen X und Y, die als Pearson-Distanz bekannt ist, kann aus ihrem Korrelationskoeffizienten definiert werden als

Da der Korrelationskoeffizient nach Pearson zwischen [−1, +1] liegt, liegt der Pearson-Abstand in [0, 2]. Der Pearson-Abstand wurde bei der Clusteranalyse und Datenerkennung für Kommunikation und Speicherung mit unbekannter Verstärkung und Offset verwendet

Zirkularer Korrelationskoeffizient

Für Variablen X = { x 1 ,..., x n } und Y = { y 1 ,..., y n } die auf dem Einheitskreis [0, 2 π ) definiert sind, kann man einen Kreis definieren Analogon des Pearson-Koeffizienten. Dies geschieht durch Transformieren von Datenpunkten in X und Y mit einer Sinusfunktion , sodass der Korrelationskoeffizient gegeben ist als:

wobei und die kreisförmigen Mittelwerte von X und  Y sind . Diese Messung kann in Bereichen wie der Meteorologie nützlich sein, in denen die Winkelrichtung der Daten wichtig ist.

Teilkorrelation

Wenn eine Population oder ein Datensatz durch mehr als zwei Variablen charakterisiert ist, misst ein partieller Korrelationskoeffizient die Stärke der Abhängigkeit zwischen einem Variablenpaar, die nicht durch die Art und Weise berücksichtigt wird, wie sich beide als Reaktion auf Variationen in einer ausgewählten Teilmenge ändern der anderen Variablen.

Dekorrelation von n Zufallsvariablen

Es ist immer möglich, die Korrelationen zwischen allen Paaren einer beliebigen Anzahl von Zufallsvariablen durch eine Datentransformation zu entfernen, auch wenn die Beziehung zwischen den Variablen nicht linear ist. Eine Präsentation dieses Ergebnisses für Populationsverteilungen wird von Cox & Hinkley gegeben.

Ein entsprechendes Ergebnis liegt vor, um die Stichprobenkorrelationen auf Null zu reduzieren. Angenommen, ein Vektor von n Zufallsvariablen wird m- mal beobachtet . Sei X eine Matrix, wobei die j- te Beobachtungsvariable i ist . Lassen Sie uns ein sein m durch m quadratische Matrix mit jedem Element 1. Dann D werden die transformierten Daten , so dass jeder Zufallsvariable Mittelwert von Null hat, und T ist die Daten transformiert so alle Variablen Mittelwert von Null und Null - Korrelation mit allen anderen Variablen - die Probe Korrelations Matrix von T wird die Identitätsmatrix sein. Diese muss weiter durch die Standardabweichung geteilt werden, um die Einheitsvarianz zu erhalten. Die transformierten Variablen sind unkorreliert, auch wenn sie möglicherweise nicht unabhängig sind .

wobei ein Exponent von +12 repräsentiert die Quadratwurzel der Matrix der Inversen einer Matrix. Die Korrelationsmatrix von T wird die Identitätsmatrix sein. Wenn eine neue Datenbeobachtung x ein Zeilenvektor von n Elementen ist, kann dieselbe Transformation auf x angewendet werden, um die transformierten Vektoren d und t zu erhalten :

Diese Dekorrelation bezieht sich auf die Hauptkomponentenanalyse für multivariate Daten.

Softwareimplementierungen

Siehe auch

Fußnoten

Verweise

Externe Links

  • "kokor" . vergleichenkorrelationen.org . – Eine kostenlose Weboberfläche und ein R-Paket für den statistischen Vergleich zweier abhängiger oder unabhängiger Korrelationen mit überlappenden oder nicht überlappenden Variablen.
  • "Korrelation" . nagysandor.eu . – eine interaktive Flash-Simulation zur Korrelation zweier normalverteilter Variablen.
  • "Korrelationskoeffizientenrechner" . hackmath.net . Lineare Regression.
  • "Kritische Werte für den Korrelationskoeffizienten nach Pearson" (PDF) . frank.mtsu.edu/~dkfuller . – großer Tisch.
  • "Erraten Sie die Korrelation" . – Ein Spiel, bei dem die Spieler erraten, wie korreliert zwei Variablen in einem Streudiagramm sind, um ein besseres Verständnis des Korrelationskonzepts zu erlangen.