Multimodaler Vertrieb - Multimodal distribution

Abbildung 1. Eine einfache bimodale Verteilung, in diesem Fall eine Mischung aus zwei Normalverteilungen mit gleicher Varianz, aber unterschiedlichen Mittelwerten. Die Abbildung zeigt die Wahrscheinlichkeitsdichtefunktion (pdf), die ein gleichgewichteter Durchschnitt der glockenförmigen pdfs der beiden Normalverteilungen ist. Wenn die Gewichte nicht gleich wären, könnte die resultierende Verteilung immer noch bimodal sein, aber mit unterschiedlich hohen Peaks.
Abbildung 2. Eine bimodale Verteilung.
Abbildung 3. Eine bivariate, multimodale Verteilung

In der Statistik ist eine bimodale Verteilung eine Wahrscheinlichkeitsverteilung mit zwei verschiedenen Modi , die auch als bimodale Verteilung bezeichnet werden kann. Diese erscheinen als deutliche Peaks (lokale Maxima) in der Wahrscheinlichkeitsdichtefunktion , wie in den Abbildungen 1 und 2 gezeigt. Kategoriale, kontinuierliche und diskrete Daten können alle bimodale Verteilungen bilden.

Allgemeiner gesagt ist eine multimodale Verteilung eine Wahrscheinlichkeitsverteilung mit zwei oder mehr Modi, wie in Abbildung 3 dargestellt.

Terminologie

Wenn die beiden Modi ungleich sind, wird der größere Modus als Hauptmodus und der andere als Nebenmodus bezeichnet. Der am wenigsten häufige Wert zwischen den Modi wird als Antimodus bezeichnet . Der Unterschied zwischen Dur und Moll wird als Amplitude bezeichnet . In Zeitreihen wird der Hauptmodus als Akrophase und der Antimodus als Batiphase bezeichnet .

Galtungs Klassifikation

Galtung hat ein Klassifizierungssystem (AJUS) für Verteilungen eingeführt:

  • A: unimodale Verteilung – Spitze in der Mitte
  • J: unimodal – Spitze an beiden Enden
  • U: bimodal – Spitzen an beiden Enden
  • S: bimodal oder multimodal – mehrere Peaks

Diese Klassifikation wurde inzwischen leicht modifiziert:

  • J: (modifiziert) – Spitze rechts
  • L: unimodal – Spitze links
  • F: keine Spitze (flach)

Unter dieser Klassifikation werden bimodale Verteilungen als Typ S oder U klassifiziert.

Beispiele

Bimodale Verteilungen kommen sowohl in der Mathematik als auch in den Naturwissenschaften vor.

Wahrscheinlichkeitsverteilungen

Wichtige bimodale Verteilungen sind die Arkussinus-Verteilung und die Beta-Verteilung . Andere schließen die U-quadratische Verteilung ein .

Das Verhältnis zweier Normalverteilungen ist ebenfalls bimodal verteilt. Lassen

wobei a und b konstant sind und x und y als normale Variablen mit einem Mittelwert von 0 und einer Standardabweichung von 1 verteilt sind. R hat eine bekannte Dichte, die als konfluente hypergeometrische Funktion ausgedrückt werden kann .

Die Verteilung des Kehrwerts einer t- verteilten Zufallsvariablen ist bimodal, wenn die Freiheitsgrade mehr als eins sind. In ähnlicher Weise ist auch der Kehrwert einer normalverteilten Variablen bimodal verteilt.

Eine t- Statistik, die aus einem Datensatz generiert wird, der aus einer Cauchy-Verteilung gezogen wurde, ist bimodal.

Vorkommen in der Natur

Beispiele für Variablen mit bimodaler Verteilung sind die Zeit zwischen den Eruptionen bestimmter Geysire , die Farbe von Galaxien , die Größe der Arbeiterinnen- Weberameisen , das Alter der Inzidenz des Hodgkin-Lymphoms , die Geschwindigkeit der Inaktivierung des Medikaments Isoniazid bei US-Erwachsenen, die absolute Größe von Novae und die zirkadianen Aktivitätsmuster dieser dämmerungsaktiven Tiere, die sowohl in der Morgen- als auch in der Abenddämmerung aktiv sind. In der Fischereiwissenschaft spiegeln multimodale Längenverteilungen die verschiedenen Jahresklassen wider und können somit für Altersverteilungs- und Wachstumsabschätzungen der Fischpopulation verwendet werden. Sedimente werden in der Regel bimodal verteilt. Bei der Beprobung von Bergbaustollen, die entweder das Wirtsgestein und die mineralisierten Adern durchqueren, wäre die Verteilung der geochemischen Variablen bimodal. Bimodale Verteilungen werden auch in der Verkehrsanalyse beobachtet, bei der der Verkehr während der Hauptverkehrszeit am Morgen und dann wieder in der Hauptverkehrszeit am Nachmittag auftritt. Dieses Phänomen ist auch bei der täglichen Wasserverteilung zu beobachten, da der Wasserbedarf in Form von Duschen, Kochen und Toilettennutzung in der Regel morgens und abends seinen Höhepunkt erreicht.

Ökonometrie

In ökonometrischen Modellen können die Parameter bimodal verteilt sein.

Ursprünge

Mathematik

Eine bimodale Verteilung entsteht am häufigsten als eine Mischung aus zwei verschiedenen unimodalen Verteilungen (dh Verteilungen mit nur einem Modus). Mit anderen Worten, die bimodal verteilte Zufallsvariable X ist definiert als mit Wahrscheinlichkeit oder mit Wahrscheinlichkeit wobei Y und Z unimodale Zufallsvariablen sind und ein Mischungskoeffizient ist.

Mischungen mit zwei unterschiedlichen Komponenten müssen nicht bimodal sein und Zweikomponentenmischungen mit unimodalen Komponentendichten können mehr als zwei Modi aufweisen. Es besteht kein unmittelbarer Zusammenhang zwischen der Anzahl der Komponenten in einer Mischung und der Anzahl der Moden der resultierenden Dichte.

Besondere Verteilungen

Bimodale Verteilungen wurden trotz ihres häufigen Auftretens in Datensätzen nur selten untersucht. Dies kann an den Schwierigkeiten liegen, ihre Parameter entweder mit frequentistischen oder Bayes-Methoden zu schätzen. Unter denen, die untersucht wurden, sind

  • Bimodale Exponentialverteilung.
  • Alpha-Skew-Normalverteilung.
  • Bimodale schiefsymmetrische Normalverteilung.
  • Eine Mischung von Conway-Maxwell-Poisson-Verteilungen wurde an bimodale Zähldaten angepasst.

Bimodalität ergibt sich natürlich auch in der Höcker Katastrophe Verteilung .

Biologie

In der Biologie sind fünf Faktoren bekannt, die zur bimodalen Verteilung der Populationsgrößen beitragen:

  • die anfängliche Verteilung der einzelnen Größen
  • die Verteilung der Wachstumsraten unter den Individuen
  • die Größen- und Zeitabhängigkeit der Wachstumsrate jedes Individuums
  • Sterblichkeitsraten, die sich auf jede Größenklasse unterschiedlich auswirken können
  • die DNA-Methylierung im Genom von Mensch und Maus.

Die bimodale Größenverteilung von Weberameisenarbeitern ergibt sich aus der Existenz zweier unterschiedlicher Klassen von Arbeitern, nämlich Hauptarbeitern und Kleinarbeitern.

Die Verteilung der Fitnesseffekte von Mutationen sowohl für ganze Genome als auch für einzelne Gene ist ebenfalls häufig bimodal, wobei die meisten Mutationen entweder neutral oder letal sind, wobei relativ wenige eine Zwischenwirkung haben.

Allgemeine Eigenschaften

Eine Mischung aus zwei unimodalen Verteilungen mit unterschiedlichen Mittelwerten ist nicht unbedingt bimodal. Die kombinierte Größenverteilung von Männern und Frauen wird manchmal als Beispiel für eine bimodale Verteilung verwendet, aber tatsächlich ist der Unterschied der mittleren Körpergrößen von Männern und Frauen im Verhältnis zu ihren Standardabweichungen zu gering , um eine Bimodalität zu erzeugen.

Bimodale Verteilungen haben die besondere Eigenschaft, dass – im Gegensatz zu unimodalen Verteilungen – der Mittelwert ein robusterer Stichprobenschätzer sein kann als der Median. Dies ist eindeutig der Fall, wenn die Verteilung U-förmig wie die Arkussinusverteilung ist. Dies ist möglicherweise nicht der Fall, wenn die Verteilung einen oder mehrere lange Schwänze aufweist.

Momente der Mischungen

Lassen

wobei g i eine Wahrscheinlichkeitsverteilung ist und p der Mischungsparameter ist.

Die Momente von f ( x ) sind

wo

und S i und K i sind die Schiefe und Krümmung der i- ten Verteilung.

Mischung aus zwei Normalverteilungen

Es kommt nicht selten vor, dass ein Untersucher der Ansicht ist, dass die Daten aus einer Mischung von zwei Normalverteilungen stammen. Aus diesem Grund wurde diese Mischung eingehend untersucht.

Eine Mischung aus zwei Normalverteilungen muss fünf Parameter schätzen: die beiden Mittelwerte, die beiden Varianzen und den Mischungsparameter. Eine Mischung aus zwei Normalverteilungen mit gleichen Standardabweichungen ist nur dann bimodal, wenn sich ihre Mittelwerte um mindestens das Doppelte der gemeinsamen Standardabweichung unterscheiden. Die Schätzung der Parameter wird vereinfacht, wenn angenommen werden kann, dass die Varianzen gleich sind ( homoskedastischer Fall).

Sind die Mittelwerte der beiden Normalverteilungen gleich, dann ist die kombinierte Verteilung unimodal. Bedingungen für die Unimodalität der kombinierten Verteilung wurden von Eisenberger abgeleitet. Notwendige und ausreichende Bedingungen für eine bimodale Mischung von Normalverteilungen wurden von Ray und Lindsay identifiziert.

Eine Mischung aus zwei annähernd gleichen Massennormalverteilungen hat eine negative Kurtosis, da die beiden Moden auf beiden Seiten des Massenmittelpunkts die Ausläufer der Verteilung effektiv reduzieren.

Eine Mischung aus zwei Normalverteilungen mit stark ungleicher Masse hat eine positive Kurtosis, da die kleinere Verteilung den Schwanz der dominanteren Normalverteilung verlängert.

Mischungen anderer Verteilungen erfordern die Schätzung zusätzlicher Parameter.

Tests auf Unimodalität

oder

wobei p der Mischungsparameter ist und

und wobei μ 1 und μ 2 die Mittelwerte der beiden Normalverteilungenund σ 1 und σ 2 ihre Standardabweichungen sind.

  • Der folgende Test für den Fall p = 1/2 wurde von Schilling et al . Lassen

Der Trennfaktor ( S ) ist

Sind die Varianzen gleich, dann ist S = 1. Die Mischungsdichte ist genau dann unimodal, wenn

  • Eine hinreichende Bedingung für Unimodalität ist
  • Wenn die beiden Normalverteilungen gleiche Standardabweichungen haben, ist eine hinreichende Bedingung für Unimodalität

Zusammengefasste Statistiken

Bimodale Verteilungen sind ein häufig verwendetes Beispiel dafür, wie zusammenfassende Statistiken wie Mittelwert , Median und Standardabweichung täuschen können, wenn sie für eine willkürliche Verteilung verwendet werden. In der Verteilung in Abbildung 1 würden der Mittelwert und der Median beispielsweise ungefähr Null betragen, obwohl Null kein typischer Wert ist. Die Standardabweichung ist auch größer als die Abweichung jeder Normalverteilung.

Obwohl mehrere vorgeschlagen wurden, gibt es derzeit keine allgemein anerkannte zusammenfassende Statistik (oder einen Satz von Statistiken), um die Parameter einer allgemeinen bimodalen Verteilung zu quantifizieren. Für eine Mischung aus zwei Normalverteilungen werden in der Regel Mittelwerte und Standardabweichungen sowie der Mischungsparameter (das Gewicht für die Kombination) verwendet – insgesamt fünf Parameter.

Ashmans D

Eine Statistik, die nützlich sein könnte, ist Ashmans D:

wobei μ 1 , μ 2 die Mittelwerte und σ 1 σ 2 die Standardabweichungen sind.

Bei einer Mischung zweier Normalverteilungen ist D > 2 für eine saubere Trennung der Verteilungen erforderlich.

van der Eijks A

Dieses Maß ist ein gewichteter Durchschnitt des Übereinstimmungsgrades der Häufigkeitsverteilung. A reicht von -1 (perfekte Bimodalität ) bis +1 (perfekte Unimodalität ). Es ist definiert als

Dabei ist U die Unimodalität der Verteilung, S die Anzahl der Kategorien mit Häufigkeiten ungleich Null und K die Gesamtanzahl der Kategorien.

Der Wert von U ist 1, wenn die Verteilung eines der drei folgenden Merkmale aufweist:

  • alle Antworten sind in einer einzigen Kategorie
  • die Antworten verteilen sich gleichmäßig auf alle Kategorien
  • die Antworten sind gleichmäßig auf zwei oder mehr zusammenhängende Kategorien verteilt, wobei die anderen Kategorien keine Antworten enthalten

Bei anderen Verteilungen müssen die Daten in 'Schichten' unterteilt werden. Innerhalb einer Schicht sind die Antworten entweder gleich oder null. Die Kategorien müssen nicht zusammenhängend sein. Ein Wert für A für jede Schicht ( A i ) wird berechnet und ein gewichteter Durchschnitt für die Verteilung wird bestimmt. Die Gewichte ( w i ) für jede Schicht sind die Anzahl von Antworten in dieser Schicht. In Symbolen

Eine gleichmäßige Verteilung hat A = 0: wenn alle Antworten in eine Kategorie fallen A = +1.

Ein theoretisches Problem bei diesem Index besteht darin, dass er annimmt, dass die Intervalle gleich beabstandet sind. Dies kann die Anwendbarkeit einschränken.

Bimodale Trennung

Dieser Index wird davon ausgegangen , dass die Verteilung eine Mischung von zwei Normalverteilungen mit Mitteln ( μ 1 und μ 2 ) und Standardabweichungen ( σ 1 und σ 2 ):

Bimodalitätskoeffizient

Sarles Bimodalitätskoeffizient b ist

wobei γ die Schiefe und κ die Kurtosis ist . Die Kurtosis wird hier als das standardisierte vierte Moment um den Mittelwert definiert. Der Wert von b liegt zwischen 0 und 1. Die Logik hinter diesem Koeffizienten besteht darin, dass eine bimodale Verteilung mit leichten Ausläufern eine sehr geringe Kurtosis, einen asymmetrischen Charakter oder beides hat – was alle diesen Koeffizienten erhöht.

Die Formel für eine endliche Stichprobe lautet

wobei n die Anzahl der Elemente in der Stichprobe ist, g die Stichprobenschiefe und k die überschüssige Kurtosis der Stichprobe ist .

Der Wert von b für die Gleichverteilung beträgt 5/9. Dies ist auch sein Wert für die Exponentialverteilung . Werte größer als 5/9 können auf eine bimodale oder multimodale Verteilung hinweisen, obwohl sich entsprechende Werte auch für stark verzerrte unimodale Verteilungen ergeben können. Der Maximalwert (1.0) wird nur durch eine Bernoulli-Verteilung mit nur zwei unterschiedlichen Werten oder die Summe zweier unterschiedlicher Dirac-Deltafunktionen (eine Bi-Delta-Verteilung) erreicht.

Die Verteilung dieser Statistik ist unbekannt. Es hängt mit einer Statistik zusammen, die zuvor von Pearson vorgeschlagen wurde – die Differenz zwischen der Kurtosis und dem Quadrat der Schiefe ( siehe unten ).

Bimodalitätsamplitude

Dies ist definiert als

wobei A 1 die Amplitude des kleineren Peaks und A an die Amplitude der Antimode ist.

A B ist immer < 1. Größere Werte zeigen deutlichere Peaks an.

Bimodales Verhältnis

Dies ist das Verhältnis der linken und rechten Spitzen. Mathematisch

wobei A l und A r die Amplituden der linken bzw. rechten Spitzen sind.

Bimodalitätsparameter

Dieser Parameter ( B ) ist auf Wilcock zurückzuführen.

wo A L und A R die Amplituden des linken und des rechten Peaks jeweils und P i ist der Logarithmus zur Basis 2 des Verhältnisses der Verteilung in der i genommen ten Intervall. Der Maximalwert von ΣP ist 1, aber der Wert von B kann größer sein.

Um diesen Index zu verwenden, wird das Protokoll der Werte genommen. Die Daten werden dann in Intervalle der Breite unterteilt, deren Wert log 2 ist. Die Breite der Peaks wird als viermal 1/4Φ zentriert auf ihre Maximalwerte angenommen.

Bimodalitätsindizes

Wangs Index

Der von Wang et al. vorgeschlagene Bimodalitätsindex geht davon aus, dass die Verteilung eine Summe zweier Normalverteilungen mit gleichen Varianzen, aber unterschiedlichen Mittelwerten ist. Es ist wie folgt definiert:

wobei μ 1 , μ 2 der Mittelwert und σ die gemeinsame Standardabweichungist.

wobei p der Mischungsparameter ist.

Sturrocks Index

Ein anderer Bimodalitätsindex wurde von Sturrock vorgeschlagen.

Dieser Index ( B ) ist definiert als

Wenn m = 2 und γ gleichmäßig verteilt ist, ist B exponentiell verteilt.

Diese Statistik ist eine Form des Periodogramms . Sie leidet unter den üblichen Problemen der Schätzung und des spektralen Verlusts, die dieser Statistikform gemeinsam sind.

Index von de Michele und Accatino

Ein anderer Bimodalitätsindex wurde von de Michele und Accatino vorgeschlagen. Ihr Index ( B ) ist

wobei μ das arithmetische Mittel der Stichprobe ist und

wobei m i die Anzahl der Datenpunkte im i- ten Bin ist, x i die Mitte des i- ten Bins ist und L die Anzahl der Bins ist.

Die Autoren schlugen einen Cut-off-Wert von 0,1 für B vor , um zwischen einer bimodalen ( B > 0,1) und unimodalen ( B < 0,1) Verteilung zu unterscheiden. Für diesen Wert wurde keine statistische Begründung angeboten.

Sambrook Smiths Index

Ein weiterer Index ( B ) wurde von Sambrook Smith et al. vorgeschlagen

wobei p 1 und p 2 der Anteil sind, der in der primären (der mit der größeren Amplitude) und der sekundären (der mit der kleineren Amplitude) Mode enthalten ist und φ 1 und φ 2 die φ -Größen der primären und sekundären Mode sind. Die φ- Größe ist definiert als das minus einfache des Logarithmus der Datengröße zur Basis 2. Diese Transformation wird häufig bei der Untersuchung von Sedimenten verwendet.

Die Autoren empfahlen einen Cut-off-Wert von 1,5, wobei B größer als 1,5 für eine bimodale Verteilung und kleiner als 1,5 für eine unimodale Verteilung ist. Eine statistische Begründung für diesen Wert wurde nicht gegeben.

Chaudhuri- und Agrawal-Index

Ein weiterer Bimodalitätsparameter wurde von Chaudhuri und Agrawal vorgeschlagen. Dieser Parameter erfordert die Kenntnis der Varianzen der beiden Subpopulationen, die die bimodale Verteilung bilden. Es ist definiert als

wobei n i die Anzahl der Datenpunkte in der i- ten Subpopulation ist, σ i 2 die Varianz der i- ten Subpopulation ist, m die Gesamtgröße der Stichprobe und σ 2 die Stichprobenvarianz ist.

Es ist ein gewichteter Durchschnitt der Varianz. Die Autoren schlagen vor, dass dieser Parameter als Optimierungsziel verwendet werden kann, um eine Stichprobe in zwei Teilpopulationen aufzuteilen. Eine statistische Begründung für diesen Vorschlag wurde nicht gegeben.

Statistische Tests

Es stehen eine Reihe von Tests zur Verfügung, um festzustellen, ob ein Datensatz bimodal (oder multimodal) verteilt ist.

Grafische Methoden

Bei der Untersuchung von Sedimenten ist die Partikelgröße häufig bimodal. Empirisch hat es sich als nützlich erwiesen, die Frequenz gegen den Log (Größe) der Partikel aufzuzeichnen. Dies führt normalerweise zu einer klaren Trennung der Partikel in eine bimodale Verteilung. Bei geologischen Anwendungen wird der Logarithmus normalerweise zur Basis 2 genommen. Die logarithmisch transformierten Werte werden als phi (Φ)-Einheiten bezeichnet. Dieses System ist als Krumbein (oder Phi)-Skala bekannt.

Eine alternative Methode besteht darin, den Logarithmus der Partikelgröße gegen die kumulative Häufigkeit aufzuzeichnen. Dieser Graph besteht normalerweise aus zwei einigermaßen geraden Linien mit einer Verbindungslinie, die der Antimode entspricht.

Statistiken

Aus den grafischen Darstellungen können ungefähre Werte für mehrere Statistiken abgeleitet werden.

wo Mittelwert der Mittelwert ist, StdDev ist die Standardabweichung, Schiefe der Schiefe ist, Kurt die Kurtosis und φ x ist der Wert der Veränderlichen φ am x - ten Prozentsatz der Verteilung.

Unimodale vs. bimodale Verteilung

Pearson entwickelte 1894 als erster ein Verfahren, um zu testen, ob eine Verteilung in zwei Normalverteilungen aufgelöst werden kann. Diese Methode erforderte die Lösung eines Polynoms neunter Ordnung . In einer nachfolgenden Arbeit berichtete Pearson, dass für jede Verteilungsschiefe 2 + 1 < Kurtosis. Das hat Pearson später gezeigt

wobei b 2 die Kurtosis und b 1 das Quadrat der Schiefe ist. Gleichheit gilt nur für die Zweipunkt- Bernoulli-Verteilung oder die Summe zweier unterschiedlicher Dirac-Deltafunktionen . Dies sind die extremsten Fälle von Bimodalität, die möglich sind. Die Kurtosis ist in beiden Fällen 1. Da sie beide symmetrisch sind, beträgt ihre Schiefe 0 und die Differenz 1.

Baker schlug eine Transformation vor, um eine bimodale in eine unimodale Verteilung umzuwandeln.

Es wurden mehrere Tests der Unimodalität gegenüber der Bimodalität vorgeschlagen: Haldane schlug einen auf der Grundlage zweiter zentraler Unterschiede vor. Larkin führte später einen Test ein, der auf dem F-Test basiert; Benett hat einen basierend auf Fishers G-Test erstellt . Tokeshi hat einen vierten Test vorgeschlagen. Ein auf einem Likelihood-Verhältnis basierender Test wurde von Holzmann und Vollmer vorgeschlagen.

Es wurde eine Methode vorgeschlagen, die auf dem Score und Wald-Tests basiert. Dieses Verfahren kann zwischen unimodalen und bimodalen Verteilungen unterscheiden, wenn die zugrunde liegenden Verteilungen bekannt sind.

Antimode-Tests

Statistische Tests für den Antimode sind bekannt.

Otsus Methode

Die Methode von Otsu wird häufig in der Computergrafik verwendet, um die optimale Trennung zwischen zwei Verteilungen zu bestimmen.

Allgemeine Prüfungen

Um zu testen, ob eine Verteilung nicht unimodal ist, wurden mehrere zusätzliche Tests entwickelt: der Bandbreitentest , der Dip-Test , der Exzess-Masse-Test , der MAP-Test, der Modusexistenztest , der Runt-Test , der Span-Test und der Sattel testen .

Für die Programmiersprache R steht eine Implementierung des Dip-Tests zur Verfügung . Die p-Werte für die Dip-Statistikwerte liegen zwischen 0 und 1. P-Werte unter 0,05 weisen auf eine signifikante Multimodalität hin und p-Werte über 0,05, aber unter 0,10 weisen auf eine Multimodalität mit marginaler Signifikanz hin.

Silverman-Test

Silverman führte eine Bootstrap-Methode für die Anzahl der Modi ein. Der Test verwendet eine feste Bandbreite, die die Leistung des Tests und seine Interpretierbarkeit reduziert. Unter geglättete Dichten können eine übermäßige Anzahl von Modi aufweisen, deren Zählung während des Bootstrappings instabil ist.

Bajgier-Aggarwal-Test

Bajgier und Aggarwal haben einen Test vorgeschlagen, der auf der Kurtosis der Verteilung basiert.

Sonderfälle

Für eine Reihe von Sonderfällen stehen zusätzliche Tests zur Verfügung:

Mischung aus zwei Normalverteilungen

Eine Untersuchung einer Mischungsdichte von zwei Normalverteilungsdaten ergab, dass die Trennung in die beiden Normalverteilungen schwierig war, es sei denn, die Mittelwerte wurden durch 4–6 Standardabweichungen getrennt.

In der Astronomie wird der Kernel-Mean-Matching-Algorithmus verwendet, um zu entscheiden, ob ein Datensatz zu einer einzelnen Normalverteilung oder zu einer Mischung aus zwei Normalverteilungen gehört.

Beta-Normalverteilung

Diese Verteilung ist für bestimmte Werte von is-Parametern bimodal. Ein Test für diese Werte wurde beschrieben.

Parameterschätzung und Anpassungskurven

Unter der Annahme, dass die Verteilung als bimodal bekannt ist oder sich durch einen oder mehrere der obigen Tests als bimodal erwiesen hat, ist es häufig wünschenswert, eine Kurve an die Daten anzupassen. Dies kann schwierig sein.

Bayessche Methoden können in schwierigen Fällen nützlich sein.

Software

Zwei Normalverteilungen

Zum Testen auf Bimodalität steht ein Paket für R zur Verfügung. Dieses Paket geht davon aus, dass die Daten als Summe von zwei Normalverteilungen verteilt werden. Wenn diese Annahme nicht richtig ist, sind die Ergebnisse möglicherweise nicht zuverlässig. Es enthält auch Funktionen zum Anpassen einer Summe von zwei Normalverteilungen an die Daten.

Unter der Annahme, dass die Verteilung eine Mischung aus zwei Normalverteilungen ist, kann der Erwartungsmaximierungsalgorithmus verwendet werden, um die Parameter zu bestimmen. Dafür stehen mehrere Programme zur Verfügung, darunter Cluster und das R-Paket nor1mix.

Andere Distributionen

Das für R verfügbare Paket mixtools kann die Parameter verschiedener Distributionen testen und schätzen. Ein Paket für eine Mischung aus zwei rechtsseitigen Gammaverteilungen ist verfügbar.

Mehrere andere Pakete für R sind verfügbar, um gemischte Modelle zu passen; dazu gehören flexmix, mcclust, agrmt und mixdist.

Die statistische Programmiersprache SAS kann mit dem PROC FREQ-Verfahren auch eine Vielzahl von gemischten Verteilungen anpassen.

Siehe auch

Verweise