Benfords Gesetz - Benford's law

Eine Abfolge abnehmender blauer Balken vor einem hellgrauen Gitterhintergrund
Die Verteilung der ersten Ziffern nach dem Benfordschen Gesetz. Jeder Balken stellt eine Ziffer dar, und die Höhe des Balkens ist der Prozentsatz der Zahlen, die mit dieser Ziffer beginnen.
Häufigkeit der ersten signifikanten Stelle physikalischer Konstanten aufgetragen gegen das Benfordsche Gesetz

Benford-Gesetz , auch das angerufene Newcomb-Benford Gesetz , das Gesetz der anomalen Zahlen , oder das erste Ziffer Gesetz , ist eine Beobachtung , dass in vielen realen Sätzen von numerischen Daten , die führende Ziffer wahrscheinlich zu klein ist. In Mengen, die dem Gesetz gehorchen, erscheint die Zahl 1 in etwa 30 % der Fälle als führende signifikante Ziffer, während die 9 in weniger als 5 % der Fälle als führende signifikante Ziffer erscheint. Bei einer gleichmäßigen Verteilung der Ziffern würden sie jeweils in etwa 11,1 % der Fälle vorkommen. Das Benford-Gesetz macht auch Vorhersagen über die Verteilung von zweiten Ziffern, dritten Ziffern, Ziffernkombinationen usw.

Der Graph rechts zeigt das Benford-Gesetz für die Basis 10 , einen von unendlich vielen Fällen eines verallgemeinerten Gesetzes für Zahlen, die in willkürlichen (ganzzahligen) Basen ausgedrückt werden, was die Möglichkeit ausschließt, dass das Phänomen ein Artefakt des Zahlensystems zur Basis 10 sein könnte. 1995 wurden weitere Verallgemeinerungen veröffentlicht, die analoge Aussagen sowohl für die n-te führende Ziffer als auch für die gemeinsame Verteilung der führenden n- Ziffern enthalten, wobei letztere zu einem Korollar führt, in dem die signifikanten Ziffern als statistisch abhängige Größe gezeigt werden.

Es hat sich gezeigt, dass dieses Ergebnis auf eine Vielzahl von Datensätzen zutrifft, darunter Stromrechnungen, Straßenadressen, Aktienpreise, Hauspreise, Bevölkerungszahlen, Sterberaten, Flusslängen sowie physikalische und mathematische Konstanten . Wie andere allgemeine Prinzipien über natürliche Daten – zum Beispiel die Tatsache, dass viele Datensätze durch eine Normalverteilung gut approximiert werden – gibt es anschauliche Beispiele und Erklärungen, die viele der Fälle abdecken, in denen das Benford-Gesetz gilt, obwohl es viele andere Fälle gibt, in denen das Benford-Gesetz gilt, die sich einer einfachen Erklärung widersetzen. Es ist in der Regel am genauesten, wenn Werte über mehrere Größenordnungen verteilt sind , insbesondere wenn der Prozess zur Generierung der Zahlen durch ein Potenzgesetz beschrieben wird (was in der Natur üblich ist).

Das Gesetz ist nach dem Physiker Frank Benford benannt , der es 1938 in einem Papier mit dem Titel "The Law of Anomalous Numbers" formulierte, obwohl es bereits 1881 von Simon Newcomb formuliert worden war .

Das Gesetz ist konzeptionell ähnlich, wenn auch in der Verteilung nicht identisch mit dem Zipfschen Gesetz .

Definition

Rechteck mit versetzter fettgedruckter Achse unten links und hellgrauen Linien, die Logarithmen darstellen
Ein logarithmischer Maßstabsbalken . Wenn Sie eine zufällige x- Position gleichmäßig auf dieser Zahlengeraden auswählen, ist die erste Ziffer der Zahl in etwa 30 % der Fälle 1.

Eine Menge von Zahlen erfüllt das Benford-Gesetz, wenn die führende Ziffer  d ( d  ∈ {1, ..., 9} ) mit Wahrscheinlichkeit auftritt

Die führenden Ziffern einer solchen Menge haben also folgende Verteilung:

D Relative Größe von
1 30,1% 30,1
 
2 17,6% 17,6
 
3 12,5 % 12,5
 
4 9,7% 9.7
 
5 7,9% 7,9
 
6 6,7 % 6.7
 
7 5,8 % 5,8
 
8 5,1% 5.1
 
9 4,6% 4.6
 

Die Größe ist proportional zum Abstand zwischen d und d  +1 auf einer logarithmischen Skala . Daher ist dies die erwartete Verteilung, wenn die Logarithmen der Zahlen (aber nicht die Zahlen selbst) gleichmäßig und zufällig verteilt sind .

Zum Beispiel beginnt eine Zahl x , die zwischen 1 und 10 liegt, mit der Ziffer 1, wenn 1 ≤  x  < 2 , und mit der Ziffer 9, wenn 9 ≤  x  < 10 . Daher beginnt x mit der Ziffer 1, wenn log 1 ≤ log  x  < log 2 , oder mit 9 beginnt, wenn log 9 ≤ log  x  < log 10 . Das Intervall [log 1, log 2] ist viel breiter als das Intervall [log 9, log 10] (0,30 bzw. 0,05); Wenn also log x gleichförmig und zufällig verteilt ist, fällt es viel wahrscheinlicher in das breitere Intervall als in das engere Intervall, dh es beginnt eher mit 1 als mit 9; die Wahrscheinlichkeiten sind proportional zu den Intervallbreiten, was die obige Gleichung ergibt (sowie die Verallgemeinerung auf andere Basen als Dezimal).

Das Benfordsche Gesetz wird manchmal in einer stärkeren Form formuliert und behauptet, dass der Bruchteil des Logarithmus der Daten typischerweise zwischen 0 und 1 nahezu gleichmäßig verteilt ist; daraus lässt sich die Hauptaussage über die Verteilung der ersten Ziffern ableiten.

In anderen Basen

Graphen von P  ( d  ) für die Anfangsziffer d in verschiedenen Basen. Die gestrichelte Linie zeigt, dass P  ( d  ) die gleichmäßige Verteilung ist. Bewegen Sie den Mauszeiger im SVG-Bild über ein Diagramm, um den Wert für jeden Punkt anzuzeigen.

Eine Verlängerung der Benford-Gesetz sagt die Verteilung der ersten Stellen in anderen Basen neben dezimal ; tatsächlich ist jede Basis b  ≥ 2 . Die allgemeine Form ist:

Für b  = 2,1 (die binären und unären ) Zahlensysteme ist das Benfordsche Gesetz zwar wahr, aber trivial: Alle binären und unären Zahlen (außer 0 oder die leere Menge) beginnen mit der Ziffer 1. (Andererseits gilt die Verallgemeinerung des Benfordschen Gesetzes auf zweite und spätere Ziffern ist nicht trivial, selbst für Binärzahlen.)

Beispiele

Verteilung der ersten Ziffern (in %, rote Balken) in der Bevölkerung der 237 Länder der Welt, Stand Juli 2010. Schwarze Punkte geben die vom Benford-Gesetz vorhergesagte Verteilung an.

Betrachtet man eine Liste der Höhen der 58 höchsten Bauwerke der Welt nach Kategorien, so zeigt sich, dass 1 die mit Abstand häufigste führende Ziffer ist, unabhängig von der Maßeinheit (vgl. "Skaleninvarianz", unten):

Führende Ziffer m ft Nach Benfords Gesetz
Zählen % Zählen %
1 24 41,4 % 16 27,6 % 30,1 %
2 9 15,5 % 8 13,8 % 17,6 %
3 7 12,1 % 5 8,6 % 12,5 %
4 6 10,3 % 7 12,1 % 9,7 %
5 1 1,7 % 10 17,2 % 7,9 %
6 5 8,6 % 4 6,9 % 6,7 %
7 1 1,7 % 2 3,4 % 5,8 %
8 4 6,9 % 5 8,6 % 5,1 %
9 1 1,7 % 1 1,7 % 4,6 %

Ein weiteres Beispiel ist die führende Ziffer von 2 n . Die Reihenfolge der ersten 96 führenden Ziffern (1, 2, 4, 8, 1, 3, 6, 1, 2, 5, 1, 2, 4, 8, 1, 3, 6, 1... (Reihenfolge A008952 im OEIS )) hält sich stärker an das Benford-Gesetz, als es für Folgen seiner Länge erwartet wird, da es von einer geometrischen Folge abgeleitet wird, nicht zufällig; die Ziffer 1 erscheint immer alle drei oder vier Ziffern, und nur die Ziffer 9 kann eventuell zweimal hintereinander vorkommen.

Führende Ziffer Auftreten Nach Benfords Gesetz
Zählen %
1 29 30,2 % 30,1 %
2 17 17,7 % 17,6 %
3 12 12,5 % 12,5 %
4 10 10,4 % 9,7 %
5 7 7,3 % 7,9 %
6 6 6,3 % 6,7 %
7 5 5,2 % 5,8 %
8 5 5,2 % 5,1 %
9 5 5,2 % 4,6 %

Geschichte

Die Entdeckung des Benfordschen Gesetzes geht auf das Jahr 1881 zurück, als der kanadisch-amerikanische Astronom Simon Newcomb feststellte, dass in Logarithmustabellen die früheren Seiten (die mit 1 begannen) viel abgenutzter waren als die anderen Seiten. Das von Newcomb veröffentlichte Ergebnis ist der erste bekannte Fall dieser Beobachtung und beinhaltet auch eine Verteilung auf die zweite Ziffer. Newcomb schlug ein Gesetz vor, dass die Wahrscheinlichkeit, dass eine einzelne Zahl N die erste Ziffer einer Zahl ist, gleich log( N  + 1) − log( N ) ist.

Das Phänomen wurde 1938 erneut vom Physiker Frank Benford festgestellt , der es an Daten aus 20 verschiedenen Domänen testete und dafür gutgeschrieben wurde. Sein Datensatz umfasste die Oberfläche von 335 Flüssen, die Größe von 3259 US-Populationen, 104 physikalische Konstanten , 1800 Molekulargewichte , 5000 Einträge aus einem mathematischen Handbuch, 308 Zahlen in einer Ausgabe von Reader's Digest , die Straßenadressen der ersten 342 Personen, die in American Men of Science und 418 Sterblichkeitsraten aufgeführt sind. Die Gesamtzahl der in der Arbeit verwendeten Beobachtungen betrug 20.229. Diese Entdeckung wurde später nach Benford benannt (was sie zu einem Beispiel für das Stiglersche Gesetz macht ).

1995 bewies Ted Hill das unten erwähnte Ergebnis über gemischte Verteilungen .

Erklärungen

Das Benfordsche Gesetz gilt am genauesten für Daten, die mehrere Größenordnungen umfassen. Als Faustregel gilt: Je mehr Größenordnungen die Daten gleichmäßig abdecken, desto genauer gilt das Benfordsche Gesetz. Zum Beispiel kann man erwarten, dass Benfords Gesetz für eine Liste von Zahlen gilt, die die Bevölkerung britischer Siedlungen repräsentieren. Aber wenn eine "Siedlung" als ein Dorf mit einer Bevölkerung zwischen 300 und 999 Einwohnern definiert wird, dann gilt Benfords Gesetz nicht.

Betrachten Sie die unten gezeigten Wahrscheinlichkeitsverteilungen, bezogen auf eine logarithmische Skala . In jedem Fall ist die Gesamtfläche in Rot die relative Wahrscheinlichkeit, dass die erste Ziffer 1 ist, und die Gesamtfläche in Blau ist die relative Wahrscheinlichkeit, dass die erste Ziffer 8 ist. Für die erste Verteilung die Größe der Rotflächen und blau sind ungefähr proportional zur Breite jedes roten und blauen Balkens. Daher folgen die aus dieser Verteilung gezogenen Zahlen ungefähr dem Benfordschen Gesetz. Andererseits ist für die zweite Verteilung das Verhältnis der Flächen von Rot und Blau sehr verschieden von dem Verhältnis der Breiten jedes roten und blauen Balkens. Vielmehr werden die relativen Bereiche von Rot und Blau eher von der Höhe der Balken als von der Breite bestimmt. Dementsprechend erfüllen die ersten Ziffern in dieser Verteilung überhaupt nicht das Benfordsche Gesetz.

Eine breite Wahrscheinlichkeitsverteilung des Logarithmus einer Variablen, dargestellt auf einer Log-Skala. Das Benford-Gesetz kann in dem größeren Bereich gesehen werden, der von roter (erste Ziffer eins) im Vergleich zu blauer (erste Ziffer 8) Schattierung bedeckt ist.
Eine enge Wahrscheinlichkeitsverteilung des Logarithmus einer Variablen, dargestellt auf einer Log-Skala. Das Benfordsche Gesetz wird nicht befolgt, da die enge Verteilung die Kriterien für das Benfordsche Gesetz nicht erfüllt.

Somit erfüllen reale Verteilungen, die mehrere Größenordnungen ziemlich gleichförmig umfassen ( zB Bevölkerung von Dörfern/Städten/Städten, Börsenkurse), wahrscheinlich das Benfordsche Gesetz mit sehr hoher Genauigkeit. Andererseits ist es unwahrscheinlich, dass eine Verteilung, die größtenteils oder vollständig innerhalb einer Größenordnung liegt ( z. B. Körpergröße von menschlichen Erwachsenen oder IQ-Werte), das Benfordsche Gesetz nicht sehr genau oder überhaupt erfüllt. Der Unterschied zwischen anwendbaren und nicht anwendbaren Regimen ist jedoch keine scharfe Grenze: Je enger die Verteilung wird, desto größer werden die Abweichungen vom Benford-Gesetz.

(Diese Diskussion ist keine vollständige Erklärung des Benfordschen Gesetzes, da sie nicht erklärt hat, warum Datensätze so häufig angetroffen werden, die, wenn sie als Wahrscheinlichkeitsverteilung des Logarithmus der Variablen aufgetragen werden, über mehrere Größenordnungen relativ gleichförmig sind.)

Krieger-Kafri-Entropieerklärung

1970 bewies Wolfgang Krieger das , was heute als Krieger-Generator-Theorem bezeichnet wird . Der Krieger-Generatorsatz könnte als Rechtfertigung für die Annahme im Kafri-Ball-and-Box-Modell angesehen werden, dass in einer gegebenen Basis mit einer festen Anzahl von Ziffern 0, 1, ... n , ..., , Ziffer n entspricht einer Kafri-Box, die n nicht wechselwirkende Kugeln enthält. Eine Reihe anderer Wissenschaftler und Statistiker haben entropiebezogene Erklärungen für das Benfordsche Gesetz vorgeschlagen.

Multiplikative Schwankungen

Viele Beispiele aus der realen Welt für das Benford-Gesetz ergeben sich aus multiplikativen Fluktuationen. Wenn beispielsweise ein Aktienkurs bei 100 $ beginnt und dann jeden Tag mit einem zufällig ausgewählten Faktor zwischen 0,99 und 1,01 multipliziert wird, dann erfüllt die Wahrscheinlichkeitsverteilung seines Preises über einen längeren Zeitraum das Benfordsche Gesetz mit immer höherer Genauigkeit.

Der Grund dafür ist, dass der Logarithmus des Aktienkurses einem Random Walk unterliegt , sodass seine Wahrscheinlichkeitsverteilung im Laufe der Zeit immer breiter und glatter wird (siehe oben ). (Technisch gesehen besagt der zentrale Grenzwertsatz , dass die Multiplikation von immer mehr Zufallsvariablen eine logarithmische Normalverteilung mit immer größerer Varianz erzeugt, sodass sie schließlich viele Größenordnungen fast gleichmäßig abdeckt.) Um sicher zu sein, dass die ungefähre Übereinstimmung mit dem Benford-Gesetz vorliegt , muss die Verteilung ungefähr invariant sein, wenn sie um einen Faktor von bis zu 10 skaliert wird; ein lognormalverteilter Datensatz mit breiter Streuung hätte diese ungefähre Eigenschaft.

Im Gegensatz zu multiplikativen Fluktuationen führen additive Fluktuationen nicht zum Benford-Gesetz: Sie führen stattdessen zu normalen Wahrscheinlichkeitsverteilungen (wiederum nach dem zentralen Grenzwertsatz ), die dem Benford-Gesetz nicht genügen. Zum Beispiel kann die "Anzahl der Herzschläge, die ich an einem bestimmten Tag erlebe" als Summe vieler Zufallsvariablen geschrieben werden (z. B. die Summe der Herzschläge pro Minute über alle Minuten des Tages), so dass diese Menge wahrscheinlich nicht folgen wird Benfords Gesetz. Im Gegensatz dazu kann der oben beschriebene hypothetische Aktienkurs als das Produkt vieler Zufallsvariablen (dh des Preisänderungsfaktors für jeden Tag) geschrieben werden, sodass er dem Benford-Gesetz wahrscheinlich ziemlich gut folgt.

Mehrere Wahrscheinlichkeitsverteilungen

Anton Formann lieferte eine alternative Erklärung, indem er die Aufmerksamkeit auf die Wechselbeziehung zwischen der Verteilung der signifikanten Stellen und der Verteilung der beobachteten Variablen lenkte . Er zeigte in einer Simulationsstudie, dass lange rechtsseitige Verteilungen einer Zufallsvariablen mit dem Newcomb-Benford-Gesetz kompatibel sind und dass sich bei Verteilungen des Verhältnisses zweier Zufallsvariablen die Anpassung im Allgemeinen verbessert. Für Zahlen aus bestimmten Verteilungen (IQ-Werte, menschliche Körpergröße) gilt das Benfordsche Gesetz nicht, da diese Variablen einer Normalverteilung gehorchen, von der bekannt ist, dass sie das Benfordsche Gesetz nicht erfüllt, da Normalverteilungen nicht mehrere Größenordnungen umfassen können und die Mantissen von ihre Logarithmen werden nicht (auch nicht annähernd) gleichmäßig verteilt sein. Wenn man jedoch Zahlen aus diesen Verteilungen "mischt", zum Beispiel indem man Zahlen aus Zeitungsartikeln nimmt, taucht Benfords Gesetz wieder auf. Dies kann auch mathematisch bewiesen werden: Wenn man wiederholt "zufällig" eine Wahrscheinlichkeitsverteilung (aus einer unkorrelierten Menge) auswählt und dann zufällig eine Zahl entsprechend dieser Verteilung wählt, gehorcht die resultierende Zahlenliste dem Benfordschen Gesetz. Eine ähnliche wahrscheinlichkeitstheoretische Erklärung für das Auftreten des Benfordschen Gesetzes in Zahlen des alltäglichen Lebens wurde vorgebracht, indem gezeigt wurde, dass es natürlich auftritt, wenn man Mischungen gleichförmiger Verteilungen betrachtet.

Invarianz

Wenn es eine Längenliste gibt, kann die Verteilung der ersten Ziffern der Zahlen in der Liste im Allgemeinen ähnlich sein, unabhängig davon, ob alle Längen in Metern oder Yards, Fuß oder Zoll usw. ausgedrückt werden. Das gleiche gilt für Währungseinheiten .

Dies ist nicht immer der Fall. Zum Beispiel beginnt die Körpergröße erwachsener Menschen fast immer mit 1 oder 2, wenn sie in Metern gemessen wird, und beginnt fast immer mit 4, 5, 6 oder 7, wenn sie in Fuß gemessen wird.

Betrachten Sie jedoch eine Liste von Längen, die gleichmäßig über viele Größenordnungen verteilt ist. Zum Beispiel enthält eine Liste von 1000 Längen, die in wissenschaftlichen Artikeln erwähnt werden, die Messungen von Molekülen, Bakterien, Pflanzen und Galaxien. Wenn man all diese Längen in Metern oder in Fuß schreibt, ist es vernünftig zu erwarten, dass die Verteilung der ersten Ziffern auf den beiden Listen gleich sein sollte.

In diesen Situationen, in denen die Verteilung der ersten Ziffern eines Datensatzes skaleninvariant ist (oder unabhängig von den Einheiten, in denen die Daten ausgedrückt werden), wird die Verteilung der ersten Ziffern immer durch das Benford-Gesetz gegeben.

Beispielsweise sollte die erste Ziffer (nicht Null) in dieser Längenliste dieselbe Verteilung haben, unabhängig davon, ob die Maßeinheit Fuß oder Yard ist. Aber ein Yard hat drei Fuß, daher muss die Wahrscheinlichkeit, dass die erste Ziffer einer Länge in Yards 1 ist, gleich der Wahrscheinlichkeit sein, dass die erste Ziffer einer Länge in Fuß 3, 4 oder 5 ist; in ähnlicher Weise muss die Wahrscheinlichkeit, dass die erste Ziffer einer Länge in Yards 2 ist, gleich der Wahrscheinlichkeit sein, dass die erste Ziffer einer Länge in Fuß 6, 7 oder 8 beträgt. Wendet man dies auf alle möglichen Messskalen an, erhält man die logarithmische Verteilung von Benfords Gesetz.

Benford-Gesetz für die ersten Ziffern Basis invariant für Zahlensysteme. Es gibt Bedingungen und Beweise für Summeninvarianz, inverse Invarianz, Additions- und Subtraktionsinvarianz.

Anwendungen

Erkennung von Buchhaltungsbetrug

1972 schlug Hal Varian vor, dass das Gesetz verwendet werden könnte, um möglichen Betrug in Listen von sozioökonomischen Daten aufzudecken, die zur Unterstützung öffentlicher Planungsentscheidungen vorgelegt wurden. Ausgehend von der plausiblen Annahme, dass Personen, die Zahlen herstellen, dazu neigen, ihre Ziffern ziemlich gleichmäßig zu verteilen, sollte ein einfacher Vergleich der Häufigkeitsverteilung der ersten Ziffer aus den Daten mit der erwarteten Verteilung nach dem Benford-Gesetz auffällige Ergebnisse zeigen.

Verwendung in Strafprozessen

In den Vereinigten Staaten wurden Beweise, die auf dem Gesetz von Benford basieren, in Strafverfahren auf Bundes-, Landes- und lokaler Ebene zugelassen.

Wahldaten

Walter Mebane , Politikwissenschaftler und Statistiker an der University of Michigan, war die erste , die zweite Ziffer Benford-Gesetz-Test (2BL-Test) in anwenden Wahl Forensik . Solche Analysen gelten als einfache, aber nicht narrensichere Methode, um Unregelmäßigkeiten bei Wahlergebnissen zu erkennen und Wahlbetrug aufzudecken . Eine Studie der Politologen Joseph Deckert, Mikhail Myagkov und Peter C. Ordeshook aus dem Jahr 2011 argumentierte, dass Benfords Gesetz als statistischer Indikator für Wahlbetrug problematisch und irreführend sei. Ihre Methode wurde von Mebane in einer Antwort kritisiert, obwohl er zustimmte, dass es viele Vorbehalte gegen die Anwendung von Benfords Gesetz auf Wahldaten gibt.

Benfords Gesetz wurde als Beweis für Betrug bei den iranischen Wahlen 2009 verwendet . Eine Analyse von Mebane ergab, dass die zweite Ziffer der Stimmenzahl für Präsident Mahmoud Ahmadinejad , den Sieger der Wahl, tendenziell deutlich von den Erwartungen des Benford-Gesetzes abwich und dass die Wahlurnen mit sehr wenigen ungültigen Stimmzetteln einen größeren Einfluss auf die Wahl hatten Ergebnisse, was auf eine weit verbreitete Stimmzettelfüllung hindeutet . Eine andere Studie stellte anhand von Bootstrap- Simulationen fest, dass der Kandidat Mehdi Karroubi fast doppelt so viele Stimmenzahlen erhielt, die mit der Ziffer 7 beginnen, als nach Benfords Gesetz zu erwarten wäre, während eine Analyse der Columbia University ergab , dass die Wahrscheinlichkeit, dass eine faire Wahl beides hervorbringen würde, zu wenige nicht benachbarte Ziffern und die verdächtigen Abweichungen der letzten Ziffernfrequenzen, wie sie bei den iranischen Präsidentschaftswahlen 2009 festgestellt wurden, betragen weniger als 0,5 Prozent. Benfords Gesetz wurde auch für die forensische Prüfung und Betrugsaufdeckung von Daten aus den Gouverneurswahlen in Kalifornien 2003 , den US-Präsidentschaftswahlen 2000 und 2004 und der deutschen Bundestagswahl 2009 angewendet ; der Gesetzestest von Benford wurde als "als statistischer Test für Betrug ernst genommen", obwohl "nicht empfindlich auf Verzerrungen reagiert, von denen wir wissen, dass sie viele Stimmen erheblich beeinflusst haben".

Benfords Gesetz wurde auch falsch angewendet, um Wahlbetrug zu behaupten. Bei der Anwendung des Gesetzes auf die Wahlergebnisse von Joe Biden für Chicago , Milwaukee und andere Orte bei den US-Präsidentschaftswahlen 2020 folgte die Verteilung der ersten Ziffer nicht dem Gesetz von Benford. Die falsche Anwendung war das Ergebnis der Betrachtung von Daten, deren Reichweite eng begrenzt war, was gegen die Annahme verstößt, die dem Benfordschen Gesetz inhärent ist, dass die Reichweite der Daten groß ist. Laut Mebane "ist allgemein bekannt, dass die ersten Ziffern der Stimmenauszählung im Bezirk nicht nützlich sind, um Wahlbetrug zu diagnostizieren."

Makroökonomische Daten

In ähnlicher Weise erwiesen sich die makroökonomischen Daten, die die griechische Regierung der Europäischen Union vor dem Beitritt zur Eurozone übermittelte, nach Benfords Gesetz als wahrscheinlich betrügerisch, wenn auch Jahre nach dem Beitritt des Landes.

Preisziffernanalyse

Das Benfordsche Gesetz als Maßstab für die Untersuchung von Preisziffern wurde erfolgreich in den Kontext der Preisforschung eingeführt. Die Bedeutung dieses Benchmarks zur Aufdeckung von Preisunregelmäßigkeiten wurde erstmals in einer europaweiten Studie gezeigt, die Verbraucherpreisziffern vor und nach der Euro-Einführung auf Preisanpassungen untersuchte. Die Einführung des Euro im Jahr 2002 mit seinen unterschiedlichen Wechselkursen verzerrte die bestehenden nominalen Preismuster bei gleichzeitiger Beibehaltung der realen Preise. Während die ersten Stellen der nominalen Preise nach dem Benfordschen Gesetz verteilt wurden, zeigte die Studie für die zweite und dritte Stelle der nominalen Marktpreise eine deutliche Abweichung von diesem Richtwert mit einem klaren Trend zur Preispsychologie nach dem nominalen Schock der Euro-Einführung.

Genomdaten

Die Anzahl der offenen Leserahmen und ihre Beziehung zur Genomgröße unterscheidet sich zwischen Eukaryoten und Prokaryoten, wobei erstere eine logarithmisch-lineare Beziehung zeigen und letztere eine lineare Beziehung. Das Benford-Gesetz wurde verwendet, um diese Beobachtung mit einer ausgezeichneten Anpassung an die Daten in beiden Fällen zu testen.

Wissenschaftliche Betrugserkennung

Ein Test der Regressionskoeffizienten in veröffentlichten Artikeln zeigte Übereinstimmung mit dem Benfordschen Gesetz. Als Vergleichsgruppe wurden die Probanden gebeten, statistische Schätzungen zu erstellen. Die fabrizierten Ergebnisse entsprachen dem Benfordschen Gesetz über die ersten Ziffern, aber nicht dem Benfordschen Gesetz über die zweiten Ziffern.

Statistische Tests

Obwohl der Chi-Quadrat-Test verwendet wurde, um die Übereinstimmung mit dem Benford-Gesetz zu testen, hat er bei kleinen Stichproben eine geringe statistische Aussagekraft.

Der Kolmogorov-Smirnov-Test und der Kuiper-Test sind leistungsfähiger, wenn die Stichprobengröße klein ist, insbesondere wenn der Korrekturfaktor von Stephens verwendet wird. Diese Tests können zu konservativ sein, wenn sie auf diskrete Verteilungen angewendet werden. Werte für den Benford-Test wurden von Morrow generiert. Nachfolgend sind die kritischen Werte der Teststatistik aufgeführt:

α
Prüfen
0,10 0,05 0,01
Kuiper 1.191 1.321 1.579
Kolmogorov–Smirnov 1.012 1.148 1.420

Diese kritischen Werte liefern die minimalen Teststatistikwerte, die erforderlich sind, um die Hypothese der Übereinstimmung mit dem Benford-Gesetz bei den gegebenen Signifikanzniveaus abzulehnen .

Zwei alternative Tests speziell für dieses Gesetz wurden veröffentlicht: Erstens ist die max ( m ) Statistik gegeben durch

und zweitens ist die Distanz ( d )-Statistik gegeben durch

wobei FSD die erste signifikante Ziffer ist und N der Stichprobenumfang ist. Morrow hat die kritischen Werte für diese beiden Statistiken ermittelt, die unten aufgeführt sind:

Statistik
0,10 0,05 0,01
Leemis' m 0,851 0,967 1.212
Cho–Gaines d 1.212 1.330 1.569

Morrow hat auch gezeigt, dass für jede Zufallsvariable X (mit einer kontinuierlichen pdf) dividiert durch ihre Standardabweichung ( σ ) ein Wert A gefunden werden kann, so dass die Wahrscheinlichkeit der Verteilung der ersten signifikanten Stelle der Zufallsvariablen (x/σ) A weicht vom Benfordschen Gesetz um weniger als ε > 0 ab. Der Wert von A hängt vom Wert von ε und der Verteilung der Zufallsvariablen ab.

Es wurde ein Verfahren zur Erkennung von Abrechnungsbetrug basierend auf Bootstrapping und Regression vorgeschlagen.

Wenn das Ziel zu schließen Vertrag mit dem Gesetz von Benford ist eher als Meinungsverschiedenheit, dann die Güte der Anpassung Tests oben erwähnt sind ungeeignet. In diesem Fall sind die spezifischen Gleichwertigkeitsprüfungen anzuwenden. Eine empirische Verteilung heißt äquivalent zum Benford-Gesetz, wenn ein Abstand (zB totale Variationsdistanz oder der übliche euklidische Abstand) zwischen den Wahrscheinlichkeitsmassenfunktionen hinreichend klein ist. Diese Testmethode unter Anwendung des Benfordschen Gesetzes wird in Ostrovski (2017) beschrieben.

Anwendungsbereich

Verteilungen, von denen bekannt ist, dass sie dem Gesetz von Benford gehorchen

Einige bekannte unendliche ganzzahlige Folgen erfüllen nachweislich genau das Benfordsche Gesetz (im asymptotischen Limes, da immer mehr Terme der Folge enthalten sind). Darunter sind die Fibonacci-Zahlen , die Fakultäten , die Potenzen von 2 und die Potenzen fast jeder anderen Zahl.

Ebenso erfüllen einige kontinuierliche Prozesse genau das Benfordsche Gesetz (im asymptotischen Limes, wenn der Prozess über die Zeit fortschreitet). Eine davon ist ein exponentieller Wachstums- oder Abklingprozess : Wenn eine Größe mit der Zeit exponentiell zu- oder abnimmt, dann erfüllt der Prozentsatz der Zeit, den jede erste Ziffer hat, asymptotisch das Benfordsche Gesetz (dh die Genauigkeit steigt im Laufe der Zeit an).

Verteilungen, von denen bekannt ist, dass sie Benfords Gesetz missachten

Die Quadratwurzeln und Kehrwerte aufeinander folgender natürlicher Zahlen gehorchen diesem Gesetz nicht. Die Listen der lokalen Telefonnummern in Nordamerika (7-stellige Länge) verletzen Benford-Gesetz , weil sie nicht erlaubt sind mit dem Start Fern Präfix der Ziffer 1. Benford-Gesetz durch die Bevölkerung aller Orte mit einer Bevölkerung verletzt wird zumin mindestens 2500 Personen aus fünf US-Bundesstaaten gemäß den Volkszählungen von 1960 und 1970, wobei nur 19 % mit Ziffer 1 begannen, aber 20 % mit Ziffer 2 begannen, da die Kürzung bei 2500 statistische Verzerrungen einführt. Die Endziffern in Pathologieberichten verstoßen aufgrund von Rundungen gegen das Benfordsche Gesetz.

Verteilungen, die nicht mehrere Größenordnungen umfassen, folgen nicht dem Benford-Gesetz. Beispiele sind Größe, Gewicht und IQ-Werte.

Kriterien für erwartete und nicht erwartete Verteilungen, die dem Benford-Gesetz entsprechen

Es wurde eine Reihe von Kriterien vorgeschlagen, die insbesondere auf Rechnungslegungsdaten anwendbar sind und bei denen davon ausgegangen werden kann, dass Benfords Gesetz Anwendung findet.

Verteilungen, von denen erwartet wird, dass sie dem Gesetz von Benford gehorchen
  • Wenn der Mittelwert größer als der Median ist und die Schiefe positiv ist
  • Zahlen, die sich aus einer mathematischen Zahlenkombination ergeben: zB Menge × Preis
  • Daten auf Transaktionsebene: zB Auszahlungen, Verkäufe
Verteilungen, von denen nicht erwartet wird, dass sie dem Benford-Gesetz entsprechen
  • Bei fortlaufender Nummernvergabe: zB Schecknummern, Rechnungsnummern
  • Wo Zahlen vom menschlichen Denken beeinflusst werden: z. B. Preise, die durch psychologische Schwellenwerte festgelegt werden (1,99 USD)
  • Konten mit einer großen Anzahl firmenspezifischer Nummern: z. B. Konten, die für die Erfassung von 100-Dollar-Rückerstattungen eingerichtet wurden
  • Konten mit integriertem Minimum oder Maximum
  • Verteilungen, die sich nicht über eine Größenordnung von Zahlen erstrecken.

Compliance-Theorem des Benford-Gesetzes

Mathematisch gilt das Benfordsche Gesetz, wenn die getestete Verteilung dem "Benford's Law Compliance Theorem" entspricht. Die Herleitung besagt, dass das Benfordsche Gesetz befolgt wird, wenn die Fourier-Transformation des Logarithmus der Wahrscheinlichkeitsdichtefunktion für alle ganzzahligen Werte null ist. Dies ist vor allem dann erfüllt, wenn die Fourier-Transformation für n≥1 null (oder vernachlässigbar) ist. Dies ist erfüllt, wenn die Verteilung breit ist (da eine breite Verteilung eine kleine Fourier-Transformation impliziert). Smith fasst so zusammen (S. 716):

„Das Benfordsche Gesetz wird von Verteilungen befolgt, die im Vergleich zum Einheitsabstand entlang der logarithmischen Skala breit sind. Ebenso folgt das Gesetz nicht von Verteilungen, die im Vergleich zum Einheitsabstand eng sind…. „Wenn die Verteilung im Vergleich zum Einheitsabstand auf der Log-Achse breit ist, bedeutet dies, dass die Streuung in der untersuchten Zahlenmenge viel größer als zehn ist.“

Kurz gesagt verlangt das Benfordsche Gesetz, dass die Zahlen in der gemessenen Verteilung eine Streuung über mindestens eine Größenordnung aufweisen.

Tests mit gängigen Distributionen

Das Benford-Gesetz wurde empirisch anhand der Zahlen (bis zur 10. Stelle) getestet, die von einer Reihe wichtiger Verteilungen erzeugt wurden, einschließlich der Gleichverteilung , der Exponentialverteilung , der Normalverteilung und anderer.

Die gleichmäßige Verteilung gehorcht erwartungsgemäß nicht dem Benfordschen Gesetz. Im Gegensatz dazu das Verhältnis Verteilung von zwei gleichmäßiger Verteilung ist gut beschrieben durch Benford-Gesetz.

Weder die Normalverteilung noch die Verhältnisverteilung zweier Normalverteilungen (die Cauchy-Verteilung ) gehorchen dem Benfordschen Gesetz. Obwohl die Halbnormalverteilung nicht dem Benfordschen Gesetz gehorcht, tut dies die Verhältnisverteilung zweier Halbnormalverteilungen. Weder die rechtsgekürzte Normalverteilung noch die Verhältnisverteilung zweier rechtsgekürzter Normalverteilungen werden durch das Benfordsche Gesetz gut beschrieben. Dies ist nicht verwunderlich, da diese Verteilung in Richtung größerer Zahlen gewichtet ist.

Das Benfordsche Gesetz beschreibt auch die Exponentialverteilung und die Verhältnisverteilung zweier Exponentialverteilungen gut. Die Anpassung der Chi-Quadrat-Verteilung hängt von den Freiheitsgraden (df) mit guter Übereinstimmung mit df = 1 und abnehmender Übereinstimmung mit zunehmendem df ab. Die F -Verteilung ist gut für niedrige Freiheitsgraden ausgestattet. Mit zunehmendem dfs nimmt die Anpassung ab, aber viel langsamer als die Chi-Quadrat-Verteilung. Die Anpassung der Log-Normalverteilung hängt vom Mittelwert und der Varianz der Verteilung ab. Die Varianz hat einen viel größeren Einfluss auf die Anpassung als der Mittelwert. Größere Werte beider Parameter führen zu einer besseren Übereinstimmung mit dem Gesetz. Das Verhältnis zweier logarithmischer Normalverteilungen ist eine logarithmische Normalverteilung, daher wurde diese Verteilung nicht untersucht.

Andere untersuchte Verteilungen sind die Muth-Verteilung , Gompertz-Verteilung , Weibull-Verteilung , Gamma-Verteilung , log-logistische Verteilung und die Exponentialverteilung, die alle eine vernünftige Übereinstimmung mit dem Gesetz zeigen. Die Gumbel-Verteilung – eine Dichte nimmt mit steigendem Wert der Zufallsvariablen zu – stimmt mit diesem Gesetz nicht überein.

Verallgemeinerung auf Ziffern jenseits der ersten

Loglog-Graph der Wahrscheinlichkeit, dass eine Zahl mit der(n) Ziffer(n) n beginnt , für eine Verteilung, die das Benford-Gesetz erfüllt. Die Punkte zeigen die exakte Formel, P(n)=log 10 (1+1/n). Der Graph tendiert in Richtung der durch (1, log 10  e ) verlaufenden gestrichelten Asymptote mit Steigung −1 in log-log-Skala. Das gelbe Beispiel zeigt, dass die Wahrscheinlichkeit, dass eine Zahl mit 314 beginnt, bei etwa 0,00138 liegt. Die gepunkteten Linien zeigen die Wahrscheinlichkeiten für eine Gleichverteilung zum Vergleich. Bewegen Sie den Mauszeiger im SVG-Bild über einen Punkt, um dessen Werte anzuzeigen.

Es ist möglich, das Gesetz auf Ziffern über die erste hinaus auszudehnen. Insbesondere für eine gegebene Anzahl von Ziffern ist die Wahrscheinlichkeit, auf eine Zahl zu stoßen, die mit der Ziffernfolge n dieser Länge beginnt – wobei führende Nullen weggelassen werden – durch:

Beispielsweise beträgt die Wahrscheinlichkeit, dass eine Zahl mit den Ziffern 3, 1, 4 beginnt, log 10 (1 + 1/314) ≈ 0,00138 , wie in der Abbildung rechts gezeigt. Zu den Zahlen, die dies erfüllen, gehören 3,14159..., 314285,7... und 0,00314465... .

Dieses Ergebnis kann verwendet werden, um die Wahrscheinlichkeit zu ermitteln, mit der eine bestimmte Ziffer an einer bestimmten Position innerhalb einer Zahl auftritt. Zum Beispiel ist die Wahrscheinlichkeit, dass eine "2" als zweite Ziffer angetroffen wird,

Und die Wahrscheinlichkeit, dass d ( d  = 0, 1, ..., 9) als n- te ( n  > 1) Ziffer angetroffen wird, ist

Die Verteilung der n - ten Ziffer, wie n zunimmt, nähert sich schnell eine gleichmäßige Verteilung mit 10% für jede der zehn Ziffern, wie unten gezeigt. Vier Ziffern reichen oft aus, um eine gleichmäßige Verteilung von 10 % anzunehmen, da '0' 10,0176 % der Zeit in der vierten Ziffer erscheint, während '9' 9,9824 % der Zeit vorkommt.

Ziffer 0 1 2 3 4 5 6 7 8 9
1 N / A 30,1 % 17,6 % 12,5 % 9,7 % 7,9 % 6,7 % 5,8 % 5,1 % 4,6 %
2. 12,0 % 11,4 % 10,9 % 10,4 % 10,0 % 9,7 % 9,3 % 9,0 % 8,8 % 8,5 %
3. 10,2 % 10,1 % 10,1 % 10,1 % 10,0 % 10,0 % 9,9 % 9,9 % 9,9 % 9,8 %

Momente

Mittelwert und Momente von Zufallsvariablen für die Ziffern 1 bis 9 wurden nach diesem Gesetz berechnet:

Für die zweistellige Verteilung nach dem Benfordschen Gesetz sind auch diese Werte bekannt:

Eine Tabelle mit den genauen Wahrscheinlichkeiten für das gemeinsame Auftreten der ersten beiden Ziffern nach dem Benfordschen Gesetz steht ebenso zur Verfügung wie die Populationskorrelation zwischen der ersten und zweiten Ziffer: ρ = 0,0561 .

In der Populärkultur

In den letzten Jahren ist das Konzept des Benfordschen Gesetzes hinreichend bekannt geworden, um als Handlungsinstrument in einigen populären Unterhaltungen verwendet zu werden, darunter:

  • Benfords Gesetz wurde verwendet, um eine Reihe von schweren Einbrüchen in der Episode "The Running Man" (2006) des Fernsehkrimi-Dramas NUMB3RS aufzuklären .
  • Benfords Gesetz wird verwendet, um den Diebstahl von Geldern eines Roboterunternehmens im Film The Accountant von 2016 aufzudecken .
  • Benfords Gesetz wird verwendet, um die Jahresabschlüsse eines Kartellmitglieds zu analysieren und festzustellen, dass es in der Netflix- Serie Ozark betrogen wurde .
  • In Jeremy Robinsons Roman Infinite 2 wird das Benford-Gesetz verwendet, um zu testen, ob sich die Charaktere in einer Simulation oder in der Realität befinden .

Siehe auch

Verweise

Weiterlesen

Externe Links