Elo-Bewertungssystem - Elo rating system

Arpad Elo , der Erfinder des Elo-Bewertungssystems

Das Elo-Bewertungssystem ist eine Methode zur Berechnung der relativen Fähigkeiten von Spielern in Nullsummenspielen wie Schach . Es ist nach seinem Schöpfer Arpad Elo benannt , einem ungarisch-amerikanischen Physikprofessor.

Das Elo-System wurde ursprünglich als verbessertes Schachbewertungssystem gegenüber dem zuvor verwendeten Harkness-System erfunden , wird aber auch als Bewertungssystem im Verbandsfußball , American Football , Basketball , Major League Baseball , Tischtennis , Brettspielen wie Scrabble und Diplomatie und Esports , insbesondere Counter Strike: Global Offensive und League of Legends .

Der Unterschied in den Bewertungen zwischen zwei Spielern dient als Prädiktor für den Ausgang eines Spiels. Von zwei Spielern mit gleicher Wertung, die gegeneinander spielen, wird erwartet, dass sie die gleiche Anzahl von Siegen erzielen. Ein Spieler, dessen Wertung 100 Punkte höher als die seines Gegners ist, wird voraussichtlich 64% erreichen; beträgt die Differenz 200 Punkte, beträgt die erwartete Punktzahl für den stärkeren Spieler 76%.

Die Elo-Wertung eines Spielers wird durch eine Zahl dargestellt, die sich je nach Ergebnis der gespielten Spiele ändern kann. Nach jedem Spiel erhält der Gewinner des Spielers Punkte vom Verlierer. Die Differenz zwischen den Bewertungen des Gewinners und des Verlierers bestimmt die Gesamtzahl der nach einem Spiel gewonnenen oder verlorenen Punkte. Gewinnt der hochbewertete Spieler, werden dem niedrigbewerteten Spieler nur wenige Bewertungspunkte abgezogen. Wenn der Spieler mit den niedrigeren Werten jedoch einen verärgerten Sieg erzielt , werden viele Wertungspunkte übertragen. Der Spieler mit der niedrigeren Bewertung erhält im Falle eines Unentschiedens auch einige Punkte vom Spieler mit der höheren Bewertung. Dies bedeutet, dass dieses Bewertungssystem selbstkorrigierend ist. Spieler, deren Bewertungen zu niedrig oder zu hoch sind, sollten auf Dauer entsprechend besser oder schlechter abschneiden als das Bewertungssystem vorhersagt und so Bewertungspunkte gewinnen oder verlieren, bis die Bewertungen ihre wahre Spielstärke widerspiegeln.

Ein Elo-Rating ist nur ein Vergleichsrating und gilt nur innerhalb des Rating-Pools, in dem es eingerichtet wurde.

Geschichte

Arpad Elo war ein Meisterschachspieler und ein aktiver Teilnehmer der United States Chess Federation (USCF) seit ihrer Gründung im Jahr 1939. Die USCF verwendete ein numerisches Bewertungssystem, das von Kenneth Harkness entwickelt wurde , um es den Mitgliedern zu ermöglichen, ihren individuellen Fortschritt zu verfolgen andere Bedingungen als Turniersiege und -verluste. Das Harkness-System war einigermaßen fair, führte jedoch unter Umständen zu Bewertungen, die von vielen Beobachtern als ungenau angesehen wurden. Im Auftrag der USCF entwickelte Elo ein neues System mit einer solideren statistischen Grundlage.

Das System von Elo ersetzte frühere Systeme kompetitiver Belohnungen durch ein System, das auf statistischen Schätzungen basiert. Bewertungssysteme für viele Sportarten vergeben Punkte nach subjektiven Bewertungen der „Größe“ bestimmter Leistungen. Zum Beispiel kann der Gewinn eines wichtigen Golfturniers fünfmal so viele Punkte wert sein wie der Gewinn eines kleineren Turniers.

Im Gegensatz dazu verwendet ein statistisches Unterfangen ein Modell, das die Spielergebnisse mit den zugrunde liegenden Variablen in Beziehung setzt, die die Fähigkeiten jedes Spielers darstellen.

Elos zentrale Annahme war, dass die Schachleistung jedes Spielers in jeder Partie eine normalverteilte Zufallsvariable ist . Obwohl ein Spieler von einem Spiel zum nächsten deutlich besser oder schlechter abschneiden kann, ging Elo davon aus, dass sich der Mittelwert der Leistungen eines bestimmten Spielers im Laufe der Zeit nur langsam ändert. Elo betrachtete die wahre Fähigkeit eines Spielers als den Mittelwert der zufälligen Leistungsvariable dieses Spielers.

Eine weitere Annahme ist notwendig, da Schachleistungen im obigen Sinne noch nicht messbar sind. Man kann nicht auf eine Zugfolge schauen und eine Zahl ableiten, die die Fähigkeiten dieses Spielers repräsentiert. Die Leistung kann nur aus Siegen, Unentschieden und Niederlagen abgeleitet werden. Wenn ein Spieler ein Spiel gewinnt, wird daher davon ausgegangen, dass er in diesem Spiel auf einem höheren Niveau als sein Gegner gespielt hat. Umgekehrt, wenn der Spieler verliert, wird angenommen, dass er auf einem niedrigeren Niveau gespielt hat. Bei einem Unentschieden wird davon ausgegangen, dass die beiden Spieler auf nahezu gleichem Niveau gespielt haben.

Elo gab nicht genau an, wie nahe zwei Leistungen sein sollten, um ein Unentschieden im Gegensatz zu einem Sieg oder einer Niederlage zu erzielen. Und obwohl er es für wahrscheinlich hielt, dass Spieler unterschiedliche Standardabweichungen zu ihren Leistungen haben könnten , machte er eine gegenteilige Annahme.

Um die Berechnung noch weiter zu vereinfachen, schlug Elo eine einfache Methode zur Schätzung der Variablen in seinem Modell (dh der wahren Fähigkeiten jedes Spielers) vor. Aus Tabellen ließe sich relativ leicht berechnen, wie viele Spiele die Spieler aufgrund des Vergleichs ihrer Wertungen mit denen ihrer Gegner voraussichtlich gewinnen würden. Die Bewertungen eines Spielers, der mehr Spiele als erwartet gewonnen hat, werden nach oben angepasst, während die eines Spielers, der weniger als erwartet gewonnen hat, nach unten angepasst werden. Darüber hinaus sollte diese Anpassung in einem linearen Verhältnis zu der Anzahl der Siege stehen, um die der Spieler die erwartete Anzahl über- oder unterschritten hatte.

Aus heutiger Sicht sind die vereinfachenden Annahmen von Elo nicht notwendig, da Rechenleistung kostengünstig und allgemein verfügbar ist. Mehrere Personen, allen voran Mark Glickman , haben vorgeschlagen, komplexere statistische Maschinen zu verwenden, um dieselben Variablen zu schätzen. Andererseits hat sich die rechnerische Einfachheit des Elo-Systems als einer seiner größten Vorteile erwiesen. Mit Hilfe eines Taschenrechners kann ein informierter Schachspieler auf einen Punkt genau berechnen, wie seine nächste offiziell veröffentlichte Wertung aussehen wird, was dazu beiträgt, dass die Wertungen fair wahrgenommen werden.

Elos Schema implementieren

Die USCF setzte die Vorschläge von Elo 1960 um, und das System wurde schnell als gerechter und genauer als das Harkness-Bewertungssystem anerkannt . Elos System wurde 1970 von der World Chess Federation (FIDE) übernommen. Elo beschrieb seine Arbeit ausführlich in dem 1978 erschienenen Buch The Rating of Chessplayers, Past and Present .

Spätere statistische Tests haben ergeben, dass die Schachleistung mit ziemlicher Sicherheit nicht normal verteilt ist , da schwächere Spieler größere Gewinnchancen haben, als das Modell von Elo vorhersagt. Daher verwenden die USCF und einige Schachseiten eine Formel, die auf der logistischen Verteilung basiert . Signifikante statistische Anomalien wurden auch bei der Verwendung der logistischen Verteilung im Schach gefunden. Die FIDE verwendet weiterhin die von Elo vorgeschlagene Rating-Differenz-Tabelle. Die Tabelle wird mit Erwartungswert 0 und Standardabweichung 200 berechnet .

Die normalen und logistischen Verteilungspunkte sind in gewisser Weise willkürliche Punkte in einem Spektrum von Verteilungen, die gut funktionieren würden. In der Praxis funktionieren beide Distributionen sehr gut für eine Reihe verschiedener Spiele.

Verschiedene Bewertungssysteme

Der Ausdruck "Elo-Wertung" wird oft verwendet, um die von der FIDE berechnete Schachbewertung eines Spielers zu bezeichnen. Diese Verwendung ist jedoch verwirrend und irreführend, da die allgemeinen Ideen von Elo von vielen Organisationen übernommen wurden, darunter die USCF (vor der FIDE), viele andere nationale Schachverbände, die kurzlebige Professional Chess Association (PCA) und Online-Schachserver einschließlich der Internet Chess Club (ICC), Free Internet Chess Server (FICS) und Yahoo! Spiele. Jede Organisation hat eine einzigartige Implementierung, und keine von ihnen folgt genau den ursprünglichen Vorschlägen von Elo. Es wäre genauer zu allen oben genannt Ratings als Elo und keiner von ihnen als verweisen die Elo - Zahl.

Stattdessen kann man sich auf die Organisation beziehen, die die Bewertung erteilt. Zum Beispiel: "Im August 2002 hatte Gregory Kaidanov ein FIDE-Rating von 2638 und ein USCF-Rating von 2742." Die Elo-Werte dieser verschiedenen Organisationen sind nicht immer direkt vergleichbar, da die Elo-Werte eher die Ergebnisse innerhalb eines geschlossenen Spielerpools als das absolute Können messen. Es gibt auch Unterschiede in der Art und Weise, wie Unternehmen Elo-Bewertungen implementieren.

FIDE-Bewertungen

Für Top-Spieler ist die wichtigste Bewertung ihr FIDE- Rating. Die FIDE hat die folgenden Listen herausgegeben:

  • Von 1971 bis 1980 wurde eine Liste pro Jahr herausgegeben.
  • Von 1981 bis 2000 wurden jährlich zwei Listen herausgegeben, im Januar und im Juli.
  • Von Juli 2000 bis Juli 2009 wurden vier Listen pro Jahr herausgegeben, jeweils Anfang Januar, April, Juli und Oktober.
  • Von Juli 2009 bis Juli 2012 wurden sechs Listen pro Jahr herausgegeben, jeweils Anfang Januar, März, Mai, Juli, September und November.
  • Seit Juli 2012 wird die Liste monatlich aktualisiert.

Die folgende Analyse der FIDE-Ratingliste vom Juli 2015 gibt einen groben Eindruck davon, was ein gegebenes FIDE-Rating im Hinblick auf die Weltrangliste bedeutet:

Die höchste FIDE-Bewertung aller Zeiten war 2882, die Magnus Carlsen auf der Liste vom Mai 2014 hatte. Eine Liste der am höchsten bewerteten Spieler aller Zeiten finden Sie unter Vergleich der besten Schachspieler im Laufe der Geschichte .

Leistungsbewertung

1.00 +800
0,99 +677
0,9 +366
0.8 +240
0,7 +149
0,6 +72
0,5 0
0,4 −72
0,3 −149
0,2 −240
0,1 -366
0,01 -677
0,00 −800

Die Leistungsbewertung ist eine hypothetische Bewertung, die sich nur aus den Spielen eines einzelnen Ereignisses ergibt. Einige Schachorganisationen verwenden den "Algorithmus von 400", um die Leistungsbewertung zu berechnen. Nach diesem Algorithmus wird die Leistungsbewertung für eine Veranstaltung wie folgt berechnet:

  1. Füge für jeden Sieg die Wertung deines Gegners plus 400 hinzu,
  2. Addiere für jeden Verlust die Wertung deines Gegners minus 400,
  3. Und dividiere diese Summe durch die Anzahl der gespielten Spiele.

Beispiel: 2 Siege, 2 Niederlagen

Dies lässt sich durch die folgende Formel ausdrücken:

Beispiel: Wenn Sie einen Spieler mit einer Elo-Wertung von 1000 schlagen,

Wenn Sie zwei Spieler mit Elo-Werten von 1000 schlagen,

Wenn du zeichnest,

Dies ist eine Vereinfachung, bietet aber eine einfache Möglichkeit, eine Einschätzung der PR (Leistungsbewertung) zu erhalten.

Die FIDE berechnet jedoch die Leistungsbewertung anhand der Formel: Durchschnitt der Gegnerbewertung + Bewertungsdifferenz. Die Bewertungsdifferenz basiert auf dem Turnierprozentsatz eines Spielers , der dann als Schlüssel in einer Nachschlagetabelle verwendet wird, in der einfach die Anzahl der erzielten Punkte geteilt durch die Anzahl der gespielten Spiele ist. Beachten Sie, dass im Falle einer perfekten oder fehlenden Punktzahl 800 ist. Die vollständige Tabelle finden Sie im Manual de la FIDE, B. Ständige Kommissionen, 02. FIDE Rating Regulations (Qualification Commission), FIDE Rating Regulations, gültig ab 1. Juli 2017 , 8.1a online. Eine vereinfachte Version dieser Tabelle finden Sie rechts.

FIDE-Turnierkategorien

Kategorie Durchschnittliche Bewertung
Minimum Maximal
14 2576 2600
fünfzehn 2601 2625
16 2626 2650
17 2651 2675
18 2676 2700
19 2701 2725
20 2726 2750
21 2751 2775
22 2776 2800
23 2801 2825

Die FIDE teilt Turniere nach der durchschnittlichen Bewertung der Spieler in Kategorien ein. Jede Kategorie ist 25 Bewertungspunkte breit. Kategorie 1 steht für eine durchschnittliche Bewertung von 2251 bis 2275, Kategorie 2 ist 2276 bis 2300 usw. Bei Damenturnieren sind die Kategorien 200 Bewertungspunkte niedriger, also ist Kategorie 1 eine durchschnittliche Bewertung von 2051 bis 2075 usw. Die höchste -bewertetes Turnier war Kategorie 23, mit einem Durchschnitt von 2801 bis 2825. Die Top-Kategorien sind in der Tabelle.

Live-Bewertungen

Die FIDE aktualisiert ihre Bewertungsliste zu Beginn jedes Monats. Im Gegensatz dazu berechnen die inoffiziellen "Live-Wertungen" die Veränderung der Spielerbewertungen nach jedem Spiel. Diese Live-Bewertungen basieren auf den zuvor veröffentlichten FIDE-Bewertungen, daher soll die Live-Bewertung eines Spielers der FIDE-Bewertung entsprechen, wenn die FIDE an diesem Tag eine neue Liste herausgeben würde.

Obwohl Live-Bewertungen inoffiziell sind, entstand das Interesse an Live-Bewertungen im August/September 2008, als fünf verschiedene Spieler die "Live"-Rangliste Nr. 1 belegten.

Die inoffiziellen Live - Bewertungen von Spielern über 2700 wurden von Hans Arild Runde bei veröffentlicht und gepflegt Live Rating Website bis August 2011. Eine andere Website, 2700chess.com , seit Mai 2011 von beibehalten Artiom Tsepotan , die die Top - 100 - Spieler als auch bedeckt als die 50 besten Spielerinnen.

Rating-Änderungen können manuell mit dem FIDE-Rechner für Rating-Änderungen berechnet werden. Alle Top-Spieler haben einen K-Faktor von 10, was bedeutet, dass die maximale Bewertungsänderung von einem einzelnen Spiel etwas weniger als 10 Punkte beträgt.

Bewertungen des Schachverbands der Vereinigten Staaten

Die United States Chess Federation (USCF) verwendet ihre eigene Klassifizierung von Spielern:

  • 2400 und höher: Senior Master
  • 2200–2399: Nationaler Meister
    • 2200–2399 plus 300 Spiele über 2200: Original Life Master
  • 2000–2199: Experte oder Master-Anwärter
  • 1800–1999: Klasse A
  • 1600-1799: Klasse B
  • 1400–1599: Klasse C
  • 1200–1399: Klasse D
  • 1000–1199: Klasse E
  • 800–999: Klasse F
  • 600-799: Klasse G
  • 400–599: Klasse H
  • 200–399: Klasse I
  • 100–199: Klasse J

Der von der USCF . verwendete K-Faktor

Der K-Faktor , in dem Rating - System USCF, kann durch Teile 800 durch die effektive Anzahl von Spielen eines Spielers Rating auf (basieren geschätzt werden N e ) plus die Anzahl der Spiele des Spieler in einem Turnier (abgeschlossen m ).

Bewertungsebenen

Die USCF hält für alle Ratings eine absolute Ratinguntergrenze von 100 ein. Daher kann kein Mitglied eine Bewertung unter 100 haben, unabhängig von seiner Leistung bei USCF-sanktionierten Veranstaltungen. Spieler können jedoch höhere individuelle absolute Rating-Untergrenzen haben, die mit der folgenden Formel berechnet werden:

Dabei ist die Anzahl der gewonnenen bewerteten Spiele, die Anzahl der gezogenen bewerteten Spiele und die Anzahl der Ereignisse, bei denen der Spieler drei oder mehr bewertete Spiele absolviert hat.

Für erfahrene Spieler, die bedeutende Bewertungen erreicht haben, gibt es höhere Bewertungsebenen. Solche höheren Rating-Floors gibt es, beginnend bei Ratings von 1200 in 100-Punkte-Schritten bis 2100 (1200, 1300, 1400, ..., 2100). Eine Bewertungsuntergrenze wird berechnet, indem die höchste festgelegte Bewertung des Spielers genommen wird, 200 Punkte abgezogen und dann auf die nächste Bewertungsuntergrenze abgerundet wird. Ein Spieler, der beispielsweise eine Spitzenwertung von 1464 erreicht hat, hätte eine Wertungsuntergrenze von 1464 − 200 = 1264, was auf 1200 abgerundet würde. Nach diesem Schema können nur Spieler der Klasse C und höher eine höhere Wertung haben Boden als ihre absolute Spielerwertung. Alle anderen Spieler hätten einen Floor von höchstens 150.

Es gibt zwei Möglichkeiten, höhere Rating-Untergrenzen als nach dem oben vorgestellten Standardschema zu erreichen. Wenn ein Spieler das Rating des Original Life Master erreicht hat, wird sein Rating-Floor auf 2200 festgelegt. Das Erreichen dieses Titels ist insofern einzigartig, als kein anderer anerkannter USCF-Titel zu einem neuen Floor führt. Für Spieler mit Ratings unter 2000 erhöht der Gewinn eines Geldpreises von $2.000 oder mehr die Rating-Untergrenze dieses Spielers auf die nächste 100-Punkte-Stufe, die den Spieler für die Teilnahme am Turnier disqualifiziert hätte. Wenn ein Spieler beispielsweise $4.000 in einem 1750-und-under-Turnier gewonnen hätte, hätte er jetzt eine Bewertungsuntergrenze von 1800.

Theorie

Paarweise Vergleiche bilden die Grundlage der Elo-Ratingmethodik. Elo bezog sich auf die Papiere von Good, David, Trawinski und David sowie Buhlman und Huber.

Mathematische Details

Leistung wird nicht absolut gemessen; es wird aus Siegen, Verlusten und Unentschieden gegen andere Spieler abgeleitet. Die Bewertungen der Spieler hängen von den Bewertungen ihrer Gegner und den gegen sie erzielten Ergebnissen ab. Der Bewertungsunterschied zwischen zwei Spielern bestimmt eine Schätzung für die erwartete Punktzahl zwischen ihnen. Sowohl der Durchschnitt als auch die Streuung der Bewertungen können beliebig gewählt werden. Elo schlug vor, die Bewertungen so zu skalieren, dass eine Differenz von 200 Bewertungspunkten im Schach bedeuten würde, dass der stärkere Spieler eine erwartete Punktzahl (die im Grunde eine erwartete durchschnittliche Punktzahl ist) von ungefähr 0,75 hat, und die USCF zielte ursprünglich darauf ab, dass ein durchschnittlicher Vereinsspieler ein Wertung von 1500.

Das erwartete Ergebnis eines Spielers ist seine Gewinnwahrscheinlichkeit plus die Hälfte seiner Remiswahrscheinlichkeit. Eine erwartete Punktzahl von 0,75 könnte also eine 75-prozentige Gewinnchance, eine 25-prozentige Verlustchance und eine 0-prozentige Unentschieden-Chance darstellen. Das andere Extrem könnte eine Gewinnchance von 50 %, eine Verlustchance von 0 % und eine Unentschieden-Chance von 50 % darstellen. Die Wahrscheinlichkeit, ein entscheidendes Ergebnis zu erzielen, ist im Elo-System nicht angegeben. Stattdessen gilt ein Unentschieden als halber Sieg und halber Verlust. Da in der Praxis die wahre Stärke jedes Spielers unbekannt ist, werden die erwarteten Punktzahlen unter Verwendung der aktuellen Bewertungen des Spielers wie folgt berechnet.

Wenn Spieler A eine Bewertung von und Spieler B eine Bewertung von hat , lautet die genaue Formel (unter Verwendung der logistischen Kurve ) für die erwartete Punktzahl von Spieler A

Ähnlich ist die erwartete Punktzahl für Spieler B

Dies könnte auch ausgedrückt werden durch

und

wo und . Beachten Sie, dass im letzteren Fall für beide Ausdrücke der gleiche Nenner gilt, und es ist klar, dass . Dies bedeutet, dass wir nur durch das Studium der Zähler herausfinden, dass die erwartete Punktzahl für Spieler A um das Vielfache höher ist als die erwartete Punktzahl für Spieler B. Daraus folgt, dass für jeweils 400 Bewertungspunkte Vorteil gegenüber dem Gegner die erwartete Punktzahl vergrößert wird zehnmal im Vergleich zum erwarteten Ergebnis des Gegners.

Wenn die tatsächlichen Turnierergebnisse eines Spielers die erwarteten Ergebnisse übersteigen, nimmt das Elo-System dies als Beweis dafür, dass die Bewertung des Spielers zu niedrig ist und nach oben angepasst werden muss. In ähnlicher Weise wird die Wertung dieses Spielers nach unten korrigiert, wenn die tatsächlichen Turnierergebnisse eines Spielers unter den erwarteten Ergebnissen liegen. Elos ursprünglicher Vorschlag, der immer noch weit verbreitet ist, war eine einfache lineare Anpassung proportional zu dem Betrag, um den ein Spieler seine erwartete Punktzahl über- oder unterschritten. Die maximal mögliche Anpassung pro Spiel, der sogenannte K-Faktor, wurde auf K = 16 für Meister und K = 32 für schwächere Spieler festgelegt.

Angenommen, Spieler A würde Punkte erzielen, hat aber tatsächlich Punkte erzielt . Die Formel zum Aktualisieren der Bewertung dieses Spielers lautet

Dieses Update kann nach jedem Spiel oder jedem Turnier oder nach jedem geeigneten Bewertungszeitraum durchgeführt werden. Ein Beispiel mag zur Verdeutlichung beitragen. Angenommen, Spieler A hat ein Rating von 1613 und spielt in einem Turnier mit fünf Runden. Sie verlieren gegen einen Spieler mit einer Bewertung von 1609, ein Unentschieden gegen einen Spieler mit einer Bewertung von 1477, einen Spieler mit einer Bewertung von 1388, einen Spieler mit einer Bewertung von 1586 und verlieren gegen einen Spieler mit einer Bewertung von 1720. Die tatsächliche Punktzahl des Spielers beträgt (0 + 0,5 + 1 + 1 + 0 .). ) = 2,5. Der nach obiger Formel berechnete erwartete Score war (0,51 + 0,69 + 0,79 + 0,54 + 0,35) = 2,88. Daher ist die neue Wertung des Spielers (1613 + 32(2,5 – 2,88)) = 1601, vorausgesetzt, dass ein K-Faktor von 32 verwendet wird. Entsprechend kann man sagen, dass der Spieler in jedem Spiel einen Ante von K mal seiner erwarteten Punktzahl für das Spiel in einen Pot gelegt hat, der gegnerische Spieler tut dasselbe, und der Gewinner erhält den vollen Pot mit dem Wert K; Im Falle eines Unentschiedens teilen sich die Spieler den Pot und erhalten jeweils K/2 Punkte.

Beachten Sie, dass, obwohl zwei Siege, zwei Niederlagen und ein Unentschieden wie ein Par-Score erscheinen mögen, es für Spieler A schlechter ist als erwartet, da seine Gegner im Durchschnitt niedriger bewertet wurden. Daher wird Spieler A leicht bestraft. Hätte Spieler A zwei Siege, eine Niederlage und zwei Unentschieden bei einer Gesamtpunktzahl von drei Punkten erzielt, wäre das etwas besser als erwartet gewesen, und die neue Wertung des Spielers wäre (1613 + 32(3 − 2,88)) gewesen. = 1617.

Dieses Aktualisierungsverfahren ist der Kern der von FIDE , USCF , Yahoo! Games , den Internet Chess Club (ICC) und den Free Internet Chess Server (FICS). Jede Organisation hat jedoch einen anderen Weg eingeschlagen, um mit der Unsicherheit der Ratings, insbesondere der Ratings von Neuankömmlingen, umzugehen und mit dem Problem der Ratinginflation/Deflation umzugehen. Neuen Spielern werden vorläufige Bewertungen zugewiesen, die drastischer angepasst werden als etablierte Bewertungen.

Die in diesen Bewertungssystemen verwendeten Prinzipien können für die Bewertung anderer Wettbewerbe verwendet werden, zum Beispiel internationale Fußballspiele .

Elo-Bewertungen wurden auch auf Spiele ohne die Möglichkeit von Unentschieden angewendet , und auf Spiele, bei denen das Ergebnis neben der Qualität (Gewinn/Verlust) auch eine Quantität (kleine/große Marge) haben kann. Weitere Informationen finden Sie unter Go-Bewertung mit Elo .

Genauestes Verteilungsmodell

Das erste mathematische Anliegen der USCF war die Verwendung der Normalverteilung . Sie stellten fest, dass dies nicht die tatsächlichen Ergebnisse widerspiegelte, die insbesondere von den Spielern mit niedrigerer Bewertung erzielt wurden. Stattdessen wechselten sie zu einem logistischen Verteilungsmodell , das nach Ansicht der USCF besser zu den tatsächlich erzielten Ergebnissen passte. FIDE verwendet auch eine Annäherung an die logistische Verteilung.

Genauester K-Faktor

Die zweite große Sorge ist der richtige verwendete "K-Faktor". Der Schachstatistiker Jeff Sonas glaubt, dass der ursprüngliche K=10-Wert (für Spieler mit einer Bewertung über 2400) in Elos Arbeit ungenau ist. Wenn der K-Faktor-Koeffizient zu groß angesetzt wird, besteht eine zu große Sensibilität für nur wenige, jüngste Ereignisse in Bezug auf eine große Anzahl von Punkten, die in jedem Spiel ausgetauscht werden. Und wenn der K-Wert zu niedrig ist, ist die Empfindlichkeit minimal und das System reagiert nicht schnell genug auf Änderungen des tatsächlichen Leistungsniveaus eines Spielers.

Elos ursprüngliche K-Faktor-Schätzung wurde ohne den Vorteil riesiger Datenbanken und statistischer Beweise durchgeführt. Sonas weist darauf hin, dass ein K-Faktor von 24 (für Spieler mit einer Bewertung über 2400) sowohl als Vorhersageinstrument für die zukünftige Leistung als auch als leistungsempfindlicher sein kann.

Bestimmte Internet-Schachseiten scheinen eine dreistufige K-Faktor-Staffelung basierend auf dem Bewertungsbereich zu vermeiden. Zum Beispiel scheint die ICC ein globales K=32 zu übernehmen, außer wenn gegen Spieler mit vorläufiger Bewertung gespielt wird.

Die USCF (die eine logistische Verteilung im Gegensatz zu einer Normalverteilung verwendet ) hat den K-Faktor früher nach drei Hauptbewertungsbereichen gestaffelt:

  • Spieler unter 2100: K-Faktor von 32 verwendet
  • Spieler zwischen 2100 und 2400: K-Faktor von 24 verwendet
  • Spieler über 2400: K-Faktor von 16 verwendet.

Derzeit verwendet die USCF eine Formel, die den K-Faktor basierend auf Faktoren wie der Anzahl der gespielten Spiele und der Bewertung des Spielers berechnet. Der K-Faktor wird auch für hoch bewertete Spieler reduziert, wenn das Event kürzere Zeitkontrollen hat.

FIDE verwendet die folgenden Bereiche:

  • K = 40, für einen neu in die Wertungsliste aufgenommenen Spieler bis zum Abschluss von Events mit insgesamt 30 Spielen und für alle Spieler bis zu ihrem 18. Geburtstag, solange ihre Wertung unter 2300 liegt.
  • K = 20, für Spieler mit einer Wertung immer unter 2400.
  • K = 10, für Spieler mit einer veröffentlichten Wertung von mindestens 2400 und mindestens 30 Spielen, die in früheren Veranstaltungen gespielt wurden. Danach bleibt sie dauerhaft bei 10.

Die FIDE verwendete vor Juli 2014 die folgenden Bereiche:

  • K = 30 (vorher 25), für einen Spieler, der bis zum Abschluss von Ereignissen mit insgesamt 30 Spielen in die Wertungsliste aufgenommen wurde.
  • K = 15, für Spieler mit einer Wertung immer unter 2400.
  • K = 10, für Spieler mit einer veröffentlichten Wertung von mindestens 2400 und mindestens 30 Spielen, die in früheren Veranstaltungen gespielt wurden. Danach bleibt sie dauerhaft bei 10.

Die Abstufung des K-Faktors reduziert Rating-Änderungen am oberen Ende des Rating-Spektrums und verringert die Möglichkeit einer schnellen Rating-Inflation oder -Deflation für diejenigen mit einem niedrigen K-Faktor. Dies könnte theoretisch gleichermaßen für eine Online-Schachseite oder für Over-the-Board-Spieler gelten, da es für Spieler schwieriger ist, viel höhere Bewertungen zu erzielen, wenn ihr K-Faktor reduziert wird. Beim Online-Spielen kann es einfach die Auswahl hoch bewerteter Gegner sein, die es 2800+ Spielern ermöglicht, ihre Bewertung weiter zu erhöhen, da ein Großmeister auf der ICC-Spieleseite eine Reihe verschiedener Gegner spielen kann, die alle über 2700 bewertet sind. The-Board-Events, wäre es nur bei All-Play-All-Events auf sehr hohem Niveau möglich, dass ein Spieler diese Anzahl von mehr als 2700 Gegnern angreift, während es bei einem normalen offenen Schweizer-Paar-Schachturnier häufig viele geben würde Gegner, die weniger als 2500 bewertet haben, reduzieren die möglichen Bewertungsgewinne aus einem einzigen Wettbewerb.

Praktische Fragen

Spielaktivität versus Schutz der eigenen Bewertung

In einigen Fällen kann das Bewertungssystem Spielern, die ihre Bewertung schützen möchten, von Spielaktivitäten abhalten. Um Spieler davon abzuhalten, auf einer hohen Wertung zu sitzen, enthielt ein Vorschlag des britischen Großmeisters John Nunn aus dem Jahr 2012 zur Auswahl der Qualifikationsspieler für die Schachweltmeisterschaft einen Aktivitätsbonus, der mit der Wertung kombiniert werden sollte.

Außerhalb der Schachwelt führten Bedenken, dass Spieler kompetitives Spielen meiden, um ihre Bewertungen zu schützen, dazu, dass Wizards of the Coast das Elo-System für Magic: the Gathering- Turniere zugunsten eines von ihnen selbst entwickelten Systems namens "Planeswalker Points" aufgab.

Selektive Kopplung

Ein subtileres Problem bezieht sich auf das Pairing. Wenn die Spieler ihre eigenen Gegner auswählen können, können sie Gegner mit minimalem Verlustrisiko und maximaler Belohnung für den Gewinn auswählen. Besondere Beispiele für Spieler mit einer Bewertung von 2800+, die Gegner mit minimalem Risiko und maximaler Chance auf Wertungsgewinn auswählen, sind: die Auswahl von Gegnern, von denen sie wissen, dass sie sie mit einer bestimmten Strategie schlagen können; Auswahl von Gegnern, die ihrer Meinung nach überbewertet sind; oder es zu vermeiden, starke Spieler zu spielen, die mehrere Hundert Punkte darunter liegen, aber Schachtitel wie IM oder GM halten können. In der Kategorie der Auswahl überbewerteter Gegner sind Neulinge in das Bewertungssystem, die weniger als 50 Spiele gespielt haben, theoretisch ein geeignetes Ziel, da sie in ihrer vorläufigen Bewertung möglicherweise überbewertet werden. Die ICC gleicht dieses Problem aus, indem sie dem etablierten Spieler einen niedrigeren K-Faktor zuweist, wenn er gegen einen neuen Rating-Teilnehmer gewinnt. Der K-Faktor ist eigentlich eine Funktion der Anzahl der bewerteten Spiele, die der Neueinsteiger gespielt hat.

Daher bieten Elo-Bewertungen online immer noch einen nützlichen Mechanismus, um eine Bewertung basierend auf der Bewertung des Gegners bereitzustellen. Seine allgemeine Glaubwürdigkeit muss jedoch im Zusammenhang mit mindestens den beiden oben beschriebenen Hauptproblemen gesehen werden – Triebwerksmissbrauch und selektive Paarung von Gegnern.

Der ICC hat kürzlich auch "Auto-Pairing"-Bewertungen eingeführt, die auf zufälligen Paarungen basieren, aber mit jedem Sieg in Folge einen statistisch viel härteren Gegner sicherstellen, der auch x Spiele in Folge gewonnen hat. Mit potenziell Hunderten von beteiligten Spielern stellt dies einige der Herausforderungen eines großen Schweizer Großereignisses dar, das hart umkämpft ist, wobei Rundensieger auf Rundensieger treffen. Dieser Paarungsansatz maximiert sicherlich das Bewertungsrisiko der höher bewerteten Teilnehmer, die beispielsweise auf sehr starken Widerstand von Spielern unter 3000 stoßen können. Dies ist eine separate Bewertung für sich und fällt in die Bewertungskategorien "1-Minute" und "5-Minute". Maximale Bewertungen über 2500 sind außergewöhnlich selten.

Ratings Inflation und Deflation

Diagramme der Wahrscheinlichkeiten und Elo-Rating-Änderungen (für K=16 und 32) des erwarteten Ergebnisses (durchgezogene Kurve) und des unerwarteten Ergebnisses (gepunktete Kurve) gegenüber der anfänglichen Bewertungsdifferenz. Zum Beispiel startet Spieler A mit einer Wertung von 1400 und B mit 1800 in einem Turnier mit K  = 32 (braune Kurven). Die blaue Strichpunktlinie bezeichnet die anfängliche Ratingdifferenz von 400 (1800 − 1400). Die Gewinnwahrscheinlichkeit von B, das erwartete Ergebnis, beträgt 0,91 (Schnittpunkt der schwarzen durchgezogenen Kurve und der blauen Linie); In diesem Fall sinkt die Bewertung von A um 3 (Schnittpunkt der braunen durchgezogenen Kurve und der blauen Linie) auf 1397 und die von B steigt um den gleichen Betrag auf 1803. Umgekehrt beträgt die Wahrscheinlichkeit, dass A gewinnt, das unerwartete Ergebnis, 0,09 (Schnittpunkt der schwarzen Punkte). Kurve und blaue Linie); In diesem Fall erhöht sich die Bewertung von A um 29 (Schnittpunkt der braunen gestrichelten Kurve und der blauen Linie) auf 1429 und die von B sinkt um den gleichen Betrag auf 1771.

Der Begriff "Inflation", der auf Bewertungen angewendet wird, soll andeuten, dass die Spielstärke des bewerteten Spielers im Laufe der Zeit abnimmt; Umgekehrt deutet "Deflation" darauf hin, dass das Niveau voranschreitet. Bei Inflation bedeutet beispielsweise ein modernes Rating von 2500 weniger als ein historisches Rating von 2500, während bei Deflation das Gegenteil der Fall ist. Die Verwendung von Bewertungen zum Vergleich von Spielern zwischen verschiedenen Epochen wird erschwert, wenn Inflation oder Deflation vorhanden sind. (Siehe auch Vergleich der besten Schachspieler im Laufe der Geschichte .)

Bei einer Analyse der FIDE-Ratinglisten im Laufe der Zeit legt Jeff Sonas nahe, dass eine Inflation seit etwa 1985 stattgefunden haben könnte eine Erhöhung des Spielstandards auf höchstem Niveau, sucht aber auch nach anderen Ursachen.

Die Zahl der Personen mit Bewertungen über 2700 ist gestiegen. Um 1979 gab es nur einen aktiven Spieler ( Anatoly Karpov ) mit einer so hohen Wertung. Im Jahr 1992 war Viswanathan Anand erst der 8. Spieler in der Schachgeschichte, der zu diesem Zeitpunkt die 2700er Marke erreichte. Diese stieg bis 1994 auf 15 Spieler. 33 Spieler hatten 2009 ein Rating von 2700+ und 44 im September 2012. Der aktuelle Benchmark für Elite-Spieler liegt über 2800.

Eine mögliche Ursache für diese Inflation war der Rating-Floor, der lange Zeit bei 2200 lag, und wenn ein Spieler darunter fiel, wurde er von der Rating-Liste gestrichen. Als Konsequenz würden Spieler mit einer Fähigkeitsstufe knapp unter dem Boden nur dann auf der Bewertungsliste stehen, wenn sie überbewertet wurden, und dies würde dazu führen, dass sie Punkte in den Bewertungspool einspeisten. Im Juli 2000 lag die durchschnittliche Bewertung der Top 100 bei 2644. Bis Juli 2012 war sie auf 2703 gestiegen.

Regan und Haworth verwenden eine starke Schach-Engine , um Züge in Partien zwischen bewerteten Spielern zu bewerten, analysieren Sätze von Partien aus FIDE-bewerteten Turnieren und ziehen den Schluss, dass es von 1976 bis 2009 keine oder nur eine geringe Inflation gegeben hat.

In einem reinen Elo-System endet jedes Spiel mit einer gleichen Transaktion von Bewertungspunkten. Erhält der Gewinner N Wertungspunkte, sinkt der Verlierer um N Wertungspunkte. Dadurch wird verhindert, dass Punkte beim Spielen und Bewerten des Systems in das System gelangen oder es verlassen. Spieler neigen jedoch dazu, als Anfänger mit einer niedrigen Wertung in das System einzutreten und sich als erfahrene Spieler mit einer hohen Wertung aus dem System zurückzuziehen. Langfristig führt ein System mit strikt gleichen Transaktionen daher tendenziell zu einer Rating-Deflation.

1995 räumte die USCF ein, dass sich mehrere junge schulische Spieler schneller verbesserten, als das Bewertungssystem nachverfolgen konnte. Infolgedessen verloren etablierte Spieler mit stabilen Bewertungen Bewertungspunkte an die jungen und unterschätzten Spieler. Einige der älteren etablierten Spieler waren frustriert über einen ihrer Meinung nach unfairen Ratingrückgang, und einige gaben sogar das Schachspiel auf.

Bekämpfung der Deflation

Aufgrund der erheblichen Unterschiede im Zeitpunkt des Auftretens von Inflation und Deflation und zur Bekämpfung der Deflation verfügen die meisten Implementierungen von Elo-Ratings über einen Mechanismus zum Einspeisen von Punkten in das System, um die relativen Bewertungen im Laufe der Zeit aufrechtzuerhalten. Die FIDE hat zwei inflationäre Mechanismen. Erstens werden Leistungen unterhalb einer „Wertungsgrenze“ nicht erfasst, sodass ein Spieler mit wahren Fähigkeiten unterhalb der Wertungsgrenze nur ungewertet oder überbewertet werden kann, niemals richtig bewertet. Zweitens haben etablierte und höher bewertete Spieler einen niedrigeren K-Faktor. Neue Spieler haben einen K  = 40, der  nach 30 gespielten Spielen auf K = 20 fällt und auf K  = 10, wenn der Spieler 2400 erreicht um sich verbessernde Spieler zu verfolgen, und verschiedene K-Werte für verschiedene Spieler. Einige Methoden, die zum Beispiel in Norwegen verwendet werden, unterscheiden zwischen Junioren und Senioren und verwenden einen größeren K-Faktor für die jungen Spieler, die den Bewertungsfortschritt sogar um 100% steigern, wenn sie weit über ihrer prognostizierten Leistung liegen.

Rating-Floors in den Vereinigten Staaten funktionieren, indem sie garantieren, dass ein Spieler niemals unter ein bestimmtes Limit fällt. Dies bekämpft auch eine Deflation, aber der Vorsitzende des USCF Ratings Committee kritisierte diese Methode, da sie den sich verbessernden Spielern nicht die zusätzlichen Punkte zuführt. Ein mögliches Motiv für diese Bewertungsebenen ist die Bekämpfung des Sandbagging, dh der bewussten Herabsetzung von Bewertungen, um für niedrigere Bewertungsklassenabschnitte und Preise in Frage zu kommen.

Bewertungen von Computern

Mensch-Computer-Schachspiele zwischen 1997 ( Deep Blue gegen Garry Kasparov ) und 2006 zeigten, dass Schachcomputer in der Lage sind, selbst die stärksten menschlichen Spieler zu besiegen. Die Bewertungen der Schachengine sind jedoch aufgrund variabler Faktoren wie der Zeitsteuerung und der Hardware, auf der das Programm läuft, schwer zu quantifizieren. Veröffentlichte Engine-Bewertungslisten wie CCRL basieren auf reinen Engine-Spielen auf Standard-Hardwarekonfigurationen und sind nicht direkt mit FIDE-Bewertungen vergleichbar.

Für einige Schätzungen der Wertung siehe Schachengine § Wertungen .

Verwendung außerhalb des Schachs

Athletischer Sport

Das Elo-Bewertungssystem wird im Schachbereich des Schachboxens verwendet . Um sich für professionelles Schachboxen zu qualifizieren, muss man eine Elo-Zahl von mindestens 1600 haben und an 50 oder mehr Spielen des Amateurboxens oder der Kampfkünste teilnehmen.

Der amerikanische College-Football verwendete die Elo-Methode als Teil seiner Bewertungssysteme der Bowl Championship Series von 1998 bis 2013, woraufhin das BCS durch das College Football Playoff ersetzt wurde . Jeff Sagarin von USA Today veröffentlicht Team-Ranglisten für die meisten amerikanischen Sportarten, einschließlich Elo-Systembewertungen für College-Football. Die Verwendung von Bewertungssystemen wurde mit der Schaffung des College Football Playoffs im Jahr 2014 effektiv abgeschafft; Die Teilnehmer an der CFP und den dazugehörigen Bowl-Spielen werden von einem Auswahlkomitee ausgewählt.

In anderen Sportarten führen Einzelpersonen Rankings basierend auf dem Elo-Algorithmus. Diese sind normalerweise inoffiziell und werden nicht vom Dachverband des Sports unterstützt. Die World Football Elo Ratings ist ein Beispiel für die Methode der Männer angewendet Fußball . Im Jahr 2006 wurden die Elo-Bewertungen für die Major League Baseball- Teams von Nate Silver , dann von Baseball Prospectus, angepasst . Basierend auf dieser Anpassung erstellten beide auch Elo-basierte Monte-Carlo- Simulationen der Chancen, ob Teams die Playoffs erreichen werden. Im Jahr 2014 führte Beyond the Box Score, eine Website von SB Nation , ein Elo-Ranking-System für internationalen Baseball ein.

Im Tennis bewertet das auf Elo basierende Universal Tennis Rating (UTR) Spieler auf globaler Ebene, unabhängig von Alter, Geschlecht oder Nationalität. Es ist das offizielle Bewertungssystem großer Organisationen wie der Intercollegiate Tennis Association und World TeamTennis und wird häufig in Segmenten auf dem Tennis Channel verwendet . Der Algorithmus analysiert mehr als 8 Millionen Spielergebnisse von über 800.000 Tennisspielern weltweit. Am 8. Mai 2018 hatte Rafael Nadal – nachdem er 46 Sätze in Folge in Sandplatzspielen gewonnen hatte – eine nahezu perfekte Sand-UTR von 16,42.

Eine der wenigen Elo-basierten Ranglisten, die von einem Sportverband gebilligt werden, ist die FIFA Frauen-Weltrangliste , die auf einer vereinfachten Version des Elo-Algorithmus basiert, den die FIFA als offizielles Ranglistensystem für Nationalmannschaften im Frauenfußball verwendet .

Aus der ersten Rangliste nach der FIFA WM 2018 hat die FIFA Elo für ihre FIFA-Weltrangliste verwendet .

Im Jahr 2015 erstellten Nate Silver, Chefredakteur der statistischen Kommentar-Website FiveThirtyEight , und Reuben Fischer-Baum Elo-Bewertungen für jedes Team und jede Saison der National Basketball Association bis zur Saison 2014. Im Jahr 2014 erstellte FiveThirtyEight Elo-basierte Bewertungen und Gewinnprognosen für die amerikanische Profiliga National Football League .

Die Englische Korfball Association bewertete Teams basierend auf Elo-Werten, um die Handicaps für ihren Pokalwettbewerb für die Saison 2011/12 zu bestimmen.

Ein Elo-basiertes Ranking der Spieler der National Hockey League wurde entwickelt. Die Hockey-Elo-Metrik bewertet das gesamte Zwei-Wege-Spiel eines Spielers: Scoring UND Verteidigung sowohl in gleichmäßigen Stärke- als auch in Powerplay- / Penalty-Kill-Situationen.

Rugbyleagueratings.com verwendet das Elo-Bewertungssystem, um internationale und Club- Rugby-Liga- Teams zu bewerten .

Andere Brett- und Kartenspiele

Nationale Scrabble- Organisationen berechnen normalverteilte Elo-Werte, außer im Vereinigten Königreich , wo ein anderes System verwendet wird. Die nordamerikanische Scrabble Players Association hat mit Anfang 2011 etwa 2.000 aktive Mitglieder mit der höchsten Bewertungszahl. Lexulous verwendet auch das Elo-System.

Der beliebte First Internet Backgammon Server (FIBS) berechnet Bewertungen basierend auf einem modifizierten Elo-System. Neuen Spielern wird eine Bewertung von 1500 zugewiesen, wobei die beste Bewertung von Menschen und Bots über 2000 liegt. Die gleiche Formel wurde von mehreren anderen Backgammon-Sites wie Play65 , DailyGammon , GoldToken und VogClub übernommen . VogClub legt die Wertung eines neuen Spielers auf 1600 fest. Die UK Backgammon Federation verwendet die FIBS-Formel für ihre nationalen Wertungen in Großbritannien.

Die European Go Federation hat ein Elo-basiertes Bewertungssystem eingeführt, das ursprünglich von der tschechischen Go Federation entwickelt wurde.

Trotz der Frage, ob es angemessen ist, das Elo-System zur Bewertung von Spielen zu verwenden, bei denen Glück eine Rolle spielt, verwenden die Hersteller von Sammelkartenspielen häufig Elo-Bewertungen für ihre organisierten Spielbemühungen. Die DCI (ehemals Duelists' Convocation International) verwendete Elo-Bewertungen für Turniere von Magic: The Gathering und anderen Wizards of the Coast- Spielen. Die DCI gab dieses System jedoch im Jahr 2012 zugunsten eines neuen kumulativen Systems von "Planeswalker-Punkten" auf, hauptsächlich aufgrund der oben genannten Besorgnis, dass Elo hoch bewertete Spieler ermutigt, das Spielen zu vermeiden, um "ihre Bewertung zu schützen". Pokémon USA verwendet das Elo-System, um seine TCG-Konkurrenten im organisierten Spiel zu ordnen. Zu den Preisen für die Top-Spieler in verschiedenen Regionen gehörten Feiertage und Einladungen zu Weltmeisterschaften bis zur Saison 2011-2012, wo die Auszeichnungen auf einem System von Meisterschaftspunkten beruhten, deren Begründung die gleiche wie die der DCI für Magic: The Gathering war . In ähnlicher Weise verwendet Decipher, Inc. das Elo-System für seine Ranglistenspiele wie Star Trek Customizable Card Game und Star Wars Customizable Card Game .

Videospiele und Onlinespiele

Viele Videospiele verwenden modifizierte Elo-Systeme im kompetitiven Gameplay. Das MOBA- Spiel League of Legends verwendete vor der zweiten Wettkampfsaison ein Elo-Bewertungssystem. Das Esports- Spiel Overwatch , die Grundlage der einzigartigen professionellen Sportorganisation Overwatch League , verwendet ein Derivat des Elo-Systems, um wettbewerbsfähige Spieler mit verschiedenen Anpassungen zwischen den Wettkampfsaisons zu ordnen. Counter-Strike: Global Offensive und GO Battle League in Pokemon Go verwendet ein Glicko-2 , ein modifiziertes Elo-System, während außerhalb der professionellen Ligen für das Spiel (wie ESEA League und Faceit ) Elo-Bewertungen verwendet werden. World of Warcraft nutzte zuvor auch das Glicko-2-System, um Arena-Spieler zu verbünden und zu vergleichen, verwendet jetzt jedoch ein System, das Microsofts TrueSkill ähnelt . Das Spiel Puzzle Pirates verwendet das Elo-Bewertungssystem, um die Platzierung in den verschiedenen Rätseln zu bestimmen. Roblox führte 2010 die Elo-Wertung ein. Dieses System wird auch in FIFA Mobile für die Division Rivals-Modi verwendet. Das Browsergame Quidditch Manager verwendet die Elo-Wertung, um die Leistung eines Teams zu messen. Ein weiteres Spiel, das kürzlich mit dem Elo-Bewertungssystem begonnen hat, ist AirMech , das Elo-Bewertungen für 1v1, 2v2 und 3v3 zufällige/Team-Matchmaking verwendet. RuneScape 3 verwendete das Elo-System bei der Neuveröffentlichung des Kopfgeldjäger-Minispiels im Jahr 2016. Mechwarrior Online führte ein Elo-System für seinen neuen "Comp Queue"-Modus ein, das mit dem Patch vom 20. Juni 2017 wirksam wurde.

Nur wenige Videospiele verwenden das ursprüngliche Elo-Bewertungssystem. Laut Lichess , einem Online-Schachserver, ist das Elo-System veraltet, wobei Glicko-2 jetzt von vielen Schachorganisationen verwendet wird. Battlegrounds von PlayerUnknown ist eines der wenigen Videospiele, das das allererste Elo-System verwendet. In Guild Wars werden Elo-Werte verwendet, um die durch Gilden-gegen-Gilden-Kämpfe gewonnene und verlorene Gildenwertung aufzuzeichnen. League of Legends verwendete zunächst das klassische Elo-System für das Ranglisten-Gameplay, wechselte jedoch nach der dritten Staffel zu einem einzigartigen Bewertungssystem. Verschiedene andere Online-Spiele verwenden Elo-Bewertungen für Spieler-gegen-Spieler-Ranglisten. Seit 2005 bewertet Golden Tee Live Spieler nach dem Elo-System. Neue Spieler beginnen bei 2100, mit einer Top-Spielerbewertung von über 3000. Der anfängliche K-Wert war 30, wurde aber im Januar 2007 auf 5 und dann im Juli 2009 auf 15 geändert. 1998 wurde eine Online-Spieleleiter namens Clanbase ins Leben gerufen, die verwendet das Elo-Scoring-System, um Teams zu ordnen. Die Site ging später im Jahr 2013 offline. Eine ähnliche alternative Site wurde 2016 unter dem Namen Scrimbase gestartet , die auch das Elo-Scoring-System für Ranglistenteams verwendet.

Obwohl viele Videospiele unterschiedliche Systeme für das Matchmaking verwenden , ist es üblich, dass Spieler von Ranglisten-Videospielen alle Matchmaking-Bewertungen als Elo bezeichnen .

Andere Verwendung

Das Elo-Bewertungssystem wurde in der weichen Biometrie verwendet , bei der es um die Identifizierung von Personen anhand menschlicher Beschreibungen geht. Vergleichende Beschreibungen wurden zusammen mit dem Elo-Bewertungssystem verwendet, um robuste und diskriminierende "relative Messungen" bereitzustellen, die eine genaue Identifizierung ermöglichen.

Das Elo-Bewertungssystem wurde auch in der Biologie zur Bewertung männlicher Dominanzhierarchien sowie in der Automatisierung und Computer Vision für die Stoffinspektion verwendet .

Darüber hinaus verwenden Online-Richterseiten auch das Elo-Bewertungssystem oder seine Derivate. Zum Beispiel verwendet Topcoder eine modifizierte Version basierend auf der normalen Verteilung, während Codeforces eine andere Version verwendet, die auf der logistischen Verteilung basiert.

Das Elo-Bewertungssystem wurde auch in Dating-Apps festgestellt, beispielsweise in der Matchmaking-App Tinder , die eine Variante des Elo-Bewertungssystems verwendet.

Referenzen in den Medien

Das Elo-Bewertungssystem wurde während der Algorithmusszene, in der Mark Zuckerberg Facemash veröffentlichte, prominent in The Social Network vorgestellt . In der Szene schreibt Eduardo Saverin mathematische Formeln für das Elo-Bewertungssystem an Zuckerbergs Wohnheimfenster. Hinter den Kulissen, so behauptet der Film, wird das Elo-System eingesetzt, um Mädchen nach ihrer Attraktivität zu ordnen. Die Gleichungen, die den Algorithmus antreiben, werden kurz angezeigt und in das Fenster geschrieben; sie sind jedoch etwas falsch.

Siehe auch

Anmerkungen

Verweise

Weiterlesen

Externe Links