Hintergrund P4P Elo-Rangliste
V. 2 / 09.02.2002 Heinrich Opgenoorth
V 3 / 17.09.2005 Heinrich Opgenoorth
(Ich habe mein Dokument erneut überarbeitet und an den aktuellen Stand angepasst.)
Kurzform
Die P4P-Elo-Rangliste basiert auf dem Elo-System (benannt nach seinem Erfinder Dr. Arpad Elo).
Merkmale
Und so funktioniert es, im Überblick (Einzelheiten weiter unten):
Man hat eine Rangliste, wie bisher auch. Das heißt, jeder Spieler hat einen aktuellen Punktestand. Es gibt getrennte Ranglisten für Einzel und Doppel.
Die Rangliste bestimmt, wer wo klassifiziert ist - z.B. alles von 0-500 ist Neuling, von 500-1000 Amateur, usw. Nach dieser Klassifizierung richtet sich dann auch, welche Disziplinen man spielen darf. Klassen- und disziplinenmäßig bleibt also alles beim Alten. Anmerkung: Aktuell wird diese Möglichkeit nicht genutzt, die Elo-Rangliste wird nur zum Setzen verwendet. Klassifizierung und Auf-/Abstieg werden nach dem an anderer Stelle beschriebenen "Classic"-System vorgenommen.
Die Rangliste wird laufend aktualisiert (nach jedem Turnier) und veröffentlicht, so dass jeder Spieler sehen kann, wo er steht.
Hauptunterschied zum "Classic"-System ist die Berechnung der Ranglistenpunkte: es wird nicht einfach "Platzierungsschlüssel * Teilnehmerzahl" gerechnet, sondern nach einer etwas komplizierteren Formel wird jedes einzelne Spiel gewertet, das man während eines Turniers macht. Das geht so nach dem Motto: wenn Dieter Thiele gegen Joe Blase gewinnt, kriegt Dieter nur ganz wenige Punkte dazu, und Joe nur ganz wenige abgezogen. Wenn aber Joe gewinnen sollte, kriegt er ganz viele Punkte dazu, und Dieter viele abgezogen. Das heißt, man kriegt für einen Sieg gegen vermeintlich stärkere Gegner mehr Punkte als für einen Sieg gegen schwächere.
Im Gegensatz zum Classic-System werden die Punktestände nicht im Laufe des Jahres für jeden Spieler immer größer, sondern je nach Siegen oder Niederlagen verbessert oder verschlechtert man sich in seinen Punkten. Man muss daher auch keinen zusätzlichen Punkteschnitt ausrechnen. Die Punkte sind ein Maß für die Spielstärke; je mehr Spiele in die Berechnung eingehen, desto genauer spiegelt der Wert die reelle Spielstärke wieder. So ähnlich funktioniert übrigens auch die (alte) Tennis-ATP-Weltrangliste (nur dass die noch komplizierter ist, weil es da noch alle möglichen Sonderfälle gibt).
Ebenfalls im Gegensatz zum Classic-System fängt die Liste nicht jedes Jahr wieder bei Null an, sondern wird fortlaufend weitergeführt.
Und das waren sie auch schon, die Merkmale.
Vorteile
-
Das System gibt relativ fair die tatsächliche Spielstärke wieder - jedenfalls hoffe ich das; immerhin wird es bei Schach, Backgammon, Go, Tischtennis und diversen weiteren Spielen schon seit etlichen Jahren eingesetzt - vor allem Schach ist ja nun nicht gerade eine Newcomer-Sportart; was die seit 50 Jahren oder wie lange benutzen, kann eigentlich kein völliger Mist sein...
Ich hoffe damit einen gerechteren Auf- und Abstiegs realisieren zu können. Nach einer ausreichenden Anzahl von gewerteten Spielen sollte jeder Spieler "korrekt" in der seiner Spielstärke entsprechenden Klasse eingeordnet sein. Es würden danach nur noch Spieler auf- oder absteigen, deren Spielstärke sich tatsächlich geändert hat. Anmerkung: Wie schon bemerkt konnten wir uns bisher nicht dazu durchringen, den Auf-/Abstieg tatsächlich nach der Elo-Rangliste vorzunehmen.
Das Elo-System wurde von einem Mathematiker entwickelt - oder ist das ein Nachteil? :-)
Da nur die Gegner zählen und nicht die Platzierung, passiert es nicht, dass die Bewertung eines Spielers fälschlich zu weit nach oben geht, wenn er in einem schlecht besetzten Turnier einen vorderen Platz belegt. Umgekehrt wird jemand nicht zu weit abgewertet, wenn er früh gegen bedeutend stärkere Gegner ausscheidet. Aber: siehe bei "Nachteile"...
Nachteile
Ein Nachteil ist die aufwendigere Berechnung der Rangliste, die man auch nicht mehr so leicht (als Spieler) nachprüfen kann -- ohne Computer geht da nichts mehr. Die entsprechende Software funktioniert aber mittlerweile recht gut; und in der Praxis ist es auch bei anderen Systemen schon lange so, dass man als Spieler nicht "mal eben" selber nachrechnen kann, ob die Punkte eigentlich stimmen.
Als Nachteil könnte man auch sehen, dass die Platzierung keine Rolle spielt, sondern nur die Gegner - theoretisch kann man in einer Disziplin Erster werden und sich trotzdem punktemäßig kaum verbessern, wenn man auf dem Weg zum Sieg nur gegen deutlich schlechter eingestufte Spieler gewinnen musste. Daraus folgt, dass ein Spieler, der ständig gewinnt (nennen wir ihn "Frederic C.") sich irgendwann - was die Punktezahl angeht - durch weitere Siege nicht mehr verbessern kann; er kann sich nur noch verschlechtern. Ist ja auch klar eigentlich, weiter als Nr. 1 geht eben nicht...
Man wird nicht für bloße Teilnahmen belohnt, der Wert gibt eben die Spielstärke wieder; wird nur genauer durch viele gewertete Spiele. Ob man das als Nachteil sehen kann, ist zumindest Geschmacksache.
Einzelheiten
Und nun zu denDetails...
Punkteskala
Für unsere 4 Klassen könnten wir eine Skala von 0-2000 mit Abstufung alle 500 Punkte nehmen:
| 0-500 | Neuling |
| 500-1000 | Amateur |
| 1000-1500 | Master |
| > 1500 | Elite |
Anmerkung: Wie gehabt, nur ein Vorschlag, zur Zeit wird die Klassifizierung ohnehin nicht nach dem Elo-System gemacht. Demnächst wird die Ranglistenkommission aber nochmal einen entsprechenden Vorschlag einbringen.
Berechnungsformel
Nach jedem Spielwerden für alle beteiligten Spieler neue Punktestände berechnet.
Zunächst mal Einzel. Die Bewertungsformel sieht so aus
Pneu= Palt+ K(S - GW)
Dabei bedeuten:
Pneu Ranglistenpunkte neu (nach dem Match)
Palt Punkte alt (d.h. vor dem Match)
K Ein Skalierungsfaktor, den man bei Einführung des Systems mehr oder weniger willkürlich festlegen kann (dazu später mehr). K legt fest, wie viele Punkte man bei einem Sieg maximal dazugewinnen kann.
S 0 oder 1, je nach Ausgang des Matches (1 für Sieg, 0 für Niederlage)
GW Die "Gewinnwahrscheinlichkeit" für diesen Spieler in diesem Match. GW berechnet sich nach folgender Formel:
GW= 1 / (10(-D/F) + 1)
Dabei ist:
D Differenz zwischen den Punktzahlen der Gegner: D = Palt(A) - Palt(B)
F Ein weiterer Faktor, der bei Einführung des Systems festgelegt wird. Er bestimmt die Abhängigkeit der Gewinnwahrscheinlichkeit von der Punktedifferenz - d.h. ab wie vielen Punkten Unterschied traut man z.B. Spieler A mit 90% Wahrscheinlichkeit den Sieg zu?
Zu den Faktoren Kund F weiter unten ausführlicher. Aktuell ist der Faktor K variabel (80 / 50 / 30), F beträgt 800. Und nun ein Beispiel:
Beispiel 1a
Spieler A (1800Punkte) gewinnt gegen Spieler B (1550 Punkte). Daraus ergeben sichfolgende neuen Punktstände:
Für SpielerA:
Die"Gewinnwahrscheinlichkeit" berechnet sich zu
GW(A) = 1 /(10-D/F + 1)
= 1 / (10-(1800-1550)/800 +1)
= 1 / (10-0,3125 + 1)
= 1 / (0,4870 + 1)
=0,67
Anschaulichbedeutet das: bei diesem Punkteunterschied (250) zum Gegner "sollte"A eigentlich mit 67%iger Wahrscheinlichkeit gewinnen. (Wie man sieht,wird auf zwei Stellen gerundet, um glatte Prozente zu erhalten).
Bei einem Faktor K=50 ist die neue Punktzahlfür A:
Pneu(A)= Palt(A)+ K * (S - GW(A))
= 1800 + 50 * (1 - 0.67)
= 1800 + 17 (es wird auf glatte Punkte gerundet)
=1817
Jetzt das Gleichefür B:
Gewinnwahrscheinlichkeit: diese muss für B = 0,33 sein, denn wenn A mit 67% Wahrscheinlichkeit gewinnt, bleiben für B die restlichen 33% übrig. Zur Kontrolle können wir aber auch nochmal die Formel anwenden:
GW(B) = 1 /(10-D/F + 1)
= 1 / (10-(1550-1800)/800 +1)
= 1 / (100,3125 + 1)
= 1 / (2,0535 + 1)
=0,33
Der Unterschied ist offenbar nur, dass aus Sicht von B die Differenz der Punkte andersherum gebildet wird, so dass sich -250 statt +250 ergibt. Wie man sieht, kommen dadurch die erwarteten 33% heraus. Kann man durch Umstellen der Formel auch leicht zeigen, dass für GW(B) immer (1-GW(A)) herauskommt.
Neuer Punktestand von B:
Pneu(B)= Palt(B)+ K * (S - GW(B))
= 1550 + 50 * (0 - 0.33)
= 1550 - 17
=1533
Bei diesem Spielausgang erhält also A 17 Punkte dazu, B verliert 17 Punkte. Jetzt rechnen wir den umgekehrten Fall durch, d. h. wenn B gewinnt:
Beispiel 1b
(Die Gewinnwahrscheinlichkeiten müssen wir nicht neu auszurechnen, es sind die gleichen wie eben.)
Pneu(A)= Palt(A)+ K * (S - GW(A))
= 1800 + 50 * (0 - 0,67)
= 1800 - 34
=1766
Pneu(B)= Palt(B)+ K * (S - GW(B))
= 1550 + 50 * (1 - 0,33)
= 1550 + 34
=1584
Aus dem Beispiel erkennt man mehrere wichtige Merkmale des Systems:
Der eine Spieler gewinnt immer genau so viele Punkte hinzu, wie der andere verliert, d.h. die Gesamtsumme der Punkte bleibt gleich. Anmerkung: Dies gilt nicht mehr, wenn man für die beteiligten Spieler mit verschiedenen K-Faktoren rechnet, wie in der aktuellen Version der Elo-Rangliste.
Spieler A bekommt nur 17 Punkte dazu, wenn er gewinnt, verliert aber 34 bei einer Niederlage. Logisch, denn aufgrund der aktuellen Bewertung ist A der stärkere Spieler und "sollte" eigentlich gewinnen.
Umgekehrt bekommt B 34 Punkte dazu, wenn er gewinnen sollte; kriegt aber nur 17 abgezogen, wenn er verliert - weil er eben der schwächer eingestufte Spieler ist.
Anmerkung: ursprünglich haben wir mit einem festen Faktor K gearbeitet (50), der für alle Spieler immer gleich blieb. Aktuell verfahren wir ähnlich wie im Schach: die Punkte von neuen Spielern ändern sich in größeren Sprüngen, indem für diese ein größerer K-Faktor verwendet wird. Der Sinn ist, dass sich der Punktestand von neuen Spielern schneller auf den "realistischen" Wert einpendelt.
Bestimmte Matches sollten nicht mit in die Wertung einbezogen werden (das heißt, es muss in der Software auch eine Möglichkeit geben, bei einem Spiel anzukreuzen "nicht werten"):
Spiele, die durch Aufgabe/Nichterscheinen des Gegners gewonnen wurden
Spiele, bei denen die Gegener das Preisgeld geteilt oder sich sonstwie abgesprochen haben
Das heißt: alle Spiele, bei denen nicht die Spielstärke der Gegner den Ausschlag gegeben hat - schließlich sollen die Punkte ein Maß der Spielstärke sein; die Werte würden verfälscht, wenn man solche Spiele in die Berechnung einbeziehen würde.
Hinweis: Spiele,bei denen (mindestens) ein Ball gespielt wurde, bevor ein Gegner aufgab, werden gezählt. Ansonsten würden irgendwelche Schlaumeier auf die Idee kommen, ein Spiel kurz vor der Niederlage lieber aufzugeben, um keine Ranglistenpunkte zu verlieren.
Anmerkung: Der Punkt der Nichtwertung bestimmter Spiele wird zur Zeit noch diskutiert - einerseits ist es oft schwierig, solche Fälle während des Turniers überhaupt mitzubekommen, andererseits gibt es auch die Theorie, dass z. B. Absprachen "bestraft" werden sollten, indem einer der Beteiligten Punkte verliert.
Auch disziplinenmäßig wird nicht alles gewertet:
DYP-Disziplinen gehen nicht in die Punkterechnung ein. Begründung ist, dass man sich nicht einen Partner aussuchen kann, der die eigenen Schwächen ausgleicht (wie beim normalen Doppel), so dass viel Zufall im Spiel ist. Auch die Disziplinen Masters-Amateure und Mixed werden nicht gewertet.
"Special Events" wie Goalie-War, Forward-Shootout usw. zählen ebenfalls nicht.
Die Faktoren F und K
F
F = 800 bedeutet anschaulich: wenn die Punktedifferenz von A zu B 800 oder mehr beträgt, dann gewinnt A bei einem Sieg nichts mehr dazu (weniger als einen halben Punkt, was zu Null gerundet wird). D. h. ab welcher Punktedifferenz geht man davon aus, dass der stärkere Spieler mit fast absoluter Sicherheit gewinnen wird? Bei einer Skala von 0 - ca. 2000 mit guten Neulingen bei knapp 500 kann man sich überlegen, ob ein Spieler mit 1300 Punkten soviel besser ist, dass er praktisch immer gewinnen wird...
Bei F = 800 und der oben vorgeschlagenen Klassifizierung würde das z. B. bedeuten, dass man dem besten Neuling (499) mit etwa 19% Wahrscheinlichkeit zutraut, den schlechtesten Master (1001) zu schlagen.
K
K legt die Größeder Punktschwankungen nach einem Match fest: K = 50 bedeutet z. B., dass man durch einen Sieg maximal 50 Punkte gewinnen kann. Je größer K, desto stärker schwanken die Bewertungen. Einerseits pendeln sich dadurch die Spielstärkewerte schneller auf reale Werte ein; andererseits können Werte auch schneller verfälscht werden (wenn man z. B. ein Spiel einfach durch Pech verliert und dafür viele Punkte abgezogen bekommt). Man kann es auch so sehen: K bestimmt, wie viel Gewicht man auf die Leistung im letzten Spiel im Vergleich zu den früheren Ergebnissen legt. Je größer K, desto stärker fällt das letzte Spiel ins Gewicht.
Bei einem Sieg gegen einen gleichstark eingestuften Gegner erhält man K/2 Punkte. Für den Aufstieg würde das z. B. bedeuten: wenn man "frische" Neulinge mit 250 Punkten anfangen läßt (Mitte vom Neuling-Intervall), dann muss ein Neuling ca. 15-20 Spiele gegen andere Neulinge gewinnen, bevor er aufsteigt. Gewinnt er gegen Amateure oder Master, geht der Aufstieg schneller.
Erweiterungen sind denkbar, z. B. K für bestimmte (besonders wichtige) Turniere höher ansetzen; oder wie beim Schach verschiedene K-Werte für neue und für etablierte Spieler verwenden (nach der Theorie,dass bei neuen Spielern die Werte stärker schwanken sollten, bis sie ihre "wahre" Bewertung erreicht haben). Anmerkung: letzteres wird in der aktuellen Version der P4P-Elo-Rangliste tatsächlich so gehandhabt.
Doppel
Da das ursprüngliche Elo-System nicht für Doppel entworfen wurde, muss man einen kleinen Trick anwenden, um es auch hierfür benutzen zu können:
Ein Doppel-Team wird in der Formel einfach wie ein einzelner Spieler behandelt, dessen Spielstärke der Durchschnitt der beiden Partner ist.
Anmerkung: In der aktuellen Version der Rangliste (mit möglicherweise unterschiedlichen K-Faktoren für die beteiligten Doppelspieler) wird die Formel viermal ausgerechnet, jeweils mit dem passenden K-Wert, so dass jeder der beteiligten seine individuellen Punkte bekommt.
Auf- / Abstieg
Das Problem "absichtlicher Abstieg" kriegt man jedoch hiermit auch nicht besser gelöst als mit anderen Systemen: wenn jemand aufgestiegen ist, kann er im nächsten Jahr absichtlich so oft verlieren, dass er wieder unter die Grenze zur nächst niedrigeren Klasse fällt; dann fährt er den Rest des Jahres zu keinem Turnier mehr und darf dann in der nächsten Saison wieder ein ganzes Jahr in der Klasse darunter spielen.
Wo wir schon dabei sind: theoretisch kann jemand natürlich von der Punktzahl her auch wieder so weit nach unten kommen, dass er wieder als "Neuling" spielen darf - in diesem Fall gibt es drei Möglichkeiten:
-
Eigentlich hat die untere Gruppe nichts mit "Neuling" zu tun - es ist einfach das untere Viertel von der Spielstärke her. Man könnte also sagen, wessen Punkte wieder in diesen Bereich fallen, der soll auch wieder in dieser Disziplin mitspielen können.
-
Man hält die Punkte künstlich an einer gewissen Grenze fest, d. h. ab 500 bekommt man einfach auch bei verlorenen Spielen keine Punkte mehr abgezogen (sobald man einmal über 500 gewesen
ist). Das kann man leicht in der Formel berücksichtigen. -
Man rechnet die Punkte weiterhin "korrekt" aus, läßt die betroffenen Spieler aber trotzdem nicht mehr bei den Neuling-Disziplinen mitspielen (d. h. man hat dann sowohl "echte" Neulinge mit z. B. 400 Punkten, als auch Spieler mit 400 Punkten, die keine Neulinge mehr sind).
Anmerkung: Im Augenblick gilt sozusagen für alle Spieler Fall 3 - unabhängig von ihrer Elo-Punktzahl gibt es die Klassifizierung nach dem Classic-System. Persönlich wäre ich für Variante 1 (Abstieg zum Neuling erlauben). Vielleicht sollte man dann den Namen dieser Klasse ändern. Jedenfalls sind dann keine komplizierten Sonderregelungen nötig; und warum soll jemand, der schlecht genug ist, nicht wieder in dieser Klasse mitspielen dürfen? (Siehe die ganzen Spieler, die nach der uralten Löwen-Regel allein durch Anwesenheit zum Amateur geworden sind und dann nie wieder Neuling spielen durften).
Berechnung der Punkte
Bei der Berechnung der Punkte (nach einem Turnier) gibt es zwei Möglichkeiten:
Man passt den Punktewert eines Spielers nach jedem Spiel neu an - d. h. wenn er am Anfang 1500 Punkte hat uns sein erstes Spiel verliert, dann bekommt er z. B. 20 Punkte abgezogen; für das zweite Spiel setzt man dann 1480 als Elo-Wert für diesen Spieler ein. Das bedeutet, dass es auch auf die Reihenfolge der gewerteten Spiele ankommt - man müsste also eine einheitliche Reihenfolge festlegen; z. B. die Spiele in der Datenbank nach Uhrzeit sortieren und entsprechend dieser durchrechnen, oder erst alle Spiele einer Disziplin, dann die der nächsten usw.
Oder man nimmt als Palt immer die Werte von vor dem Turnier (so wird es beim Schach praktiziert). Das bedeutet Änderungen der Spielstärke während eines Turniers werden nicht berücksichtigt, was vielleicht auch realistischer ist. Die Reihenfolge der Bewertungen ist dann egal; allerdings nähern sich die Werte u. U. nicht so schnell der realen Spielstärke.
Anmerkung: Zur Zeit wird nach der zweiten Variante verfahren.