Unterhaltung: Bester Spieler

Fanthomas, 15. Januar 2011, um 20:29

Es wird wieder ein sehr großer Beitrag mit sehr vielen Zitaten, auf die ich mich beziehen möchte. Dabei geht es im Prinzip um drei Themenkomplexe: mein fiktives Beispiel mit den zwei stärksten und schwächsten Spielern, das Verhältnis von Kartenglück und Spielstärke beim Doppelkopf und die Neuberechnung der Spielstärken durch TrueSkill.

1. DAS BEISPIEL AUS MEINEM LETZTEN BEITRAG

Zur Erinnerung an das Beispiel zitiere ich mich einfach mal selbst.

------------------------------
Zitat Fanthomas:

„Ein fiktives Beispiel: Die zwei stärksten (Gewinnwahrscheinlichkeit 80%) und die zwei schwächsten (Gewinnwahrscheinlichkeit 20%) Spieler sitzen an einem Tisch und spielen eine unendliche Anzahl von Spielen. In Normalspielen und Hochzeiten gibt es dann drei Konstellationen: Stark1/Stark2 gegen Schwach1/Schwach2, Stark1/Schwach1 gegen Stark2/Schwach2 und Stark1/Schwach2 gegen Stark2/Schwach1, die jeweils mit einer Wahrscheinlichkeit von 1/3 auftreten. Die Soli lass ich der Einfachheit halber jetzt mal außen vor. Interessant ist nur die erste Konstellation. Der Erwartungswert wird für die starke Partei in dieser Konstellation bei 0,8*4,3 – 0,2*4,3 = 2,58 Punkten pro Spiel liegen. In den anderen beiden Konstellationen liegt der Erwartungswert bei 0, da beide Parteien mit je einem starken und schwachen Spieler gleichstark sind. Somit beträgt der Erwartungswert insgesamt für die starken Spieler 2,58/3 = +0,86 und für die schwachen Spieler demgemäß –0,86 Punkte pro Spiel.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Nun zu den Einwänden, die teilweise geäußert wurden.

------------------------------
Zitat foxxy:

„In dem fiktiven Beispiel geht Fanthomas davon aus, dass 2 mal 2 identisch starke Partner am Tisch sitzen. Ich glaube aber, dass meistens Spieler mit 4 leicht unterschiedlichen Spielstärke zusammenspielen. Dann ergibt sich nämlich für die Stark1/Schwach1 Paarung ein leicht positiver Erwartungswert und für die Stark1/Schwach2 Paarung ein leicht negativer Wert. Insgesamt ergibt das in dem Fall eine eindeutige Rangfolge von 1 bis 4 (erstmal unabhängig von der Gewinnhöhe) und eben nicht zwei erste und zwei dritte Plätze. Dass die zwei Paarungen sich gegenseitig aufheben, halte ich für einen Sonderfall, aber wenn Fanthomas sagt, bei ihm ist das so, dann ist das eben so.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Es geht doch gar nicht darum, dass meistens die Spieler unterschiedliche Spielstärken haben. Für dieses Beispiel habe ich absichtlich eine Konstellation gewählt, wo zwei gleichwertige Spitzenspieler und Anfänger an einem Tisch spielen. Auch wenn real so etwas sehr selten vorkommt, so ist das theoretisch trotzdem möglich. Und nur darum ging es, denn im Vordergrund stand, durch dieses Extrembeispiel die Grenzbereiche der Spielstärken beim Doppelkopf auszuloten. Die andere Bedingung, unendlich lange zu spielen, ist ja auch nur theoretisch von Belang, da praktisch nicht möglich. Was die Erwartungswerte bei vier unterschiedlichen Spielstärken angeht, hat foxxy natürlich Recht. Aber mein Beispiel betrifft dies eben nicht. Ich wollte die Konstellation, wo der stärkste gegen den schwächsten Spieler antritt, behandeln. Und da bekanntlich im Doppelkopf nicht zwei einzelne Spieler, sondern nur Spielerpaare (außer im Solo natürlich) gegeneinander spielen können, habe ich den stärksten und schwächsten Spieler einfach verdoppelt.

Nun wurden Zweifel geäußert, ob in der Konstellation Stark1/Stark2 gegen Schwach1/Schwach2 der gleiche durchschnittliche Spielwert von 4,3 Punkten wie bei den anderen zwei Konstellationen auftritt.

------------------------------
Zitat Spartakus:

„Mal unabhängig davon, ob Stark1/Schwach1 und Stark1/Schwach2 zu gleicher Gewinnerwartung führt oder wie von foxxy zurecht angemerkt wohl zumindest leicht abweichend: Ich denke nicht, dass bei der Konstellation Stark1/Stark2 für irgendwelche Parameter der Wert von 4,3 angesetzt werden kann. Das ergibt sich allein daraus, dass starke Spieler über ein genaueres und auch höheres Ansageverhalten verfügen, die durchschnittlichen Spielwerte dadurch höher liegen werden als in den anderen Konstellationen.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...

------------------------------
Zitat Stoni:

„Ähnlich wie Sparta kommen aber auch mir Zweifel an: 0,8*4,3 – 0,2*4,3 = 2,58 Punkten pro Spiel 2,58/3 = 0,86 EW
Wenn der Durchschnitt über alle Spiele hinweg wirklich 4,3 Punkte ist, dann scheint er mir aber wohl für die Paarung Stark1/Stark2 zusammen höher zu sein. Zum einen ist das Ansageverhalten bei besseren Spielern deutlich höher. Während in der OD-Quali nur rund 20% der Spiele angesagt wurden, waren es in der Königsliga so ca. 70%. Zum anderen optimieren starke Spieler durch Partnerfindung und Informationsaustausch ihre Spiele zusammen ja deutlich besser?“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Zunächst möchte ich daran erinnern, worum es in meinem Beispiel überhaupt ging. Mit dieser Schätzung wollte ich aufzeigen, dass selbst der stärkste Spieler gegen einen Anfänger nicht ein einzelnes Spiel mit 80% Wahrscheinlichkeit gewinnen kann. Der Durchschnittswert von 4,3 Punkten ist allerdings über alle Spieler gemittelt worden. Langfristige Abweichungen von diesem Durchschnittswert kann es meines Erachtens nur geben, wenn starke oder schwache Spieler jeweils unter sich bleiben. Im ersten Fall würde der Wert dann höher, im zweiten niedriger ausfallen. In einem gemischten Umfeld mit allen Spielstärken sieht die Sache aber anders aus. Zwar sagen Topspieler mehr an und ab, wodurch deren gewonnene Spiele mehr Punkte wert sind. Im Gegenzug verlieren sie aber mit schlechten Karten gegen schwache Gegner weniger, da schwache Spieler mit guten Karten viel zu wenig an- und absagen. Dadurch sind solche Spiele unterdurchschnittlich viel wert, was dann wieder für den Ausgleich sorgen sollte. Außerdem könnte man die Argumentation, dass Stark1/Stark2 überdurchschnittlich an- und absagen und dadurch der Wert 4,3 überschritten wird, genauso gut auch umdrehen und somit behaupten, dass in der Konstellation Stark1/Stark2 gegen Schwach1/Schwach2 der Wert 4,3 gerade unterschritten werden müsste, weil ja die schwachen Spieler immer zu wenig oder fast gar nicht an- und absagen.
Da der Mittelwert der Spielstärken am Beispieltisch in allen drei Konstellationen ungefähr dem allgemeinen Durchschnitt entspricht, ist auch zu erwarten, dass die Spiele jeder Konstellation im Mittel 4,3 Punkte wert sind. Ausdruck einer höheren Spielstärke ist eine höhere Gewinnquote (allerdings kleiner als 80%) oder ein höherer mittlerer Punktewert gewonnener Spiele gegenüber einem niedrigeren mittleren Punktewert bei den verlorenen Spielen. Meistens ist auch beides zutreffend, bei den Spitzenspielern ist das garantiert so. Aber der mittlere Punktewert über die Gesamtheit der Spiele bleibt davon ziemlich unberührt.

Fanthomas, 15. Januar 2011, um 20:30

2. SPIELSCHNITTE UND DER EINFLUSS VON KARTENGLÜCK UND SPIELSTÄRKE

------------------------------
Zitat foxxy:

„Auch was die Größe des beta anbetrifft, kam ich auf dieselbe Frage, muss aber die Nuss, falls es nur eine Gewinnklasse gibt, noch knacken. Wenn es wirklich so ist, dass auch Spartakus und HDF zusammen gegen niemand 80% Gewinnwahrscheinlichkeit erreichen können, dann ist das eben so, dann gibt es nur eine Gewinnklasse. Das heißt aber für mich in letzter Konsquenz, dass jeder Versuch einer Klassifikation scheitert. Denn in dem Fall ist die Rangordnung Spartakus hat 0,337 Punkte pro Spiel und HDF nur 0,331 genauso ohne Aussagekraft bzgl. Spielstärke.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Das ist ja auch der Grund, warum ich nach wie vor nicht von TrueSkill für Doppelkopf so begeistert bin. Die Definition einer Gewinnklasse mittels dieser 80% macht eben beim Doppelkopf aus weiter oben schon genannten Gründen keinen Sinn. Natürlich bedeutet das nicht, dass es für Doppelkopf keine Gewinnklassen geben kann. Der Glücksfaktor beim Doppelkopf ist zwar sehr hoch, aber ein reines Glücksspiel ist es auf keinen Fall. Somit setzt sich der stärkere Spieler auf Dauer garantiert durch. Bloß die Definition der Spielstärkedifferenz müsste angepasst werden und dem Fakt Rechnung tragen, dass Doppelkopf einen sehr hohen Glücksfaktor hat.
Die Zahlen, die foxxy nennt, stimmen so nicht, da offensichtlich Dollars mit Punkten verwechselt wurden. Wir sollten hier auch beim Fuchstreff mal nicht vergessen: Doppelkopf wird generell in Punkten abgerechnet!!! Alles andere mit Dollars usw. sind nur abgeleitete Wertungen. Aktuell (Stand 15.01.2011 um 19.30 Uhr) hat Spartakus demnach einen Punkteschnitt von 0,7133 und HDF einen von 0,6486.

------------------------------
Zitat foxxy:

„Wenn der Glücksfaktor ab 500 Spielen irrelevant wird, ist doch alles in Butter, weil Spieler erst ab 1000 Spielen in der Wertung auftauchen. Oder stimmen die 500 nicht und das gilt erst ab 10.000?“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Es stellt sich die Frage, welche Bedingung erfüllt sein muss, um den Glücksfaktor als irrelevant zu bezeichnen. Bedeutet irrelevant einen Einfluss von noch 10% oder 1% oder noch weniger auf das Gesamtergebnis?
Solembum hat schon gut beschrieben, inwiefern Punkteschnitte mit steigender Spielanzahl streuen.

------------------------------
Zitat Solembum:

„Für 200 Spiele beträgt die Standardabweichung 0,35 (dies entspricht 70 Punkten) Nach 1000 beträgt sie 0,16 und nach 10000 Spielen 0,05
Standardabweichung bei n Spielen: (Wurzel (n*25))“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Dazu möchte ich noch anmerken, dass sich seine Formel auf die Standardabweichung der Spielpunkte bezieht. Um die Standardabweichung des Punkteschnitts (SD) für n Spiele zu ermitteln, braucht man folgende Formel:

SD = 5 / Wurzel(n)

Möchte man nun zu einer konkreten Standardabweichung die dazugehörige Anzahl der Spiele wissen, so gilt die umgestellte Formel:

n = 25 / (SD*SD)

Aufgrund meiner bisherigen statistischen Untersuchungen der Spieldaten bei Online-Doppelkopf.com und der Spitzenwerte beim Fuchstreff schätze ich die Standardabweichung der Spielstärken (bezüglich der Punkteschnitte in einem gut durchmischten Spielumfeld) auf ca. 0,2 bis 0,25. Verwendet man den Mittelwert dieses Bereichs 0,225 als Schätzwert für die Standardabweichung der Spielstärken, so folgt daraus, dass bei ca. 500 Spielen statistisch gesehen Kartenglück und Spielstärke einen gleichwertigen Einfluss auf das Ergebnis haben. Also dominiert daher bei Ergebnissen auf der Basis von weniger als 500 Spielen der Einfluss des Kartenglücks und bei mehr als 500 Spielen der Einfluss der Spielstärke. Das heißt aber nicht, dass bei 5000 Spielen überhaupt kein Glücksfaktor mehr existiert. Der Einfluss des Kartenglücks ist dann zwar schon relativ gering geworden, aber durchaus noch messbar. Er nimmt mit steigender Spielanzahl kontinuierlich ab, erreicht aber erst im Unendlichen wirklich Null. Immerhin beträgt die Standardabweichung der Punkteschnitte für 5000 Spiele noch rund 0,07. Da Ergebnisse zu 95,4% innerhalb +/- 2 Standardabweichungen liegen, gibt es eine nicht zu vernachlässigende Wahrscheinlichkeit von 4,6%, dass ein Spieler Ergebnisse außerhalb dieses Bereichs hat. Für einen Spieler der fiktiven Spielstärke +0,30 (in einem gemischten Umfeld) bedeutet dies für den Punkteschnitt von 5000 Spielen, dass zu 2,3% ein Ergebnis besser als 0,30 + 2*0,07 = 0,44 und zu weiteren 2,3% eines schlechter als 0,30 – 2*0,07 = 0,16 zu erwarten ist. Das sind wirklich noch bedeutsame Abweichungen, denn 0,16 ist ja fast nur die Hälfte des Schnitts, der eigentlich aufgrund der Spielstärke zu erwarten wäre.

Fanthomas, 15. Januar 2011, um 20:30

3. TRUE SKILL

Nun zur Neuberechnung der TrueSkill-Werte. Dazu schrieb vor kurzem mk nachfolgende Erläuterungen.

------------------------------
Zitat mk:

„In den TrueSkill-Parametern haben wir jetzt Beta deutlich vergrößert (von 18 auf 50) und Tau von 0.03 auf 0.01 verkleinert. Die Auswirkung davon ist, dass sich die Spielstärken jetzt weiter über das Spektrum von 0 bis 50 verteilen, da der Glücksfaktor über die Kartenstärke somit erhöht wurde. Also bei einer Differenz von 50 Spielstärkepunkten (was extrem viel ist und quasi nie vorkommt), geht man von einer Gewinnwahrscheinlich von 80% für die bessere Partei aus.
Die Aktivität für die Berechnung hängt jetzt linear vom Spielwert ab. D.h. ein 1-Punkt spiel wirkt sich 1/4 so stark auf die Spielstärke aus, wie ein 4-Punkt spiel.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Die neuen Werte führen auf jeden Fall zu deutlich realistischeren Bewertungen als vorher. Ich finde es gut, dass das Fuchstreff-Team auf die berechtigte Kritik zügig mit Nachbesserungen reagiert hat. Allerdings sind aus meiner Sicht weitere Verbesserungen notwendig und ich hoffe, dass auch der Wille da ist, noch auftretende Diskrepanzen in den Bewertungen zu beseitigen oder wenigstens zu minimieren.

------------------------------
Zitat mk:

„Meiner Meinung nach ist die TrueSkill Methode trotzdem wesentlich besser zum Vergleich der Spieler da zum einen die Spielstärke der Gegner eingeht und diese Statistik wesentlich schwerer durch absichtliches Verlieren manipuliert werden kann.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Es steht außer Frage, dass eine Methode, welche die Spielstärken jeweiliger Gegner und auch Partner berücksichtigt, viel präziser wahre Spielstärken ermitteln kann als eine Methode, die das nicht leistet. Ich bin nur skeptisch, ob nun gerade TrueSkill die optimale Methode für Doppelkopf ist. Seltsam hat in diesem Thread einen Vergleich zwischen ihm und dem Spieler Brutalchen vorgenommen. Ich möchte anhand seines Beispiels auf einige Dinge hinweisen, die meiner Meinung nach noch fragwürdig sind.
Aktuell (15.01.2011 um 19.30 Uhr) haben beide Spieler folgende Daten:
Seltsam: 12106 Spiele; Punkteschnitt: 0,3549; TrueSkill 36,80 (39,65 ± 0,95)
Brutalchen: 1052 Spiele; Punkteschnitt: 0,7167; TrueSkill 42,48 (48,52 ± 2,01)
Was an diesen Zahlen sofort auffällt, ist der hohe Erwartungswert 48,52 von Brutalchen. Ich halte es für unrealistisch, dass man nach nur 1052 Spielen schon auf einen derartig hohen Erwartungswert von +2,82 Standardabweichungen über dem Durchschnitt 25 kommen kann. Gleichzeitig geht TrueSkill davon aus, dass Brutalchens Spielstärke schon recht genau mit einer Standardabweichung von ±2,01 bekannt ist. Auch da habe ich berechtigte Zweifel, wenn man bedenkt, dass bei 1052 Spielen die Spielschnitte mit einer Standardabweichung von 0,154 schwanken und die Spielstärken selbst ja einer nur geringfügig höheren Standardabweichung von ca. 0,2 bis 0,25 unterliegen. Zwar werden durch die neuen Einstellungen von TrueSkill die Spielstärken innerhalb des Bereichs von ±3 Standardabweichungen jetzt viel besser verteilt, aber der Algorithmus scheint etwas zu schnell auf positive oder negative Spielergebnisse zu reagieren.
Was den Vergleich der beiden Spieler angeht, so würde ich die Leistung von Brutalchen höher bewerten als die von Seltsam. Ohne Berücksichtigung der Spielstärken von Partnern und Gegnern (also für den hypothetischen Fall einer ideal gemischten Liga) habe ich folgende Erwartungswerte für die Spielstärke (definiert als zu erwartender Punkteschnitt im Unendlichen) ermittelt:
Seltsam: 0,3409 (± 0,0439)
Brutalchen: 0,4858 (± 0,1251)
Die Zahlen in Klammern sind die dazugehörigen Standardabweichungen.
Der Erwartungswert für die Spielstärke wäre bei Brutalchen unter diesen Voraussetzungen um 0,1449 höher als bei Seltsam. Zieht man allerdings wie bei TrueSkill für das Rating die 3fache Standardabweichung ab, so liegt Seltsam mit 0,2092 vor Brutalchen mit 0,1105. Wer vorne liegt, ist also eine Frage der Berechnungsmethode. Es ändert aber nichts an der Tatsache, dass Brutalchen mit sehr hoher Wahrscheinlichkeit die höhere Spielstärke aufgrund des deutlich höheren Erwartungswertes hat.
Jetzt hier die genaue Herleitung meiner Zahlen zur erklären, würde leider den Rahmen total sprengen. Falls aber genügend Interesse besteht, würde ich das gerne später nachholen, sobald zeitlich machbar.

Bezüglich dieses Beispiels hat mk geantwortet und dabei drei Punkte angeführt, zu denen ich noch ein paar Anmerkungen machen möchte.

------------------------------
Zitat mk (an Seltsam gerichtet):

„Von den Werten her denke ich dass Du von Dir und Brutalchen redest. Bei solchen Fragen kannst Du gerne auch die Spielernamen veröffentlichen, da wird ja keiner (ausser vielleicht unsere Berechnung) angeprangert...
Dadurch, dass unsere Spielstärke die Stärken der Gegner in die Berechnung mit aufnimmt, kann man die Ursache des Unterschieds leider aktuell nicht sofort an einem Wert wie dem Punkteschnitt / Spiel erkennen. Auf der anderen Seite hat das aber auch wie gesagt einige Vorteile.
Vorausgesetzt unsere Berechnung enthält keine Fehler mehr (was ich noch nicht mit Sicherheit ausschliessen kann), fallen mir auf die schnelle drei Mögliche Ursachen ein:
1) Du (mit dem besseren Gesamtschnitt) hast in den letzten (paar hundert) Spielen schlechter gespielt als Brutalchen (mit dem schlechteren Gesamtschnitt).
2) Brutalchen hat die Punkte gegen Gegner mit höherer Spielstärke erspielt.
3) Es ist ein Problem in unserer Berechnung, da du schon viel länger spielst als Brutalchen, und bei vielen Deiner alten Spiele die Gegner von der Spielstärke (die ja bei 0 anfängt) insgesamt schlechter waren.
Wir schauen morgen mal in Ruhe nach, ob einer der Punkte (und wenn ja welcher) zutreffend ist, dann melden wir uns nochmal.
Wir überlegen aktuell auch, inwieweit man diese Daten noch graphisch über die Zeit darstellen kann, damit man sich seine Entwicklung über die Zeit anschauen kann.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Punkt 1 verstehe ich überhaupt nicht. Den besseren Gesamtschnitt hat doch Brutalchen! Und es geht ja nicht nur um die letzten paar hundert Spiele, sondern um die Gesamtbewertung aller Spiele. Anscheinend ist es aber so, dass bei TrueSkill der Einfluss der Spielergebnisse geringer wird, je weiter diese Spiele zurückliegen. Das hielte ich dann für einen Schwachpunkt, wenn diese Gewichtung derart schnell abnehmen würde, dass dadurch selbst bei Spielern mit 10000 und mehr Spielen die Spielstärke aufgrund einer Pechsträhne von beispielsweise nur 500 Spielen noch zu stark schwanken könnte.
Punkt 2 ist natürlich logisch. Aber wie gesagt, bin ich selbst ohne Berücksichtigung der Spielstärken von Gegnern und Partnern zu der Auffassung gelangt, dass Brutalchen ein besseres Ergebnis als Seltsam hat.
Punkt 3 ist ohne Einblick in die entsprechenden Daten schwer abzuschätzen. Ich verstehe allerdings nicht, wieso bei den alten Spielen von Seltsam die Gegner insgesamt schlechter gewesen sein sollten. Zwar starten die Spieler im Skill bei Null, aber in die Berechnung gehen doch meines Erachtens nur die Werte in Klammern (Erwartungswert und Standardabweichung) ein, welche bei 25 ± 8,333 starten, oder? Wenn man also mit vielen Leuten spielt, die auf der Plattform gerade erst neu begonnen haben, so werden doch deren Spielstärken logischerweise eher durchschnittlich, dafür aber mit einer größeren Unsicherheit bewertet sein, da ja noch nicht genügend Spiele für eine genauere Einschätzung vorliegen. Und Einfluss auf die Veränderung des eigenen Werts haben außerdem nicht nur die Gegner, sondern auch der jeweilige eigene Partner.

------------------------------
Zitat Seltsam:

„Und noch was. Spielstärke nimmt ja nicht ab, wenn man grad mal ein paar tage nur die miesesten Blätter bekommt, denn aus dem Schrott noch den möglichst geringsten Verlust zu machen, ist auch Spielstärke. Hier aber muss ich feststellen, es gibt keine Blattbewertung in der Spielstärkenberechnung, die das berücksichtigt. hat man als Vielspieler einen langen schlechten lauf, ist man klar benachteiligt und verarscht.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

In der Theorie ist das natürlich richtig. Eine Spielstärkenberechnung unter Einbeziehung der Blattbewertung wäre erheblich genauer als alles bisher Bekannte und auch die einzige Methode, nach relativ wenig Spielen schon zu einer sehr genauen Einschätzung der Spieler zu kommen. In der Realität wird die Umsetzung aber sehr schwer sein. Es müssten ja nicht nur die einzelnen Blätter der Spieler bewertet werden, sondern die konkrete Verteilung insgesamt. Und das würde letztendlich darauf hinaus laufen, dass vier vom Computer simulierte Spieler das gleiche Spiel nachspielen müssten, um dann mittels der Punktedifferenzen zum tatsächlichen Ergebnis Rückschlüsse auf die Spielstärken zu ziehen. Die neuen Computerspieler des Fuchstreffs spielen ja nicht schlecht und sind meines Erachtens auch etwas stärker als die Computer bei Online-Doppelkopf.com. Um für einen ausgefallen Spieler einzuspringen, reicht das sicherlich aus, denn es wäre ja auch nicht sinnvoll, wenn ein Abbruch noch belohnt wird, indem der eingesprungene Computerspieler wie ein Top-Profi spielt. Für das Nachspielen zwecks Spielstärkenbestimmung müsste allerdings eine erhebliche Weiterentwicklung geschehen. Ein Spielniveau ähnlich wie beim Programm Rasches Doppelkopf wäre nötig. Und da hier immer eine gewisse Anzahl von Spielen gleichzeitig abläuft, müssten dann auch all diese Spiele gleichzeitig nachgespielt werden, was wahrscheinlich schon eine ganze Menge Rechenpower verlangt. Ich denke aber, dass das schon möglich ist, wenn auch schwierig. Auf jeden Fall wäre so etwas für mich DIE Innovation in Sachen Internet-Doppelkopf und vor allem schon deshalb einzigartig, weil im Live-Spiel nicht möglich.

------------------------------
Zitat Seltsam (an mk gerichtet):

„Deine Vermutung, mit schlechteren Spieler zu spielen würde es leichter machen, ist nicht falsch, qaber auch nicht konstant richtig. Denn hier wird unberechenbar schlecht gespielt und ich habe erst heute mit Herrmann wieder erfahren, wann man wirklich Punkte holt: wenn man wenigstens einen guten Spieler am Tisch hat, der das Spiel auch wirklich kann.“

Quelle:
http://www.fuchstreff.de/forum/diskussionen/2...
------------------------------

Diese Diskussion hatten wir auch schon vor längerer Zeit im ODOD-Forum. Für mich ist klar, dass ein sehr guter Spieler an einem Tisch mit schlechteren und vor allem auch sehr schlechten Spielern mehr Punkte machen kann als an einem Tisch mit guten Spielern. Jeder schlechte Spieler am Tisch ist in 2/3 der Fälle der Gegner und nur in 1/3 der Fälle der Partner. Natürlich muss man sich auf die Unberechenbarkeit solcher Spieler einstellen. Für einen Spieler, der wirklich gut spielt und das nicht nur von sich behauptet, dürfte dies kein Problem sein. Eher die Psyche stellt da ein Problem dar. Daran scheitert es oft und so macht der gute Spieler eben plötzlich nicht die Punkte, die er eigentlich machen sollte. Denn es ist einfach ätzend, an solchen schlechten Tischen zu spielen und dies kann dazu führen, dass ein guter Spieler so genervt wird, dass er erheblich schlechter spielt als er könnte. Genau das führt dazu, dass viele meinen, es wäre schwerer an schlechten Tischen Punkte zu holen als an guten Tischen. Aber letztendlich ist es ganz einfach. Entweder man konzentriert sich als guter Spieler am schwachen Tisch genauso wie am starken Tisch oder man meidet schwache Tische. Falls ein guter Spieler am schwachen Tisch durch unkonzentriertes Spiel schlechtere Ergebnisse erzielt, ist es aber dann auch gerechtfertigt, wenn seine Spielstärke herunter gestuft wird. Zur Spielstärke zählt eben auch die Fähigkeit, mit Spielern unterschiedlicher Stärke konstant gut zu spielen.

Zum Abschluss möchte ich noch einmal mein Anliegen bekräftigen, in der Fuchsschau unter „Bester Spieler“ eine ausführliche Tabelle zu verlinken. Dort müssten von allen Spielern folgende Daten gelistet sein: Anzahl der Spiele, die wahre Anzahl der gewonnenen Spielpunkte (Punkte, nicht Dollars!!!), der wahre Spielpunkteschnitt (Punkte, nicht Dollars!!!), der durchschnittliche Skill-Erwartungswert (der erste Wert in der Klammer) der jeweiligen Partner beziehungsweise Gegner eines Spielers, gemittelt über alle absolvierten Spiele. Um als interessierter User effektiv die Auswirkungen des TrueSkills zu studieren, wäre so eine Tabelle unbedingt notwendig. Es reicht nicht aus, immer nur einzelne Spieler anzuklicken, sondern es braucht eine übersichtliche Zusammenfassung, wie es in einer Tabelle optimal möglich ist. Ich hoffe, dass bald so etwas eingerichtet wird, da das Fuchstreff-Team ja selbst um Hinweise von den Usern bezüglich statistischer Auffälligkeiten gebeten hat. Außerdem wären solche vollständige Tabellen überhaupt für eine größere Transparenz der Ergebnisse sehr wünschenswert.

Grüße,
Fanthomas

Seltsam, 15. Januar 2011, um 21:22
zuletzt bearbeitet am 15. Januar 2011, um 21:24

Was mich irritiert, was ich nicht ok finde, ist die für diese Liste gewählte Bezeichnung "Bester Spieler", die angeblich aus der Berechnung von Spielstärke hervorgeht. Wenn es also Spielstärke ist, möchte ich gerne mal genau wissen, wie es zu der Bewertung von Platz 8 kommt.
Platz 8 (gesamt)
3840 Spiele Punkteschnitt 0,3 Trueskillwerte: 42,52 (46.80 ± 1.43)

Das vergleiche man exemplarisch mit den Foxxywerten und meinen, oder anderen Werten mit vergleichbarem Schnitt aber hoher Beständigkeit durch sehr viele Spiele.
24551 Spiele Punkteschnitt 0,32 Trueskillwerte: 38,30 (41.13 ± 0.94)
12106 Spiele Punkteschnitt 0,36 Trueskillwerte: 36,80 (39.65 ± 0.95)

Ob und wie weit Foxxy nun besser positioniert ist, ist mir wurscht, denn wer so viele Spiele hat und den Schnitt halten kann, verdient schon mal Anerkennung, ganz zu Schweigen von Leistungen eines Hans, Dirk, Jürgen oder Uwe.
Im direkten Vergleich ist zwar mein Schnitt etwas besser, aber für mich ist klar, Konstanz erhöht die Wertigkeit eines Schnittes leicht. Daher bin ich sicher, soweit ist das alles ok.

Nun vergleiche man aber die beiden Trueskillwerte mit denen von Platz 8, der nur einen Bruchteil der Spiele absolviert hat und im Schnitt ebenfalls dahinter liegt. Das aber ist immerhin so knapp, dass man das noch glauben könnte. Aber die Trueskillzahlen machen das Ergebnis in der Platzierung ziemlich absurd, denn da sind 40 Plätze zwischen und die Werte sind so unterschedlich, dass ich annehmen muss, das dort was nicht dem Spiel angemessen berechnet wird. Wie sollen trotz der höheren Konstanz und des besseren Schnitts 40 Plätze begründet sein? (etwa 20 ? bei Foxxy)
Und weil das eben alles so undurchsichtig und für den User so gut wie gar nicht nachvollziehbar ist, bleiben solche Listen Blödsinn.
Ein an solchen Daten interessierter User muss es einigermassen verstehen können. Transparenz ist das A und O eines Wettbewerbs. Das kommt aber bei euch anscheinend nicht an.

Ex-Füchse #8493, 16. Januar 2011, um 03:46

Kann mir jemand in einfachen Worten erklären, wie ich bei meiner Spielstärke Anzahl und Farbe der Sterne sowie die vielen Zahlen dahinter zu interpretieren habe? Sind höhere Werte besser als niedrige und was bedeuten rote Sterne im Gegensatz zu schwarzen? Mir ist egal, wie's letztlich ermittelt wird - ich möchte es nur verstehen und lese das auch gerne irgendwo nach. Danke im Voraus.

foxxy, 16. Januar 2011, um 11:15
zuletzt bearbeitet am 16. Januar 2011, um 11:46

Hi Fanthomas,

nur so als Tip, der Beitrag wird nicht nur um die Hälfte kürzer, wenn du die zitierten Textstellen weglässt, sondern auch leserlicher. Die 4 Leute, die das Thema noch interessiert, kennen auch die Textbezüge und brauchen nicht mal nachlesen. Die anderen haben ja die Links. :D

Aber mal zu dem Punkte/Dollar Thema:
0,32$ --> 0,65P
0,35$ --> 0,71P
0,43$ --> 0,86P
Was habe ich denn da wieder falsch verstanden? Auch wenn ja die Spielzahl nicht hoch genug für eine 95% konfidente Aussage zu sein scheint, taucht der ja in beiden Listen in den Top10 auf.

Dass die Zahl so niedrig ist, erhöht ja die Chance für Durchschnittsspieler, auch mal darin zu erscheinen, ist ja auch ein Vorteil. Man könnte alternativ eine Art Halbwertszeit für die Platzierung ermitteln, dann flögen Spieler, die nicht genug Spiele nachlegen, nach einer Weile wieder raus.

Aber hier gibt´s ja eh (noch) keinen Wettbewerb im eigentlichen Sinne, sondern "nur" eine Top10 Liste.

Und das Kind ist ja eh schon in den Brunnen gefallen, man kann ihm jetzt höchstens noch Schwimmen beibringen. :D

lg foxxy

Fanthomas, 16. Januar 2011, um 11:32

Gut, foxxy. Dann werde ich ab sofort umfangreichere Ausführungen nicht mehr Beitrag, sondern Aufsatz nennen. Für Aufsätze sind doch sicherlich mehr Wörter erlaubt als für Beiträge ... :D :D

foxxy, 16. Januar 2011, um 11:48

Ich erlaube oder entlaube da nix, ist ja weder mein Forum noch mein Beitrag, ich gebe nur stets gerne meinen Senf dazu. :D

Seltsam, 16. Januar 2011, um 13:47
zuletzt bearbeitet am 16. Januar 2011, um 13:50

Nochmal, MK, ich möchte eine Erklärung, wie es zu diesen Platzierungen kommt.
Platz 8 (gesamt)
3840 Spiele, Punkteschnitt 0,3 , Trueskillwerte: 42,52 (46.80 ± 1.43)

Platz 53
12106 Spiele, Punkteschnitt 0,36 , Trueskillwerte: 36,80 (39.65 ± 0.95)

Dazwischen liegen noch mehr unerklärliche Positionierungen. Kannst Du es nun deinen Usern verständlich machen, oder nicht?

Nebenbei erwarte ich, dass meine roten Sterne umgehend grau werden, denn für die paar zusätzlichen Features würde ich nie auch nur einen Cent rausrücken und ich möchte definitiv nicht anderen den Eindruck vermitteln, ich würde für so sinnlosen Schnickschnack Geld verschenken. Da würden meine Freunde ja über mich lachen.

Und als Werbung zur Animation anderer Spieler, zahlender Kunde zu werden, weil es ja schon offensichtlich welche gäbe, will ich ebenfalls nicht missbraucht werden. Danke!

Doko_Engel, 16. Januar 2011, um 16:48

@seltsam

statt dankbar zu sein,das dir jemand ein monatsabo spendiert hat,damit du alles mal testen kannst,meckerst du nur rum

du bist nicht der nabel der welt das man sich 24h am tag um deine sorgen und nöte kümmern sollte... take it easy und atme mal locker durch die hose... die admins arbeiten jeden tag an der seite um sie zu verbessern

in diesem sinne
viel spass allen

Prost, 16. Januar 2011, um 17:01

@seltsam

wenn du Geld für die Seite bezahlen würdest, hättest du möglicherweise einen Grund etwas zu erwarten.
Finde es schon erstaunlich, wie viel Zeit manche Leute haben.

Seltsam, 16. Januar 2011, um 17:44

"statt dankbar zu sein, das dir jemand ein monatsabo spendiert hat,damit du alles mal testen kannst,meckerst du nur rum"

Ja, ja, ein freundschaftliches Geschenk. Na klar, Schweine können fliegen und um die paar popeligen Features auszuprobieren benötigt man auch einen ganzen Monat.^^ Träum' mal schön weiter.

Das ist eines der ersten Dinge, die man im Marketing lernt, wie schaffe ich Interesse und Vertrauen für ein neues Produkt mit Kundenbindung: sei spendabel (ein paar Monate umsonst spielen, dann kostenpflichtge Erweiterungen), schaffe Vorbilder, Vorreiter. In der Online-Liste erscheinen eine menge Spieler als Mitglied der "Fördergemeinschaft", ohne wirklich ein abo bezahlt zu haben. Als geladene Gäste nicht gekennzeichnet. Die meisten User müssen also glauben, alle online roten Sterne seien zahlende Kunden. Und genau so ist es gewollt.

Für mich ist es aber nicht so. Ich bin als Kunde nur im Laden, habe nichts gekauft, will vielleicht was kaufen. Nun stehen andere potentielle Kunden neben mir und erkennen mich fälschlicherweise als jemanden, der bereits etwas gekauft hat. Guter Trick, aber uralt.

Das Produkt entspricht noch nicht ganz meinen Erwartungen. Ich wünsche nicht nur Beratung, um das Produkt als solches richtig zu verstehen (Bestenliste), sondern ich will auch wissen, ob es meinen Erwartungen demnächst entsprechen könnte. Dazu gehören:
1. nachvollziehbare, verständliche Listen und korrekte Protokolle, beides umfänglich einsehbar.
2. richtige Trainingstische für den Verein. Wozu sollte man sonst einen Verein haben, wenn es nicht mal Turniere, oder ähnliches gibt und man für seine Vereinsansprüche nichts tun kann, ausser zusammenzuhocken und zu daddeln? Verbundenheit? Illussion...g
3. Ganz wichtig: Einen vernünftigen Wettbewerb, der den Namen auch verdient.
4. Qualifikation für blutige Anfänger, damit dieses tägliche Desaster mit ihnen eingedämmt wird.
5. Kennzeichnung der Spielstärken auch auf der Draufsicht der Tische, damit man selbst entscheiden kann, ob es sinnvoll ist oder nicht, sich dazuzugesellen. auch damit würden viele üble Kollissionen vermieden.

6. Ein paar Features, die die Bezeichnung sinnvoll verdienen. Davon gibt es bisher keine. Ist jedenfalls meine Meinung, kann jeder sehen wie er will.

Es ist nicht so schwer, diese einfachen Fragen nach meinen Kundenwünschen zu beantworten, aber da kommt nichts. Mich interesseren aber nun mal nur diese ganz simplen Dinge. Ich erwarte auch nicht, dass sie innerhalb kürzester Zeit umgesetzt werden, aber ein Bekenntnis erwarte ich schon, ob es überhaupt eine Annäherung geben wird. Da das total ausbleibt, gehe ich davon aus, dass es eine simple Dadelseite bleibt, ohne höhere Ansprüche ntegrieren zu wollen, was ja eigentlich gar nicht so schwer wäre.
Ausserdem mecker ich nicht, sondern ich fordere Information zu bestimmten Ereignissen und zur zukünftigen Ausrichtung - mehr nicht.
Würden diese endlich mal vernünftig beantwortet werden, wäre ich sofort still und würde meine endgültige Entscheidung treffen können. Da aber immer bei genau diesen Fragen sehr laut geschwiegen wird, wiederhole ich sie gerne mal. Wem es nicht passt, muss es nicht lesen, gelle Doko_Engel?

Doko_Engel, 16. Januar 2011, um 17:56

du hast es gerade treffend erfasst.... du forderst....
aber wie schon oben gesagt bist du net der nabel der welt und die erde dreht sich net nur um dich ....
warum lässt du die admins net machen ... warum ist fast jeden tag ein beitrag von dir zu lesen wo du mehr oder weniger die admins drängst stellung zu nehmen ....
nach wie vor ist die seite für alle kostenlos !!!
und für extras KANN man zahlen... es wird aber keiner dazu gezwungen... und bis jetzt hab ich auch noch keinen beitrag von zahlenden spielern gelesen bzw. rumdrängeln....

mir geht es net darum das irgendein eintrag nervt von dir ... denn so is es net... es ist eher die art und weise... (der ton macht die musik)

Fanthomas, 18. Januar 2011, um 00:05

Ich danke dem großartigen TrueSkill, dass es mir heute den fünften Stern beschert hat. Ein solches Skill kann selbstverständlich nichts anderes als nur true sein. :D :D
Jetzt muss ich bloß noch aufpassen, dass ich hier keine Vorschläge unterbreite, deren Umsetzung mir meine fünf Sternchen wieder kostet. :D :D
Man sollte ja nicht an dem Ast sägen, auf dem man sitzt ...

madriderGockel, 18. Januar 2011, um 08:00

Wie kann es sein dass ein Spieler mit gut 100 Spielen 2,5 Sterne hat und ich mit aehnlich vielen Spielen 1,5 ?
Ich habe im Gegensatz zu ihm alle Absagen gewonnen, er nur 83%.
Es kann ja sein, dass bei so wenigen Spielen die verlorene Absage bei ihm zuerst kam, aber mit 113 Spielen schon 2,5 Sterne ist sehr sonderbar. Und jemand mit 24632 Spielen hat 2 Sterne, also weniger als einer der 1/200 seiner Spiele gespielt hat.
Oder ist der Spieler mit 113 Spielen ein Weltklasse-Spieler und hat deshalb fast nur gewonnen? Eher nicht, sein Kontostand ist auch tiefer als meiner, c.a. 70$.

bunti, 18. Januar 2011, um 08:40

113 Spiele und ca 80 Punkte ist doch auch deutlich besser als 116 Spiele und -12 Punkte, freu dich doch dass du für Miese sogar noch 1,5 Sterne bekommen hast.

Seltsam, 18. Januar 2011, um 14:41

Hat sich ja wieder viel verändert.

Habt ihr nochmal an den Parametern rumgeschraubt?

mk, 18. Januar 2011, um 14:46

Wir haben noch einen Fehler in der Berechnung entdeckt. Die Parameter sind unverändert, nur die Berechnung wurde ohne diesen Fehler nochmal neu durchgeführt.

Wir arbeiten jetzt an der Spielstärkeanzeige von Tischen für Fördermitglieder. Ich hoffe das bekommen wir heute noch fertig.

bunti, 18. Januar 2011, um 15:00

Ich glaube eher ihr habt verzweifelt nach einer Möglichkeit gesucht, Fanthomas den 5. Stern wieder zu nehmen.

madriderGockel, 18. Januar 2011, um 15:26

1. Ich habe einen Kontostand von über 80 Punkten, also von wegen Miese. Der andere Spieler hat 70$ und dazu weniger Prozent der Absagen gewonnen.
2. Ein Spieler hat 2 Sterne, obwohl er über 100 in den Miesen ist.

Wie kommst du darauf dass ich in den Miesen bin? Schau dir mein Profil nochmal genau an. Mein Kontostand liegt bei fast 90$.
Der andere Spieler hat einmal weniger Spiele als ich und dazu nur 83% gewonnene Absagen. Ein normaler Spieler hat über 90%!

Nicht dass ich mich nicht über die 1,5 Sterne freue, aber ich kann die Berechnung so nicht nachvollziehen. Wird etwa gewürfelt, bei Leuten unter 1000 Spielen? Oder steckt da auch eine Logik hinter lol

Da ich keine Namen nennen darf, kann sich bei Interesse der Spieler mit 2,5 Sternen und gut 100 Spielen ja selber melden.

Ex-Füchse #9336, 18. Januar 2011, um 15:43

Hallo!
Mit dem Spieler mit 113, jetzt inzwischen 114 Spielen meinst du bestimmt mich. Bei der neuen Rechnung habe ich den Stern kurz verloren (danke madriderGockel dass du mir den Stern nicht gönnst :-( ) aber in einem Spiel wiederbekommen. Die Spielstärke war ja auch recht knapp im 2,5 Sterne-Bereich, bei 20,00.
Du hast recht - dein Kontostand ist um 9,50$ höher als meiner.
Du hast nur 2 Spiele mehr gespielt, so dass man die gespielten Spiele eigentlich vernachlässigen kann.
Bei "Meister Gewinn" stehst du allerdings bei -6,00$ und bei Gewinn pro Spiel bei -0,05$. Wahrscheinlich hast du mal dein Geld auf 30 zurückgeladen.
Mein Gewinn ist bei 44,50 (der Rest kommt durch die 30 Startpunkte) und mein Gewinn pro Spiel liegt bei 0,39. Also in dem Gebiet habe ich besser abgeschnitten.
Ich weiß auch nicht wie die Sterne berechnet werden, aber dass du versuchst zu verhindern, dass ich 2,5 Sterne habe und dich aufregst, dass du nicht so viele Sterne hast, finde ich nicht besonders nett.

Die Sterne stehen im Verhältnis zu der Spielstärke :
0,00 - 3,99 = kein Stern
4,00 - 7,99 = 0,5 Sterne
8,00 - 11,99 = 1 Stern
12,00 - 15,99 = 1,5 Sterne
16,00 - 19,99 = 2 Sterne
20,00 - 23,99 = 2,5 Sterne
24,00 - 27,99 = 3 Sterne
28,00 - 31,99 = 3,5 Sterne
32,00 - 35,99 = 4 Sterne
36,00 - 39,99 = 4,5 Sterne
40 und mehr = 5 Sterne

mk, 18. Januar 2011, um 15:50

In der Hilfe haben wir jetzt nochmal etwas zur Berechnung der Sterne veröffentlicht:

http://www.fuchstreff.de/hilfe#allgemeine-fragen-zum-fuchstreff:was-sind-die-sterne-und-wie-werden-diese-berechnet

Zombie, 18. Januar 2011, um 17:03

Was darf man überhaupt von den Leuten mit vielen Sternen erwarten?

Bessere Spiele? NEIN
Überlegenheit ? NEIN
Fairness dem Schwächeren gegenüber? NEIN
Sportlichkeit ? Nein

Nur ein Beispiel: # 1083261

Es heisst doch immer: Neue Spieler sollten von den alten Spielern lernen!!! Das etwa ?

Ex-Füchse #365, 18. Januar 2011, um 17:42
zuletzt bearbeitet am 18. Januar 2011, um 17:46

Tschuldigung, Zombie, aber das ist ein dummer Beitrag!
Wie kommst Du eigentlich dazu hier einer ganzen Gruppe (den Fünf-Stern-Spielern) sowohl spielerisches Know-how als auch Fairness abzusprechen?
Kennst Du sie überhaupt, hast Du schon mal mit Leuten wie Spartakus, HDF oder Solembum gespielt? Vermutlich nicht, denn wenn du es hättest, dann wüsstest Du, dass die sehr wohl den meisten hier aktiven Doko-Fans spielerisch haushoch überlegen sind und außerdem immer fair und sportlich bleiben.
Nun zu Deinem Beispiel:
Was wirfst Du Stoni hier eigentlich vor? Etwa sein KONTRA?
Mit 7 Trumpf inklusive Dulle, dazu Farbfreiheit in Pik und einem spielfähigen Ass in Kreuz war das doch wohl eine absolut vertretbare Ansage. Es saß einfach schlecht für Euch. Sowas kann vorkommen.
Oder hast Du noch nie eine Ansage in den Sand gesetzt?

mk, 18. Januar 2011, um 18:56
zuletzt bearbeitet am 18. Januar 2011, um 19:04

Als Fördermitglied seht ihr jetzt die durschnittlichen Sterne eines Tisches:

www.fuchstreff.de/uploads/medias/files/Tischliste_Sterne_Small.png

zur Übersichtzum Anfang der Seite