wtorek, 26 lutego 2013

Statystyka, szachowy ranking i jego zmiany: drobne matematyczne cuda szachowe okiem amatora (1)

Co prawda obiecałem sobie, że nie będę publikował nic na czym się dostatecznie dobrze nie znam, jednak walory edukacyjno-motywujące są dla mnie znacznie ważniejsze niż moje kalectwo w danych tematach. Liczę na wyrozumiałość ze strony grona osób zajmujących się nauką (zwłaszcza statystyką i przetwarzaniem danych) i bardzo mocne przymrużenie obu oczu przy czytaniu poniższego wpisu. Dziękuję.

Czy ranking nie kłamie? Jak interpretować i odczytywać dane statystyczne, które widnieją na różnych wykresach? Dlaczego ranking jest podatny na manipulację? Jak tego unikać? Czy ktoś gra silno (solidnie) czy ma jedynie wysoki ranking? Czy jest możliwe posiadanie zawyżonego lub zaniżonego rankingu? O co w tym wszystkich chodzi?

Pytań jest wiele. Dziś spróbuję odpowiedzieć na jedno z nich. Mianowicie pokażę w jaki sposób można stosunkowo niewielkim wysiłkiem sprawić sobie dość ładnie wyglądający ranking. A zatem do dzieła!

Co by się stało gdyby 2 graczy zagrało ze sobą mecz składający się co najmniej ze 100 partii? Jakie wnioski można byłoby wyciągnąć z danych mówiących o ilości wygranych i remisów? Przypomnijmy symbole i ich znaczenie w tym kontekście. Plusem (+) oznaczamy partie wygrane, z kolei minusem (-) przegrane. W przypadku remisu pojawia się magiczny znaczek równości (=). Czyli przykładowo rozegrano 162 partie, zwycięzca uzyskał 148.5 pkt. Jak wyglądają magiczne znaczki? Otóż można to zapisać w ten oto sposób: +144 (zwycięstw), -9 (porażek), =9 (remisów). A jak wysoki procent zwycięstw daje taki wynik? Otóż dodajemy do siebie wszystkie zwycięstwa (warte po 1 pkt) oraz remisy (każdy po 0,5 pkt) i następnie dzielimy tę sumę przez liczbę partii (tutaj 162). Wychodzi zatem wskaźnik zwycięstw (w skrócie "wz") w wysokości 91.7%.

Teraz zastanówmy się o ile silniejszy był zawodnik A (zwycięzca) od gracza B (pokonanego). Jak można to oszacować? Otóż w tym celu posługujemy się tabelą, którą opracowali matematycy (o statystycznym zacięciu). Po angielsku nazywa się to "Elo rating vs. winning probabilities" i można sobie o tym poczytać w tym miejscu: http://www.ascotti.org/programming/chess/elo.htm


Tabela wartości (procentowych) zwycięstw (wz) w stosunku do różnicy poziomu między zawodnikami

Powyżej zobaczymy tabelę w której mamy następujące dane: w lewej kolumnie (.99, .67, czy .12) oznaczenie dotyczące procentu zwycięstw (nasz wskaźnik "wz" w ujęciu procentowym). Przykładowo .99 oznacza 99%, zaś .67 dokładnie 67%. Z kolei po prawej stronie obok tego wskaźnika mamy wartość dodatnią bądź ujemną (jeśli wskaźnik jest wysoki to będzie zawsze dodatnia, a jak niski to ujemna). Oznacza on odniesienie silniejszego gracza względem słabszego. I tak ".92 +401" oznacza, że gracz A, który uzyskuje 92% wskaźnik zwycięstw nad przeciwnikiem B, może być (przynajmniej statystycznie) traktowany jako silniejszy o +401 punktów. Przykładowo jeśli gracz B ma ranking 1580, wówczas jego przeciwnik ma mieć ranking powiększony o 401, czyli aż 1981. Słowem? Wystarczy znać wartość procentową zwycięstw (lub ilość partii rozegranych z wynikiem końcowym), aby można było oszacować o ile punktów jeden gracz jest silniejszy od drugiego.

Czy same te dane są wystarczające? Otóż nie. Należy jeszcze uwzględnić następujące zmienne (elementy), które będą zapewniały jak największą wiarygodność tego wskaźnika (a następnie wyciągane z nich wnioski). Przede wszystkim musimy spełnić takie kryteria jak:

a) minimalna ilość partii - nie mniejsza niż 20. Poniżej tej wartości będzie ciężko uznać, iż wynik nie był w dużej (tzn. istotnej statystycznie) mierze przypadkowy. Natomiast od 100 partii w górę można być niemal całkowicie pewnym, iż nie ma w nim więcej niż 1-2% przypadku. Jest to bowiem praktycznie zbyt duża ilość partii, aby przypadek mógł odgrywać jakąkolwiek istotną statystycznie rolę.

b) jednolitość partii - czyli wszystkie powinny być rozgrywane w takim samym (lub bardzo podobnym) tempie. To proste. Chodzi o to, aby partie było jednakowe pod względem czasu do namysłu dla obu graczy. Idealnie gdy wszystkie są takie same, a w praktyce można dopuścić pewne wyjątki polegające na tym, że partie są bardzo zbliżone do siebie. Chociażby tak. Rozegrano 100 partii, z tego 90 z nich tempem po 20 minut na zawodnika, zaś pozostałe z nich po 15 minut. Im mniejsze różnice między zmianą czasu do namysłu między grupami partii, tym większa wiarygodność.

c) partie powinny być rozgrywane naprzemiennie - raz białym kolorem, a następnie czarnym. W ten sposób dostaniemy wynik dla każdego gracza który rozegrał tę samą liczbę partię kolorem białym jak i czarnym. Ważne jest także to, aby stale (co partię) zmieniać kolor albo jeśli nie ma takiej możliwości to rozegrać hurtem połowę partii jednym kolorem, a następnie pozostałą część - kolorem przeciwnym.

d) warunki dla obu graczy powinny być identyczne. Tutaj chodzi głównie o to, aby każdy miał takie same szanse na wygrywanie jak i na przegrywanie. Jeśli jednemu z przeciwników będzie przeszkadzała żona lub dziecko, zaś drugi będzie miał "święty spokój" w czasie rozgrywek, wówczas wyniki partii nie mogą być uznawane za wiarygodne. Tak samo w przypadku, gdy jeden z graczy ma techniczne warunki znacznie gorsze niż jego przeciwnik. Prostym przykładem będzie słabe połączenie internetowe powodujące tzw. lagi czy chociażby niesprawna myszka, zbyt mała (niewyraźna) szachownica, bierki czy też inne istotne elementy związane z grą w szachy.

e) postawa w stosunku do meczu (badania) - obaj zawodnicy powinni w każdej z partii starać się dawać z siebie wszystko (popularne określenie "cisnąć na wygraną ile fabryka daje"). Nawet jeśli styl gry jest ryzykowny lub też przeciwnik wykorzystuje słabości nie związane bezpośrednio z umiejętnościami szachowymi. Warto dodać, że chodzi przede wszystkim o to, aby zbadać różnicę w sile (poziomie) gry w warunkach optymalnych. A za takie możemy uznać te w których obaj przeciwnicy pokazują pełnię swoich możliwości. Pamiętajmy, że wliczamy w to także strategię meczową, która przykładowo może zakładać to, że dany gracz będzie "zapierał na remis", dotąd aż uzna to za skuteczną metodę pozwalającą na wygranie meczu.

Wszystko ładnie, pięknie, tyle że to rozważania teoretyczne, prawda? Świetnie byłoby gdybyśmy pokazali jak to się ma na praktycznym przykładzie. No to proszę bardzo! W ramach "eksperymentu naukowego" przeprowadziłem test polegający na symulacji takiego meczu z jednym z zawodników (nota bene kolega, który czasami stawiał tak potężny opór, że wydawało mi się jakbym przepychał się i walczył z czołgiem).

Test ten rozpoczął się w dniu 2011-06-05, natomiast zakończył się dokładnie w 2013-02-24. To dość długi okres, bo aż blisko dwa lata. Niemniej bardzo ważnym elementem było to, że był to tak zwany eksperyment naturalny. Otóż badany nie miał najmniejszego pojęcia o tym, że uczestniczy w badaniu - w przeciwnym razie wyniki byłyby mocno zniekształcone (możliwość manipulacji, aby pokazać się z lepszej strony lub stresu związanego z tym, aby "nie dać plamy").

Statystyka z rozegranego "meczu" - pokazano przegląd końcowego wyniku z hipotetycznym przeciwnikiem. Tutaj na 162 partie (+144, -9, =9) uzyskano 148,5 pkt, co daje wynik procentowy blisko 92%. To z kolei odpowiada statystycznie różnicy +401 pkt na korzyść zwycięzcy

W ramach meczu rozegrano 162 partie następującymi tempami: 2 partie P60+10 (60+10 oznacza, że każdy zawodnik ma 60 minut na partię i za każdy wykonany ruch dostaje dodatkowe 10 sekund; niewykorzystane dodatkowe sekundy sumują się w pozostałym czasem); 4 partie P45+45, 13 gier P45+15, 16 partii 30+30, 44 gry P30+15, 28 gier P30+10, 4 partie P20+10, 3 partie P15+15, 43 partie P15+10 (oraz pomijane w dalszych rozważaniach: 1 partia P15+5, 3 partie P10+10 i jedyna partia bez dodawanego czasu P15+0). Białym kolorem rozegrałem 74 partie, zaś czarnym pozostałe 88. Było także kilka "bloków jednokolorowych" (gdzie dany gracz grał pod rząd więcej niż 2 partie).

W skrócie ujmując: wszystkie partie miały czas dodawany przynajmniej 10 lub 15 sekund. Najczęściej królowały takie tempa jak: P30+15 (44 gry), P15+10 (43 partie), P30+10 (28 gier), 30+30 (16 partii), P45+15 (13 gier), co daje łącznie 144 partie (pominięto pozostałe 18).

Natomiast uzyskano wynik o którym była mowa powyżej (tak, w naszych rozważaniach teoretycznych). Mianowicie +144 (zwycięstw), -9 (porażek), =9 (remisów) daje wskaźnik zwycięstw (w skrócie "wz") w wysokości 91.7% (zaokrąglamy do 92%). Zatem różnica (statystyczna) gracza A nad przeciwnikiem B, może być (przynajmniej statystycznie) traktowana jako wartość +401 punktów. Przykładowo jeśli gracz B ma ranking 1580, wówczas jego przeciwnik ma mieć ranking powiększony o 401, czyli aż 1981.

Warto zaznaczyć, że rzeczywistości mój przeciwnik posiada od kilku miesięcy 3 kategorię, zaś ja od kilku dobrych lat 2. Często wykorzystywałem swoje doświadczenie, spryt i szachowe niespodzianki, tak aby ratować się w bardzo trudnych sytuacjach. W innym wypadku niemożliwym byłoby uzyskanie tak imponującego statystycznie wskaźnika zwycięstw, gdyż realnie dzieli nas mniej więcej około 1,5 klasy gry (ok. 220-250 oczek), a nie jak można zbyt szybko uwierzyć: +401 punktów (wynikających z odczytywanego wartości dla 92% wskaźnika zwycięstw).

W rzeczywistości na FICS zakres rankingowy mojego przeciwnika waha się w ostatnim czasie pomiędzy 1620 a 1680 (średni 1645), natomiast mój pomiędzy 1940 a 2000 (średni 1970). Widać zatem wyraźnie, że różnica statystyczna powinna wynosić między nami 325 punktów. I jak łatwo odczytać z tabeli - najbliższa różnica dla wartości +322 pkt to .87, co oznacza wskaźnik zwycięstw na poziomie jedynie 87%. Skąd zatem ta rozbieżność kilku procent w otrzymanym wyniku statystycznym (92%) a realną różnicą (87%)? Przede wszystkim odpowiada za to dość mocno "mieszane" tempo gry (pkt b), nieco lepsze warunki gry - zwłaszcza na początku, gdy mój przeciwnik nie miał biegłości w obsługiwaniu programu do rozgrywania partii przez Internet (pkt e), początkowe granie partii niekoniecznie "na maxa" oraz istotnie mniejsza liczba partii białym kolorem (pkt c). Wszystko to po zsumowaniu bez problemu powinno wyjaśnić powstałą wyżej rozbieżność. Wierzę, iż podane przeze mnie rozumowanie i interpretacje mogą zostać przyjęte jako "dość rozsądne". Ostrzegam szczególnie przed tym, aby zawsze krytycznie przyjmować (interpretować) uzyskiwane wyniki jak też w jak największym stopniu eliminować wszelkie możliwe istotne błędy. W przeciwnym wypadku dostaniemy tak zwane artefakty (co oznacza to słowo - można sprawdzić w Wikipedii).

Oczywiście jest to tylko pewne dość duże przybliżenie istotnego tematu, który opiera się o statystykę. Niemniej mam nadzieję, że pomimo zastosowania dość dużych uproszczeń udało mi się pokazać w jaki sposób może to wyglądać w praktyce. Przepraszam wszystkich statystyków i osoby pasjonujące się tą niezwykłą dziedziną za przekazywanie "dziwnych wniosków" na podstawie dość mało krytycznie wyszukanych danych. Niemniej dla amatorów szachowych konieczna była "realnie uproszczona, żywa wersja".

Na koniec drobna zagadka i pozdrowienia dla jednej z osób, która nie wierzy w cuda. Mam nadzieję, że uda się sprawić, aby doszło do czegoś co statystycznie jest trudno wytłumaczalne ;). Pozdrawiam serdecznie niedowiarka i liczę na to, że pamięć i refleks będą na tyle dobre, aby nie zaspać... gdy pociąg wskaże niebezpieczną prędkość kosmiczną!




Just 5 months and that high train?! Are you kidding me??! It's simply unbelievable. Twenty one hundred?! Did I really hear that correctly? It's impossible - it would have been a miracle if he would be able to do it - even just once! No way! Please don't fix (FICS) me up that way my dear friend! It's not that funny as you think!!!

10 komentarzy:

  1. Należy wziąć pod uwagę, że Twój przeciwnik nielegalnie się wspomagał podczas niektórych partii, dlatego uzyskał zawyżony jak na swoje możliwości wynik. Wszystko wg statystyk powinno się zgadzać. Nielegalnie wspomagając się nie tylko uzyskał z Tobą większa ilość wygranych, ale też w niedozwolony sposób, podwyższył swój ranking. Gdyby się nie wspomagał, to wygrał by z Tobą mniej razy jak i jego ranking byłby mniejszy.

    Co do 2100, to właśnie wpadłem na pomysł, jak nabić beż większego kłopotu taki ranking, dlatego jeśli skorzystasz z tego w pełni legalnego sposobu, to Twoje 2100 nie będzie dla mnie wielkim szokiem, ale i tak ciężko mi uwierzyć, że do tego dojdzie. ;)
    Killer

    OdpowiedzUsuń
  2. Teoretycznie oczywiście dojście do 2100 jest proste jak drut. Tak, tym sposobem jest wykorzystanie tej sztuczki o której pisałem wyżej. Jeśli bowiem znajdziemy "wygodnego" gracza (albo graczy) mających ranking ok. 1860-1880, na którym będziemy w stanie nabić 80% zwycięstw (na przykładowych co najmniej 100-120 partiach), wówczas w nagrodę dostaniemy około 240 punktów, wówczas powinniśmy dojść do rankingu (świadomie nie użyłem słowa "poziomu") tego o którym myślimy... czyli 2100! :).

    W praktyce są jednak przynajmniej dwa (dwie?!) "Ale" ;)
    1) zrobienie 80% na zawodnikach prawie 1900 to wymaga według mnie bardzo dużej wiedzy i solidnej gry - wykluczam to, że stale będziemy trafiali na "niedysponowanych" zawodników.
    2) nawet jeśli "nabijemy" 140-150 oczek (mając powiedzmy już 2060), to każda porażka natychmiast "zjada" na 20-25 oczek, zaś remis około 12-15. Tak więc trzeba grać bezwzględnie i stale wygrywać.

    Tak więc podany przeze mnie sposób jest zarówno legalny jak i skuteczny. Niemniej "drobnym minusem" jest to, że jest SZALENIE trudny (*biorąc pod uwagę mój obecny poziom). Jeśli masz inny pomysł to oczywiście zapraszam do podzielania się nim.

    PS. Co do legalności lub nielegalności gry mojego przeciwnika, to pozostawię to bez komentarza. Być może kiedyś będzie okazja, aby napisać o tym jakie zagrożenia dla rozwoju zawodnika niesie ze sobą nielegalne (nieuczciwe) wspomaganie. Niemniej teraz nie pora i czas na takie rozważania ;) :).

    OdpowiedzUsuń
  3. A jaka przepaść dzieli nas w "błyskawicach"? Chyba jeszcze wyższy wynik ze mną uzyskałeś i na pewno nie miałem gorszych warunków, bo do chrapania żony dawno się przyzwyczaiłem, a paliwa wlałem na tyle dużo, żeby silnik pracował :)

    świrus

    OdpowiedzUsuń
  4. Trudno powiedzieć Swirusku. Raz, że to już nie były błyskawice, ale "pociski" (partie na 1 minutę to już hardcore, który wymaga naprawdę wielkich umiejętności zarówno blefowania jak i szybkości podejmowania decyzji, różnych niepoprawnych poświęceń, zagrań na czas, itd.). Co do warunków to na pewno nie były one te same dla obu graczy. U jednego stan psychiczny (emocjonalny) taki, że by chciał gołymi rękami rozbijać ściany w drobny mak, a drugiego ciężkie chwile związane z kryzysem szachowym, myszka która robiła co chciała, trudności z trafieniem we właściwe pola (na szachownicy) czy też przyciski typu "rematch" ;) :). Dlatego ten "druzgocący" wynik włożył między bajki i rano bym powiedział żonie, że śnił mi się koszmar, że ktoś mnie wytrzepał w pociskach ;) :).

    Jeśli dogadamy się co do tempa i ilości partii (1+0, 2+0, 3+0 albo 1+1, 2+1 czy 3+1) wówczas można rozegrać mecz. Niemniej warunki muszą być jak najlepsze dla OBU graczy. Jeśli bowiem jeden będzie w czarnej rozpaczy zaś drugi w momencie przełamywania kryzysu i "on fire" (na fali), wówczas może się skończyć zupełnie nieoczekiwanym - i tu podkreślę bardzo wyraźnie - NIEWIARYGODNYM wynikiem... w stosunku do REALNYCH możliwości danego zawodnika.

    Dlatego warto pamiętać o powyższych warunkach, bo inaczej można dostać bardzo dziwne "statystyczne cuda", które z rzeczywistością (a dokładniej: potencjałem gracza lub graczy) mają niewiele wspólnego. A nie zapominajmy, że staystyka, wyniki oraz ich interpretacje mają nam POMAGAĆ zrozumieć (wyjaśniać i przewidywać) rzeczywistość, a nie dawać "bajki na dobranoc".

    Tak czy inaczej rozegrałem naprawdę bardzo dużo "pocisków" i blitzów (około 10-12 tysięcy), więc w tego rodzaju partiach mogę stawiać poważny opór - przynajmniej dopóki nie mam naprzeciwko siebie zawodnika, będącego specem w tej odmianie szachów, grającego z siłą co najmniej 2000+.

    OdpowiedzUsuń
  5. hajdzik pisze
    Tak oczywiscie - wspomagalem sie tylko podczas tych 18 parti, w ktorych wygralem lub zremisowalem z nokią.
    mialem kaprys nie przegrac w 18 partiach na 160 - czemu 18? bo w nocy przysniła mi się wróżka i powiedziala hajdziku - w 18 partiach wspomagaj sie - tak zebys nie przegral
    według Szymona Pałki (IV kat w realu, na fics 1900)- Wojciech Hajda (III kat w realu, na FICS 1600) ma prawo tylko przegrywać - każdy inny wynik jest podejrzany.
    W turniejach w realu - moje wygrane lub remisy z II kategrią też na pewno były nieuczciwie - byc moze nawet placilem 50zloty, za przegranie parti mojego przeciwnika

    PS. Nokia
    No o tym nie wiedziałem ale kolejny raz informuj mnie o takich zamiarach :)
    Zawsze z Tobą chętnie zagram, ale czasem grałem na pół gwizdka - zeby sie zrelaksowac- bo gra w szachy sprawia mi przyjemnosc

    OdpowiedzUsuń
  6. @Hajdzik

    Jak cie poinformuje, to wówczas mi eksperyment zepsujesz ;). Kto wie jakim teraz się będziesz silnikiem wspomagał? :D ;). A tak grasz sobie bez stresu, a ja robie badanie i mam "żywe" wyniki :). Proste? :P

    Ja też grałem na pół gwizdka, inaczej byłoby 98% ;) :). Tyle, że jedynie w 10% partii, a potem już cisnąłem na maxa, bo wiele razy musiałem się ratować jakimś dziwnym remisem :).

    PS. Za przegranie kasy nie przyjmuje :P. Lepiej kup dziecku jakąś fajną książkę łamigłówkę co poprawi jego zdolności myślenia ;) :).
    PS. Ja niestety musiałem się mocno sprężać, aby na tak długim dystansie zrobić tego typu wynik (już powyżej 80% zwycięstw jest naprawdę ciężko utrzymać - zwłaszcza powyżej 60-80 gier).

    OdpowiedzUsuń
  7. Exp[eryment były bardziej miarodajny gdyby dwie osoby o nim wiedziały, lub niewiedziały

    OdpowiedzUsuń
  8. Oczywiście. Jak już podkreślałem - ABSOLUTNIE nie jest to eksperyment w znaczeniu naukowym, lecz raczej ukazanie pewnych zjawisk czy możliwości (zwłaszcza odczytywania rankingu lub siły zawodnika - na podstawie ilości partii oraz uzyskanego wyniku zwycięstw).

    Przykładowo: Z kolegą "mcstorytaller" (średni ranking ok. 1720-1770 w ciągu ostatnich 3-4 miesięcy) na dystansie 20 partii (typu standard) udało mi się uzyskać aż 18 punktów, co daje wynik 90%. Statystyczny przelicznik wskazuje, że różnica w siły gry między nami powinna wynosić około +366 punktów (czyli ja powinien mieć ranking 1745+366=2111), gdy tymczasem jest ona mniej więcej w granicach około 200-230 oczek. Na pewno mogę powiedzieć, że ten niezwykły zawodnik stawia bardzo mocny opór, więc "siła ponad normę" bierze się głównie stąd, że jest rozegranych zbyt mało partii oraz dzięki temu, że wykorzystuję doświadczenie i spryt. Dlatego jak już wspominałem - warto być ostrożnym z interpretacją wyników. W przeciwnym razie otrzymamy "dokładne cuda", których nie będzie można znaleźć i wyjaśnić w rzeczywistości.

    OdpowiedzUsuń
  9. Do wyniku chyba trzeba dopisac kolejny remis :0

    chyba ze to byl prezent urodzinowy :)
    hajdzik

    OdpowiedzUsuń
  10. Sam jesteś Hajdziku jak prezent :P. Uświadom sobie i zaakceptuj, że jedynie 5-8% partii mogłem grać "od niechcenia". Pozostałe partie grałem na poważnie, a niektóre na ŚMIERTELNIE poważnie. W kilkunastu chciałem cię rozszarpać na strzępy, zniszczyć, zmieść z powierzchni ziemi czy też po prostu zdemolować. Dlatego zaczekaj aż nauczę się dynamicznej gry, a wtedy będziesz musiał myśleć "o wyrywaniu prezentów" nie częściej niż raz na 20-30 partii.

    Howgh!

    OdpowiedzUsuń