Wpis z mikrobloga

2 tygodnie temu pisałem o społecznościowym projekcie, starającym się odtworzyć to, co zrobiło Google tworząc Alpha Zero - sieć neuronową uczącą się szachów od podstaw grając sama ze sobą. Obecnie trwa mecz Leela Chess Zero Id 125 vs. Stockfish 1.0 na TCEC, jako przerywnik przed sezonem 12-tym. Wynik po dwóch grach to 1.5 -0.5 dla Leeli, a drugą grę wygrała w pięknym stylu w 26 ruchów. Nadal jest jednak słabiutka w końcówkach i taktycznie, ale gra bardzo ciekawe, agresywne szachy. Zmagania można obserwować tutaj: http://tcec.chessdom.com/bonus/live.php

Poprzedni mecz Leeli ze Scorpio, najgorszym silnikiem Dywizji 4 sezonu 11 (ok. 2830 elo, acz >2900 CCRL), skończył się 4 wygranymi, 3 remisami i 13 porażkami. Niestety wiele remisowych partii oddała przez swoją nieudolność w końcówkach, ale powoli dobija do poziomu TCEC, w co wiele osób wątpiło.

Dodatkowo, gdyby ktoś chciał pomóc w treningu to tutaj prosta instrukcja, wystarczy posiadać konto Google.

#szachy #machinelearning
  • 14
  • Odpowiedz
@JakTamCoTam: Lepiej zapłacić, ale to instrukcja dla osób, które nie chcą płacić, a chciałyby pomóc w projekcie.

Obecny poziom wnioskując z meczu ze Scorpio to ok. 2650 elo (z tym że dużo micniejsza w otwarciu i wczesnej grze środkowej, a tragiczna w końcówkach), obecnie prowadzi z SF 1, który na TCEC ma ranking 2750 elo. Ostatnio jakiś IM na 12 meczów 10 przegrał a 2 zremisował. Jeszcze 3 tygodnie temu była
  • Odpowiedz
@Lsrd: (tak leń jestem, ale może już to sprawdziłeś :) )
Orientujesz się jakie są detale algorytmu? Chodzi mi o koncepcję. O więcej detali, albo można o tym gdzieś poczytać?
  • Odpowiedz
@LowcaG: Publikację naukową o Alpha Zero możesz przeczytać tutaj: https://arxiv.org/abs/1712.01815 Warto zwrócić uwagę na nierówne warunki meczu (sprzęt, ustawienia) - na korzyść Alpha Zero i kosztem Stockfisha, ale sama nauka jaka za tym stoi się zgadza. O Leeli jeszcze nie ma żadnej publikacji naukowej, ale jest to odtwarzanie tego co zrobiło Google.
  • Odpowiedz
@LowcaG: Wejdz na strone Leeli, tam mozna znalezc kod i sa grupy dyskusyjne. To jest chyba projekt open source. Tak jak kolega mowi tez czytalem i wdzialem wlasnie to, ze Leela ma ogromne problemy z najprostszymi sekwencjami matow w 2 i 3 ruchach (z obu stron i atakujac i broniac), mimo ze jej poziom jest juz przyzwoity.
Ale na grupie czytalem, ze w Projekcie AlphaZero nie aplikowali kodu odpowiedzialnego za bezpieczenstwo
  • Odpowiedz
tam mozna znalezc kod


@stefan_banach: no właśnie tego chciałem uniknąć

eela ma ogromne problemy z najprostszymi sekwencjami matow w 2 i 3 ruchach (z obu stron i atakujac i broniac), mimo ze jej poziom jest juz przyzwoity.


@stefan_banach: No właśnie dlatego chciałem ogarnąć co wchodzi do stanu renforcement learning, bo mnie zaintrygowała ta informacja, bo wydaje mi się to aż niemożliwe.

No i jak to jest z otwarciami, bo wyglądają
  • Odpowiedz
@LowcaG: Alpha zero tez mial na poczatku problem z wykrywaniem tego. To co wydaje sie proste moze byc dla takich programow najtrudniejsze.

Leela z tego co czytalem nie gra ze sobą. Leela jest uczona w ten sposob, ze mozesz udostepnic moc obliczeniową i najczesciej grasz z nią normalną partię albo ludzie grają tysiace partii Leela kontra Stockfish (z tego co widzialem, glownie poziom 6 lub 9)

A alpha zero gral caly
  • Odpowiedz
Pewnie musieliby specjalnie zaimplementowac, zeby matowala szybciej


@stefan_banach: to reinforcement learning, więc jeżeli dobrze zaimplementowali opis stanu (może powinni mieć inny opis stanu dla końcówek) to powinno dojść do szybkiego matowania, ba przecież końcówki łatwo przećwiczyć niezależnie.

edit
stanu lub system nagradzania oczywiście.
  • Odpowiedz
@LowcaG: Niestety nie mam wiedzy, ale jezeli temat Cię ciekawi to tak jak Ci napisalem na stronie Leeli (leely?:)) sa grupy dyskusyjne i pelno szczegolow wraz z fragmentami kodu, ktore mogą Cię zainteresowac. Na pewno ten temat byl poruszany bo o nim czytalem, ktos zwrocil uwage, ze wlasnie leela jest juz zbyt mocna, zeby przeoczać tak proste maty.
  • Odpowiedz
@stefan_banach: @LowcaG
Ad. ELO
2000-2200 elo ma wersja na stronce play.lczero.org, realna siła:
Wygrała z Fruit 2.1 (niecałe 2700 elo). Ze Stockfishem 1.0 11.5 - 8.5 (2700-2800 elo) i ze Scorpio 5.0 - 15.0 (2800-2900 elo). Zagra w dywizji 4 TCEC, która startuje dzisiaj, bo zwolniło się jedno miejsce, wtedy zobaczymy realną siłę. Będzie używać dodatkowo tablebase'ów, które dają ~+300 elo.

Ad. self-learning
Uczy się tylko grając sama ze sobą, dokładnie
  • Odpowiedz
@Lsrd: o dzięki Ci dobry człowieku za garść informacji.

a czyli wnioskuję, że otwarcia ma wczytane, czyli na początku nie grała np. pion przed wieżą 2 pola, wieża i jazda.

hm..mocna jest, a wiesz coś na temat w jaki sposób opisywane są stany planszy?
  • Odpowiedz
@LowcaG: Nie ma wczytanych otwarć, na początku (pierwsze kilkaset tys. gier treningowych) faworyzowała właśie pion wieżowy o dwa pola albo i więcej. Sama powoli odkrywała co jest dobre. Po ID 125 można zaobserwować spadek e4, któy był powodem buga w cliencie oraz zwiększenia sieci. Powoli musi wrócić na właściwe tory - przewiduję kilkaset tys. gier bez buga, z których się tego nauczy już na większej sieci.

Sama reprezentacja szachownicy wzięta
  • Odpowiedz