AlphaGo Zero, самообучаващата се програма за играта Го, създадена от програмистите на DeepMind, експерименталния отдел на Google, се научи да играе и други игри.

Обновяването на алгоритъма е описано в arXiv и сега програмата перфектно играе японския шах Шоги, както и класически шах.

Първата версия на програмата AlphaGo бе представена през 2015 година и тогава използваше две невронни мрежи: едната изчисляваше вероятността на ходовете, а втората оценяваше позицията на фигурата. Оригиналната AlphaGo изцяло разчиташе на човешкото обучение и използваше информацията за удачните ходове, направени от хората, както и търсене чрез метода на Монте-Карло, който често се използва от компютрите-играчи. Алгоритъмът веднага показа своята ефективност с победата срещу Фан Хюей.

Разработчиците на DeepMind бързо подобриха алгоритъма, разширявайки използването на подсиленото обучение. Тогава AlphaGo победи Ли Седол – един от най-добрите Го играчи в света. След това алгоритъмът бе оптимизиран и подобрен още веднъж, и успя да победи Ке Цзе – третият най-добър играч на Го в света. След това AlphaGo излезе от спорта.

Неотдавна създателите на тази програма представиха модернизираната версия AlphaGo Zero, разработена да използва само подсилено обучение, която успя да победи всички предишни версии на програмата с резултат 100:0. Сега разработчиците обучиха алгоритъма да играе класически шах и японския шах Шоги.

Всъщност, в системата са заложени само правилата на играта – начина на придвижване на царицата, офицера, коня и т.н. На всичко останало програмата се е научила самостоятелно, започвайки от случайна игра.

След първоначалното самообучение, AlphaGo Zero победи компютърната програма Stockfish, която от няколко години се счита за най-добрия компютърен играч на класически шах. Резултатът е убедителен – 100:0. А програмата за игра на Шоги – Elmo бе победена с резултат 92:8. Това е впечатляващо, понеже в първия случай AlphaGo се е обучавала 4 часа, а във втория – само два.

Един от авторите на научната работа и на самата програма е Матю Лай (Matthew Lai), който от дълго време се занимава с разработването на шахматен алгоритъм, който се самообучава, като играе със себе си. Представената от него преди две години програма се самообучаваше в продължение на 72 часа, след което неговата ефективност бе сравнима с ефективността на най-добрите играчи на Международната шахматна федерация. Но тогава тази програма отстъпи пред Stockfish.

Първата значима победа на компютъра срещу професионален шахматист бе удържана още през 1997 година, когато компютърната програма DeepBlue победи световния шампион по шах Гари Каспаров.

ДОБАВИ КОМЕНТАР

9 коментара за "AlphaGo Zero самостоятелно се научи да играе шах и отново победи всички"

Извести ме за
avatar
Сортиране по:   най-нови | най-стари | най-висока оценка