AlphaGo Zero, самообучаващата се програма за играта Го, създадена от програмистите на DeepMind, експерименталния отдел на Google, се научи да играе и други игри.

Обновяването на алгоритъма е описано в arXiv и сега програмата перфектно играе японския шах Шоги, както и класически шах.

Първата версия на програмата AlphaGo бе представена през 2015 година и тогава използваше две невронни мрежи: едната изчисляваше вероятността на ходовете, а втората оценяваше позицията на фигурата. Оригиналната AlphaGo изцяло разчиташе на човешкото обучение и използваше информацията за удачните ходове, направени от хората, както и търсене чрез метода на Монте-Карло, който често се използва от компютрите-играчи. Алгоритъмът веднага показа своята ефективност с победата срещу Фан Хюей.

Разработчиците на DeepMind бързо подобриха алгоритъма, разширявайки използването на подсиленото обучение. Тогава AlphaGo победи Ли Седол – един от най-добрите Го играчи в света. След това алгоритъмът бе оптимизиран и подобрен още веднъж, и успя да победи Ке Цзе – третият най-добър играч на Го в света. След това AlphaGo излезе от спорта.

Неотдавна създателите на тази програма представиха модернизираната версия AlphaGo Zero, разработена да използва само подсилено обучение, която успя да победи всички предишни версии на програмата с резултат 100:0. Сега разработчиците обучиха алгоритъма да играе класически шах и японския шах Шоги.

Всъщност, в системата са заложени само правилата на играта – начина на придвижване на царицата, офицера, коня и т.н. На всичко останало програмата се е научила самостоятелно, започвайки от случайна игра.

След първоначалното самообучение, AlphaGo Zero победи компютърната програма Stockfish, която от няколко години се счита за най-добрия компютърен играч на класически шах. Резултатът е убедителен – 100:0. А програмата за игра на Шоги – Elmo бе победена с резултат 92:8. Това е впечатляващо, понеже в първия случай AlphaGo се е обучавала 4 часа, а във втория – само два.

Един от авторите на научната работа и на самата програма е Матю Лай (Matthew Lai), който от дълго време се занимава с разработването на шахматен алгоритъм, който се самообучава, като играе със себе си. Представената от него преди две години програма се самообучаваше в продължение на 72 часа, след което неговата ефективност бе сравнима с ефективността на най-добрите играчи на Международната шахматна федерация. Но тогава тази програма отстъпи пред Stockfish.

Първата значима победа на компютъра срещу професионален шахматист бе удържана още през 1997 година, когато компютърната програма DeepBlue победи световния шампион по шах Гари Каспаров.

9
ДОБАВИ КОМЕНТАР

avatar
6 Коментари
3 Отговори на коментарите
0 Последователи
 
Коментарът с най-много реакции
Най-горещя коментар
8 Автори на коментарите
ГариpazНе знам дали не съм роботЖивкоogs Автори на последните коментари
  Абонирай се  
нови стари оценка
Извести ме за
paz
paz

AI ерата в такива игри отдавна е отминала. Защо? Защото когато имаш перфектен модел на играта, знаеш за всяко едно действие какво ще последва и с голяма изчислителна мощност, можеш да откриеш оптималното действие за всяко едно състояние, но това не го прави AI, а една по-сложна елка.

ogs
ogs

За състояния > 10^100 няма как да се намери оптимално действие. Тук ,,Brute force“ не помага. Всичко опира да новият алгоритъм, който ползват. Дори с 1000 пъти по-малко нода за секунда, прогрмата успява да разбие, най-силната Brute force машина Стокфиш(64-36)

paz
paz

Естествено, че не използват brute force, но използват хитри техники (алоритми) за да намалят пространството от възможни състояния и действия. Примерно някои състояния и действия са с еднаква тежест и не е нужно да минеш през него за да го оцениш. Друг пример един бот в игра, който те разцепва от бой, защото има точните алгоритми за действие трябва ли да го наричаме AI? Да, казваме му AI, но не е истинско AI. Затова правете разлика между истинското AI и хайпното AI. Разликата между автоматизираност и интелегетност/автономност е много размита и малка и зависи от обхвата на системата на наблюдение.

poa
poa

шахматен алгоритъм, който се самообучава, като играе със себе си

chess
chess

Дийп блу победи Каспаров около 87-88 година.

ngc-bg
ngc-bg

всъщност 1996-та 😉

Живко
Живко

удържана още през 1977 година, когато компютърната програма DeepBlue победи световния шампион по шах Гари Каспаров.

1977??

Не знам дали не съм робот
Не знам дали не съм робот

Изгорете го с огън, докато не е снесло яйца

Гари
Гари

Всъщност, резултатът срещу Stockfish 8 е +28=72-0. Коригирайте си статията.