fbpx
0.3 C
София

Бот, който е гледал 70 000 часа Minecraft, може да направи следващата голяма стъпка за Изкуствения интелект

Най-четени

Онлайн видеоклиповете са огромен и неизползван източник на данни за обучение – и OpenAI казва, че има нов начин да ги използва.

OpenAI създаде най-добрия бот за игра на Minecraft досега, като го накара да гледа 70 000 часа видео на хора, играещи на популярната компютърна игра. Той демонстрира мощна нова техника, която може да се използва за обучение на машини да изпълняват широк спектър от задачи чрез сайтове като YouTube, огромен и неизползван източник на данни за обучение.

Изкуственият интелект на Minecraft се научи да изпълнява сложни последователности от щраквания на клавиатура и мишка, за да изпълнява задачи в играта, като сечене на дървета и инструменти за изработка. Това е първият бот, който може да създава така наречените диамантени инструменти, задача, която обикновено отнема на добрите човешки играчи 20 минути високоскоростно щракане — или около 24 000 действия.

Резултатът е пробив на техника, известна като имитационно обучение, при която невронните мрежи се обучават как да изпълняват задачи, като гледат как хората ги изпълняват. Тази техника може да се използва за обучение на AI да управлява ръцете на роботите, да шофира коли или да навигира в уеб страници. 

Има огромно количество видеоклипове онлайн, показващи хора, изпълняващи различни задачи. Използвайки този ресурс, изследователите се надяват да направят за имитационно обучение това, което GPT-3 направи за големи езикови модели.

„През последните няколко години видяхме възхода на тази GPT-3 парадигма, където виждаме невероятни възможности, идващи от големи модели, обучени от интернет. Голяма част от успеха е, защото ние моделираме какво правят хората, когато влизат онлайн.“

казва Боуен Бейкър от OpenAI, един от екипа зад новия Minecraft бот.

Проблемът със съществуващите подходи към имитационното обучение е, че видео демонстрациите трябва да бъдат етикетирани на всяка стъпка: извършването на това действие прави това да се случи, извършването на това действие прави това и т.н.

Анотирането на ръка по този начин е много работа и затова такива набори от данни обикновено са малки. Бейкър и колегите му искаха да намерят начин да превърнат милионите видеоклипове, които са достъпни онлайн, в нов такъв.

Подходът на екипа, наречен Video Pre-Training (VPT), ​​заобикаля пречките в обучението по имитация, като обучава друга невронна мрежа да етикетира видеоклипове автоматично. Те първо наеха краудработъри, за да играят Minecraft, и записаха щраканията на клавиатурата и мишката заедно с видеото от екраните си. Това даде на изследователите 2000 часа анотирана игра на Minecraft, която те използваха, за да обучат модел да съпоставя действията с резултата на екрана. Щракването на бутон на мишката в определена ситуация кара героя да замахне с брадвата, например. 

Следващата стъпка беше да се използва този модел за генериране на етикети за действие за 70 000 часа немаркирано видео, взето от интернет, и след това да се обучи Minecraft бот на този по-голям набор от данни.

„Видеото е ресурс за обучение с голям потенциал“

казва Питър Стоун, изпълнителен директор на Sony AI America, който преди това е работил върху обучението по имитация.

Имитационното обучение е алтернатива на това с подсилване, при което невронната мрежа се научава да изпълнява задача от нулата чрез проба и грешка. Това е техниката зад много от най-големите открития на ИИ през последните няколко години. Той е бил използван за обучение на модели, които могат да победят хора в игри, да управляват термоядрен реактор и да открият по-бърз начин за извършване на фундаментални математически изчисления.

Проблемът е, че обучението с подсилване работи най-добре за задачи, които имат ясна цел, където произволни действия могат да доведат до случаен успех. Алгоритмите им възнаграждават тези случайни успехи, за да направят по-вероятно те да се случат отново.

Но Minecraft е игра без ясна цел. Играчите са свободни да правят каквото им харесва, да се скитат в компютърно генериран свят, да копаят различни материали и да ги комбинират, за да направят различни обекти.

Отвореният край на Minecraft го прави добра среда за обучение на AI.

Бейкър беше един от изследователите зад Hide & Seek, проект, в който ботове бяха пуснати на свобода във виртуална детска площадка, където използваха обучение за подсилване, за да разберат как да си сътрудничат и да използват инструменти, за да спечелят прости игри. Но скоро надраснаха обкръжението си.

Така наречение „Агенти като че ли превзеха вселената, нямаше какво друго да правят. Искахме да разширим дейността им, и решихме, че Minecraft е чудесно решение за работа.“

казва Бейкър.

Те не са сами. Minecraft се превръща във важна тестова площадка за нови AI техники. MineDojo, Minecraft среда с десетки предварително проектирани предизвикателства, спечели награда на тазгодишната NeurIPS, една от най-големите AI конференции.

Използвайки VPT, ботът на OpenAI успя да изпълни задачи, които биха били невъзможни само с помощта на обучение за укрепване, като изработване на дъски и превръщането им в маса, което включва около 970 последователни действия. Въпреки това те откриха, че най-добрите резултати идват от използването на имитационно обучение и обучение с подсилване заедно. Вземането на бот, обучен с VPT, и фината му настройка с подсилващо обучение, му позволи да изпълнява задачи, включващи повече от 20 000 последователни действия. 

Изследователите твърдят, че техният подход може да се използва за обучение на AI да изпълнява други задачи. Като начало може да се използва за ботове, които използват клавиатура и мишка, за да навигират в уебсайтове, да резервират полети или да купуват хранителни стоки онлайн. Но на теория може да се използва за обучение на роботи да изпълняват физически задачи от реалния свят чрез копиране на видеоклипове от първо лице на хора, които правят тези неща.

„Вероятно е

казва Стоун.

Матю Гудзиал от Университета на Алберта, Канада, който е използвал видеоклипове, за да научи AI правилата на игри като Super Mario Bros, обаче не смята, че това ще се случи скоро.

Действията в игри като Minecraft и Super Mario Bros. се извършват чрез натискане на бутони. Тези във физическия свят са много по-сложни и по-трудни за научаване от машина.

„Това отключва цяла бъркотия от нови изследователски проблеми“

казва Гудзиал.

„Тази работа е още едно доказателство за силата на мащабирането на моделите и обучението върху масивни набори от данни, за да се постигне добра производителност.

казва Наташа Жак, която работи върху обучението за подсилване с много агенти в Google и Калифорнийския университет в Бъркли.

Големите набори от данни с размер колкото Интернет със сигурност ще отключат нови възможности за AI, казва Жак.

„Виждали сме това отново и отново и това е страхотен подход.“

Но OpenAI вярва много в силата само на големите масиви от данни, казва тя:

„Лично аз съм малко по-скептична, че данните могат да решат всеки проблем.“

Все пак Бейкър и колегите му смятат, че събирането на повече от един милион часа видеоклипове на Minecraft ще направи техния AI още по-добър.

Това е може би най-добрият бот за игра на Minecraft досега, казва Бейкър:

„Но с повече данни и по-големи модели бих очаквал да се чувствате сякаш гледате човек, който играе играта, а не бебе AI, опитващо се да имитира човек.”


Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iOS и Huawei!

Абонирай се
Извести ме за
guest

1 Коментар
стари
нови оценка
Отзиви
Всички коментари

Нови ревюта

Подобни новини