fbpx
22 C
София

Тези странни и тревожни изображения показват, че ИИ поумнява

Най-четени

Даниел Десподов
Даниел Десподовhttps://www.kaldata.com/
Ежедневен автор на новини. Увличам се от съвременни технологии, оръжие, информационна безопасност, спорт, наука и концепцията Internet of Things.

От всички модели на изкуствен интелект GPT-3, създаден от лабораторията по изкуствен интелект OpenAI най-силно поразява въображението на хората. Този ИИ без каквито и да било подсказки може да изригва огромен брой стихотворения, къси разкази и песни, които сякаш са създадени от човек. Но красноречието е просто една уловка, която не бива да бъде приемана за реален интелект.

Това лято, OpenAI представи своя първи API за комерсиално използване, който осигурява достъп до най-новите модели изкуствен интелект, създаден от тази компания. Новият приложен програмен интерфейс предлага универсален интерфейс от типа text in, text out, даващ възможност на потребителя да го използва на практика във всички задачи, засега само на английски език. Новият ИИ може да превежда от един език към друг, да пише разкази, да отговаря на ежедневно възникващите въпроси и т.н. Програмирането на този ИИ може да стане след като му се покажат само няколко примера. Чрез допълнителни кратки материали и комплекти данни може да се настройва производителността в по-конкретните задания. Самият ИИ е предварително обучен по 175 милиарда параметри и текст с размер 570 GB.

Въпреки това, учените са на мнение, че същите похвати, които са използвани са създаването на GPT-3, крият тайните за създаването на един съвсем друг, мощен ИИ. GPT-3 е трениран с помощта на огромен обем текстова информация. А дали какво ще се получи, ако се приложат същите методики за трениране, само че едновременно с текст и графика?

Новото изследване с име AI2, проведено в института за изкуствен интелект Пол Алън, изведе тази идея на съвсем ново, по-високо ниво. Изследователите създадоха един съвсем нов визуално-лингвистичен модел на ИИ. Той работи едновременно с изображения и текст, и може да генерира текст от изображенията. Тези изображения изглеждат някак тревожно и странно, и въобще не приличат на супер реалистичните дийпфейкове (deepfake), създавани от генеративните състезателни мрежи (GANs). Но те показват начина за създаването на по-практичен ИИ, и може би ще направят роботите по-умни.

Да се запълни празното място

GPT-3 принадлежи на групата модели, известни като трансформъри. Те станаха изключително популярни благодарение на създадения от интернет гиганта Google алгоритъм с елементи на изкуствен интелект BERT. Преди BERT езиковите модели бяха твърде слаби и имаха малко възможности. Техните умения за прогнозиране бяха достатъчни само за автоматично запълване на шаблони, но не и за съставянето на дълги изречения, в които са спазени всички граматични правила и в тях има здрав смисъл.

BERT коренно промени ситуацията след представянето на методиката маскинг (masking). При нея в произволни изречения са оставени празни места, в които могат да бъдат вписани точно определени думи, а моделът трябва да попълни пропуснатото. Например:

Жената отива в ___, за да тренира

Те купиха ___ хляб, за да си направят сандвичи

Идеята е да се накара ИИ модела да прави тези упражнения милиони пъти и в резултат от това да започне да открива различните закономерности при съставянето на изречения, а от изреченията да съставя параграфи. По този начин ИИ алгоритъмът започва по-добре да генерира и интерпретира текста, като се приближава до разбирането на смисъла на написаното. Към днешен ден Google използва BERT, за да показва по-релевантни резултати при използване на търсачката. След като маскингът се оказа изключително ефективен метод, учените се опитаха да го приложат към визуално-езиковите модели и започнаха скриват някои от думите в изображенията.

 

___ стои на земята до дървото

Тук ИИ моделът вижда думите в изречението и едновременно с това, съпътстващото изображение, за да може да запълни празното място След милиони повторения изкуственият интелект се е научил да открива не само различните шаблони на речта, но и да прави връзка между думите и елементите на всяко изображение.

В резултат от това, ИИ моделите от новото поколение са се научили са правят връзка между научените думи и представените изображения. Един подобен изкуствен интелект може да разгледа снимката по-долу и да състави смислено изречение, като например: ‘Жените играят хокей на трева‘. И могат да отговорят на въпроса ‘Какъв е цветът на топката’, като ИИ самостоятелно прави връзката между думата ‘топка’ с кръглия обект на снимката.

По-добре е един път да видиш…

Учените поискаха да разберат, дали тези ИИ модели развиват концептуалното разбиране на визуалния свят. Едно дете например, което е научило думата за даден обект, може не само да го разпознава и да го назовава, но и да го нарисува по памет, дори и този обект да гои няма. От тези съображения екипът на AI2 предложи на своя ИИ модел същото: да генерира изображения по предишни разпознати обекти. Всичките различни ИИ модели от този тип започнали да генерират безсмислени съчетания от пиксели.

Това птица ли е? Или самолет? Не, това е просто една абракадабра, генерирана от изкуствения интелект

В това има смисъл: да се преобразува текста в изображение е много по-сложно, отколкото да се прави обратното.

‘Подадените няколко думи не определят и няма как да определят, какво трябва да има на изображението’ – заяви Ани Кембхажи, ръководител на групата за компютърно зрение на AI2.

А това означава, че ИИ моделът трябва да се базира на много по-голям обем от знания за нашия свят, за да може да добави недостигащите детайли.

Така например, ако на този ИИ бъде поставена задача ‘да изобрази жираф, който върви по пътя’, то изкуственият интелект трябва самостоятелно да стигне до изводите, че това може да не е път, а пътека, че пътеката навярно ще е сива или кафява, а не например ярко розова, че жирафът ще се намира някъде на сушата, а не близо или в морето. Въпреки че всичката тази информация е неявна, ИИ моделът трябва да я знае.

Ето защо Кембхави и неговите колеги Джемин Чо, Джиасен Лу и Ханнане Хаджиширзи са решили да проверят дали ще могат да обучат ИИ модел на всички тези скрити визуални знания, като използват друг тип маскинг. Вместо да обучават ИИ алгоритъма да прогнозира изпуснатите думи в надписите под изображенията, той да бъде трениран да прогнозира липсващите пиксели.

Финалните изображения, създавани от тези ИИ модели не са много реалистични. Но това не е толкова важно. Те съдържат правилни визуални концепции от най-високо ниво. Този ИИ постъпва като малко дете, което рисува фигура от чертички, за да изобрази човек. (Новият ИИ може да бъде тестван самостоятелно ето оттук).

Няколко примера на изображения, генерирани от новия ИИ модел на AI2, от ключови изречения.

Способността на визуално-езиковите ИИ модели да генерират подобен род изображения е важна стъпка напред в научните изследвания на изкуствения интелект. Всичко това ни казва, че новият модел наистина е способен на определено ниво на абстракция – фундаменталното умение за разбирането на света.

В дългосрочна перспектива това умение може да доведе до изключително големи и важни последствия за роботиката. Колкото по-добре един робот разбира обстановката и използва език, за да я обясни и да съобщава подробности за нея, толкова по-сложни задачи може да изпълнява. Хаджиширзи отбелязва, че визуализацията ще помогне на учените по-добре да разбират, какво именно научава при тренировките и обученията ИИ моделът. Това е важно, понеже сегашните изкуствени интелекти работят като ‘черни кутии’, в които никой не знае какво се случва.

Следващите планове на този екип са провеждане на много повече експерименти, подобряване качеството на генерираните от ИИ изображение и разширяване на визуалния и речников запас на новия тип модели изкуствен интелект. Ще бъдат добавени още много теми, обекти и пшрилагателни.

‘Създаването на изображения наистина бе недостигащата част от главоблъсканицата’ – споделя Лу. ‘След като добавим и това умение, можем да научим ИИ моделите по-добре да разбират нашия свят’.


Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook или изтеглете приложението на Kaldata.com за Android, iOS и Huawei!

Абонирай се
Извести ме за
guest
6 Коментара
стари
нови
Отзиви
Всички коментари

Нови ревюта

Подобни новини