Невронна мрежа генерира изображенията на ястията по рецептите за тяхното приготвяне

3
381

IT специалистите от университета в Тел Авив създадоха невронна мрежа, която може да генерира изображенията на ястията по текста на рецептите за тяхното приготвяне. По този начин става възможно да се разбере, какво ще се получи в крайна сметка, ако един или друг пункт от рецептата бъде променен или готвачът реши да добави нова съставна част и/или да премахне някои от съставките. Всичко това е описано в научна работа и може да се приложи в практиката, още повече, че сорс кодът е свободен.

Новата невронна мрежа се нарича StackGAN V2 и е модифицирана версия на генеративна състезателна мрежа (GAN). Обучението е осъществено чрез голямата база данни recipe1M с 52 хиляди изображения и рецепти.

На невронната мрежа може да се подаде на практика произволен списък със съставки и инструкции за приготвяне, и да се види как ще изглежда крайният продукт.

Всичко започна с това, че помолих баба си да ми даде рецептата за нейните легендарни рибени рибени кюфтенца“ – споделя Ори Бар Ел (Ori Bar El), водещият автор на научната работа.

Но поради своята преклонна възраст, тя вече не помнеше точната рецепта. А на мен ми бе интересно дали не може да се създаде компютърна система, която по изображението да генерира готварската рецепта. Като помислих върху тази задача, реших че е твърде сложно да получа от снимката на ястието точната готварска рецепта със всички скрити съставки и добавки, като например лук, сол, брашно, масло и т.н. А след това се сетих, че може да се направи обратното – да се генерират изображенията на базата на продуктите и начина на приготвяне. Тъй като повечето съвременни системи с елементи на изкуствен интелект се използват предимно да заменят хората в по-опростените и повтарящи се задачи, решихме че ще е много интересно да поставим за решаване задача, която излиза извън рамките на човешките възможности. Получи се„.

Генерирането на изображения по текст е сложна задача, която се използва в редица приложения за машинно зрение. Най-новите научни работи показват, че генеративните състезателни мрежи (GAN) са много ефективни в тази област и са подходящи за синтеза на реалистични изображения от списък с данни, които не варират твърде много.

Неотдавна, в рамките на ново научно изследване, бе публикувана базата данни recipe1M, съдържаща над 800 хиляди двойки готварски рецепти и съответстващите им изображения. В тази база данни информацията варира в голяма степен, понеже са използвани много категории разнообразни продукти от целия свят. Текстът на рецептите понякога съдържа десетки редове.

Именно с тази база данни учените от университета на Тел Авив обучиха своята невронна мрежа.

Изследователите признават, че системата все още не е съвършена. Проблемът е, че генерираните изображения са с резолюция само 256х256 пиксела. Понякога те са с ниско качество, понеже в базата данни има снимки с недобро качество, заснети при слаба осветеност. Много от снимките са каши и са далече от квадратната или правоъгълната форма, което затруднява машинното обучение. С това се обяснява, защо cGAN много добре генерира изображенията на макарони, оризови ястия, супи и салати, но се затруднява при хамбургерите и пилешкото.

В бъдеще създателите на новата невронна мрежа възнамеряват да продължат работата и да дообучат системата с помощта на останалите рецепти (още около 350 000 изображения). Поради наличието на некачествени снимки в базата, те възнамеряват след това да продължат обучението чрез собствени двойки рецепти/снимки.

Научната работа бе публикувана на 8 януари тази година в arXiv.org.

3
ДОБАВИ КОМЕНТАР

avatar
2 Коментари
1 Отговори на коментарите
3 Последователи
 
Коментарът с най-много реакции
Най-горещият коментар
3 Автори на коментарите
favr мой геройКольоКоментатор Автори на последните коментари
  Абонирай се  
нови стари оценка
Извести ме за
Коментатор
Коментатор

Докарва всичко до някаъв буламач изглеждащ еднакво при различните рецепти, но като начало е добре. Най ми хареса как е „сготвило“ тортилята 🙂

Кольо
Кольо

Перфектно, имаш си върхова технология, която принципно трябва да се използува за да бута човечеството още по-напред в технологиите и я набутваш с дейност, да се занимава с картинки на буламачи.

favr мой герой
favr мой герой

А, така, кажи им, ако беше ракия и сланина друго ще си е! Яж кренвиршити и мълчи там.