Intel и Blockade Labs съвместно разработиха LDM3D (Latent Diffusion Model for 3D) – модел с машинно обучение за генериране на изображения и свързани с тях дълбочинни карти въз основа на текстови описания на естествен език. Разработката наподобява системата за синтез на изображения със стабилна дифузия, но позволява генерирането на 3D визуално съдържание, като например сферични панорамни изображения, които могат да се разглеждат на 360 градуса. От практическа гледна точка моделът може да се използва в игрите и системите за виртуална реалност за интерактивно формиране на триизмерни среди.
Готовият модел за системи с машинно обучение се предлага за безплатно изтегляне и може да се използва с PyTorch и код, предназначен за генериране на изображения с помощта на моделите от проекта Stable Diffusion. Моделът се разпространява под лиценза Creative ML OpenRAIL-M permissive, който позволява комерсиална употреба. Този отворен лиценз дава възможност на изследователите и заинтересованите разработчици да подобряват модела според своите нужди и да го оптимизират за тясно специализирани приложения.
За обучението на модела се използва отвореният набор от данни LAION-400M, подготвен от общността LAION (Large-scale Artificial Intelligence Open Network), която разработва инструменти, модели и колекции от данни за изграждане на безплатни системи за машинно обучение. Колекцията LAION-400M включва 400 милиона изображения с текстови описания.
В допълнение към изображенията и техните текстови описания моделът LDM3D използва и карти на дълбочината, генерирани за всяко изображение с помощта на системата за машинно обучение DPT (Dense Prediction Transformer), за да прогнозира относителната дълбочина на всеки пиксел в плоското изображение. В сравнение с техниките за прогнозиране на дълбочината на етапа на последваща обработка, моделът LDM3D, първоначално обучен с дълбочина, позволява да се предостави по-точна информация за дълбочината още на етапа на генериране. Друго предимство на модела е възможността да се създават данни за дълбочината, без да се увеличава броят на параметрите – броят на параметрите в модела LDM3D е приблизително същият като в най-новия модел за стабилна дифузия.
За демонстрация възможностите на модела DepthFusion е подготвено специално приложение, което позволява създаването на интерактивни 360-градусови среди за гледане въз основа на 2D RGB изображения и карти на дълбочината. Приложението е написано на езика за визуално програмиране TouchDesigner, подходящ за създаване на интерактивно мултимедийно съдържание в реално време. LDM3D може да се използва и за генериране и модифициране на изображения въз основа на предложен шаблон, проектиране на резултата върху сфера за създаване на сферична среда, генериране на изображения въз основа на различни позиции на наблюдателя и генериране на видео въз основа на движението на виртуална камера.
Счита се, че предложената технология има голям потенциал за създаване на нови методи за взаимодействие с потребителя, които биха могли да бъдат търсени в редица индустрии – от развлечения и игри до архитектура и дизайн. Така например LDM3D може да се използва за създаване на интерактивни музеи и среди за виртуална реалност, които оформят детайлна среда въз основа на опростени описания на естествен език.
Всичко важно от света на технологиите, директно в пощата ти.
С абонирането приемате нашите Условия и Политика за поверителност. Може да се отпишете с един клик по всяко време.
Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Google Новини, TikTok, Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!


