Intel и Blockade Labs представиха съвместен ИИ модел за синтез на 3D изображения (видео)

Intel и Blockade Labs съвместно разработиха LDM3D (Latent Diffusion Model for 3D) – модел с машинно обучение за генериране на изображения и свързани с тях дълбочинни карти въз основа на текстови описания на естествен език. Разработката наподобява системата за синтез на изображения със стабилна дифузия, но позволява генерирането на 3D визуално съдържание, като например сферични панорамни изображения, които могат да се разглеждат на 360 градуса. От практическа гледна точка моделът може да се използва в игрите и системите за виртуална реалност за интерактивно формиране на триизмерни среди.

Готовият модел за системи с машинно обучение се предлага за безплатно изтегляне и може да се използва с PyTorch и код, предназначен за генериране на изображения с помощта на моделите от проекта Stable Diffusion. Моделът се разпространява под лиценза Creative ML OpenRAIL-M permissive, който позволява комерсиална употреба. Този отворен лиценз дава възможност на изследователите и заинтересованите разработчици да подобряват модела според своите нужди и да го оптимизират за тясно специализирани приложения.

За обучението на модела се използва отвореният набор от данни LAION-400M, подготвен от общността LAION (Large-scale Artificial Intelligence Open Network), която разработва инструменти, модели и колекции от данни за изграждане на безплатни системи за машинно обучение. Колекцията LAION-400M включва 400 милиона изображения с текстови описания.

В допълнение към изображенията и техните текстови описания моделът LDM3D използва и карти на дълбочината, генерирани за всяко изображение с помощта на системата за машинно обучение DPT (Dense Prediction Transformer), за да прогнозира относителната дълбочина на всеки пиксел в плоското изображение. В сравнение с техниките за прогнозиране на дълбочината на етапа на последваща обработка, моделът LDM3D, първоначално обучен с дълбочина, позволява да се предостави по-точна информация за дълбочината още на етапа на генериране. Друго предимство на модела е възможността да се създават данни за дълбочината, без да се увеличава броят на параметрите – броят на параметрите в модела LDM3D е приблизително същият като в най-новия модел за стабилна дифузия.

За демонстрация възможностите на модела DepthFusion е подготвено специално приложение, което позволява създаването на интерактивни 360-градусови среди за гледане въз основа на 2D RGB изображения и карти на дълбочината. Приложението е написано на езика за визуално програмиране TouchDesigner, подходящ за създаване на интерактивно мултимедийно съдържание в реално време. LDM3D може да се използва и за генериране и модифициране на изображения въз основа на предложен шаблон, проектиране на резултата върху сфера за създаване на сферична среда, генериране на изображения въз основа на различни позиции на наблюдателя и генериране на видео въз основа на движението на виртуална камера.

Счита се, че предложената технология има голям потенциал за създаване на нови методи за взаимодействие с потребителя, които биха могли да бъдат търсени в редица индустрии – от развлечения и игри до архитектура и дизайн. Така например LDM3D може да се използва за създаване на интерактивни музеи и среди за виртуална реалност, които оформят детайлна среда въз основа на опростени описания на естествен език.

Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Google Новини, TikTok, Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!

Intel и Blockade Labs представиха съвместен ИИ модел за синтез на 3D изображения (видео)

Най-четени

Netflix променя курса: българските субтитри вече се завръщат при новите филми и сериали

Учени посочиха фундаментален проблем в разбирането за реалността

Каква е разликата между обикновения дизел и дизел плюс?

Нови ревюта

Huawei Watch Fit 5 Pro: часовникът, който тежи едва 30 грама, но прави изненадващо много

Xiaomi 17T: Телефонът, който намери точния баланс между цена и възможности

Lenovo Yoga Slim 7 Aura Edition: лаптопът под килограм, който може да ви накара да забравите за MacBook Air

Saros доказва, че Housemarque вече са сред най-добрите студиа в света

Подобни новини

AI вместо касиер: McDonald’s тества системата ArchIQ в McDrive в САЩ

Дигиталният мегапроект: Китай инвестира невероятните $295 милиарда в изграждането на нови ИИ дейта центрове

Хората започнаха да искат от пластичните хирурзи да им създадат лице, което да прилича на тяхната AI версия. Какво не е наред?

Най-авангардният AI на iOS 27 се нуждае от 12 GB RAM, а повечето iPhone-и не разполагат с толкова

Връзка с нас

Приложения

Следвайте ни

Абонирайте се!

Intel и Blockade Labs представиха съвместен ИИ модел за синтез на 3D изображения (видео)

Най-четени

Всичко важно от света на технологиите, директно в пощата ти.

Нови ревюта

Подобни новини

Връзка с нас

Приложения

Следвайте ни

Абонирайте се!