Големите езикови модели (LLM, Large Language Models) са компютърни модели, способни да анализират и генерират текст. Те са обучени на огромно количество текстови данни, за да подобрят представянето си при задачи като генериране на текст и дори кодиране.
Повечето настоящи LLM са само текстови, т.е. те се отличават само с текстови приложения и имат ограничена способност да разбират други типове данни.
Примери за само текстови LLM включват GPT-3 , BERT , RoBERTa и др.
Мултимодалните LLM комбинират други типове данни, като изображения, видеоклипове, аудио и други входове, заедно с текста. Интегрирането на мултимодалността в LLM адресира някои от ограниченията на текущите само текстови модели и отваря възможности за нови приложения, които преди бяха невъзможни.
Наскоро пуснатият GPT-4 от Open AI е пример за мултимодален LLM. Той може да приема въвеждане на изображения и текст и е показал производителност на човешко ниво при множество тестове.
Възход в мултимодалния AI
Напредъкът на мултимодалния AI може да се дължи на две ключови техники за машинно обучение: обучение за представяне и обучение за трансфер.
С обучението за представяне моделите могат да разработят споделено представяне за всички видове вход, докато обучението за трансфер им позволява първо да научат фундаментални знания преди фина настройка на конкретни области.
Тези техники са от съществено значение за превръщането на мултимодалния AI в осъществим и ефективен, както се вижда от скорошни пробиви като CLIP, който подравнява изображения и текст, и DALL·E 2 и Stable Diffusion, които генерират висококачествени изображения от текстови подкани.
Тъй като границите между различните модалности на данните стават по-малко ясни, можем да очакваме повече AI приложения да използват връзките между множество модалности, отбелязвайки промяна на разбиранията в областта. Специалните подходи постепенно ще остареят и значението за разбирането на връзките между различните модалности ще продължи да нараства.
Работа на мултимодалните LLM
Езиковите модели само с текст (LLM) се захранват от трансформаторния модел, който им помага да разберат и генерират език. Този модел приема въведен текст и го преобразува в цифрово представяне, наречено „вграждане на думи“. Тези вграждания помагат на модела да разбере значението и контекста на текста.
След това моделът на трансформатора използва нещо, наречено „слоеве на внимание“, за да обработи текста и да определи как различните думи във входния текст са свързани една с друга. Тази информация помага на модела да предвиди най-вероятната следваща дума в изхода.
От друга страна, мултимодалните LLM работят не само с текст, но и с други форми на данни, като изображения, аудио и видео. Тези модели преобразуват текст и други типове данни в общо пространство за кодиране, което означава, че могат да обработват всички типове данни, използвайки един и същ механизъм. Това позволява на моделите да генерират отговори, включващи информация от множество модалности, което води до по-точни и контекстуални резултати.
Защо има нужда от мултимодални езикови модели
Само текстовите LLM като GPT-3 и BERT имат широк спектър от приложения, като писане на статии, съставяне на имейли и кодиране. Въпреки това, този подход само с текст подчертава и ограниченията на тези модели.
Въпреки че езикът е решаваща част от човешкия интелект, той представлява само един аспект от него. Нашите когнитивни способности до голяма степен разчитат на несъзнателно възприятие и способности, до голяма степен оформени от нашия минал опит и разбиране за това как работи светът.
LLM, обучени единствено върху текст, по своята същност са ограничени в способността си да включват здравия разум и световните познания, което може да се окаже проблематично за определени задачи. Разширяването на набора от данни за обучение може да помогне до известна степен, но тези модели все пак може да срещнат неочаквани пропуски в своите познания. Мултимодалните подходи могат да отговорят на някои от тези предизвикателства.
Въпреки че ChatGPT е забележителен езиков модел, който се оказа невероятно полезен в много контексти, той има определени ограничения в области като сложни разсъждения.
За да се справи с това, следващата итерация на GPT, GPT-4, се очаква да надмине възможностите за разсъждение на ChatGPT. Чрез използването на по-усъвършенствани алгоритми и включването на мултимодалност, GPT-4 е готов да изведе обработката на естествения език на следващото ниво, позволявайки му да се справя с по-сложни проблеми с разсъжденията и допълнително да подобри способността си да генерира човешки отговори.
Някои примери за мултимодални LLMs
- OpenAI: GPT-4
GPT-4 е голям, мултимодален модел, който може да приема както изображения, така и текстови входове и да генерира текстови изходи. Въпреки че може да не е толкова способен като хората в определени ситуации от реалния свят, GPT-4 показа производителност на човешко ниво при множество професионални и академични показатели.
В сравнение с предшественика си, GPT-3.5, разликата между двата модела може да е едва доловима при непринуден разговор, но става очевидна, когато сложността на дадена задача достигне определен праг. GPT-4 е по-надежден и креативен и може да обработва по-нюансирани инструкции от GPT-3.5.
Освен това, той може да обработва подкани, включващи текст и изображения, което позволява на потребителите да определят всяка визия или езикова задача. GPT-4 демонстрира възможностите си в различни области, включително документи, които съдържат текст, снимки, диаграми или екранни снимки, и може да генерира текстови изходи като естествен език и код.
Khan Academy наскоро обяви, че ще използва GPT-4 за захранване на своя AI асистент Khanmigo, който ще действа като виртуален преподавател за ученици, както и като асистент в класната стая за учители. Способността на всеки ученик да схваща концепции варира значително и използването на GPT-4 ще помогне на организацията да се справи с този проблем.

- Microsoft: Kosmos-1
Kosmos-1 е мултимодален голям езиков модел (MLLM), който може да възприема различни модалности, да учи в контекст и да следва инструкции. Kosmos-1 е обучен от нулата върху уеб данни, включително текст и изображения, двойки изображения-надписи и текстови данни.
Моделът постигна впечатляващо представяне при задачи за разбиране на езика, генериране, възприятие-език и зрителни задачи. Поддържа език на възприятие и зрителни дейности и може да се справя със задачи с интензивно възприятие и естествен език.
Kosmos-1 демонстрира, че мултимодалността позволява на големите езикови модели да постигат повече с по-малко и на по-малките модели да решават сложни задачи.
- Google: PaLM-E
PaLM-E е нов модел за роботика, разработен от изследователи в Google и TU Berlin, който използва трансфер на знания от различни визуални и езикови области, за да подобри обучението на роботи. За разлика от предишните прототипи, PaLM-E обучава езиковия модел, за да включва директно необработени сензорни данни от роботизирания агент. Това води до високоефективен модел за обучение на роботи, най-съвременен визуално-езичен модел с общо предназначение.
Моделът приема входове с различни видове информация, като текст, снимки и разбиране на заобикалящата среда на робота. Той може да произвежда отговори под формата на обикновен текст или поредица от текстови инструкции, които могат да бъдат преведени в изпълними команди за робот въз основа на набор от типове входна информация, включително текст, изображения и данни за околната среда.
PaLM-E демонстрира компетентност както при въплътени, така и при невъплътени задачи, както се вижда от експериментите, проведени от изследователите. Техните открития показват, че обучението на модела върху комбинация от задачи и изпълнения подобрява неговата ефективност при всяка. Освен това способността на модела да прехвърля знания му позволява ефективно да решава роботизирани задачи дори с ограничени примери за обучение. Това е особено важно в роботиката, където получаването на адекватни данни за обучение може да бъде предизвикателство.
Ограничения на мултимодалните LLMs
Хората естествено учат и комбинират различни модалности и начини за разбиране на света около тях. От друга страна, мултимодалните LLM се опитват едновременно да учат език и възприятие или да комбинират предварително обучени компоненти. Въпреки че този подход може да доведе до по-бързо развитие и подобрена мащабируемост, той може също така да доведе до несъвместимост с човешкия интелект, което може да се прояви чрез странно или необичайно поведение.
Въпреки че мултимодалните LLM напредват в справянето с някои критични проблеми на съвременните езикови модели и системите за задълбочено обучение, все още има ограничения, които трябва да бъдат разгледани. Те включват потенциални несъответствия между моделите и човешкия интелект, което може да попречи на способността им да преодолеят пропастта между AI и човешкото познание.
Заключение: Защо мултимодалните LLM са бъдещето?
В момента сме в челните редици на нова ера в изкуствения интелект и въпреки настоящите му ограничения, мултимодалните модели са готови да поемат. Тези модели комбинират множество типове данни и модалности и имат потенциала напълно да трансформират начина, по който взаимодействаме с машините.
Мултимодалните LLM са постигнали забележителен успех в компютърното зрение и обработката на естествен език. В бъдеще обаче можем да очакваме да имат още по-значително въздействие върху живота ни.
Възможностите на мултимодалните LLM са безкрайни и ние едва започнахме да изследваме истинския им потенциал. Предвид огромните им обещания, ясно е, че мултимодалните LLM ще играят решаваща роля в бъдещето на AI.