Учените хакват ИИ с безсмислици: пренарежданията на думите заобикалят филтрите и объркват моделите

Американски учени от Масачузетския технологичен институт, Северо-Източния университет и Meta са открили, че големите езикови модели на изкуствен интелект понякога дават приоритет на структурата на изреченията пред значението, когато отговарят на въпроси. Това отваря вратата за злоупотреба с изкуствения интелект и хакерство.

За да тестват това, изследователите задавали на ИИ-моделите безсмислени въпроси, имитирайки структурата на смислени изречения. Например, фразата „Бързо седнете, Париж, облачно?“ («Quickly sit Paris clouded?») е довела до същия отговор „Във Франция“, както на въпроса „Къде се намира Париж?“. Това означава, че моделите с изкуствен интелект ценят както семантиката – значението – така и синтактичните модели. Ако семантичното значение се загуби, чатботът се опитва да се ориентира в структурата на изречението. Структурата на изречението се изучава от синтаксиса — дисциплина, която се фокусира върху относителните позиции на думите и тяхната принадлежност към специфичните части на речта. Семантиката, от друга страна, се занимава с действителното значение на думите, което може да се променя, като същевременно се запазва същата граматическа структура.

Семантиката е силно зависима от контекста – контекстният анализ е това, което захранва големите езикови модели. Процесът на трансформиране на входните данни (заявки) в изход (отговори на изкуствения интелект) е сложна последователност от съпоставяне на шаблони и кодирани от модела обучителни данни. За да определят риска от неуспех в този процес, учените са провели контролиран експеримент. Те са конструирали синтетичен набор от данни, в който всяка предметна област съответства на граматичен шаблон, базиран на конструкции от думи, свързани с конкретни части на речта. Географията е представена от една последователност, а творческата насока – от друга. Използвайки тези данни, изследователите са обучили модели от семейството OLMo и след това са тествали връзката между синтаксиса и семантиката за изкуствения интелект.

В резултат на анализа си, учените са открили „фалшива корелация“, при която моделите, в екстремни случаи, възприемат синтаксиса като заместител на предметната област. Когато граматическите модели противоречат на семантиката, паметта на изкуствения интелект за специфичните граматически форми превъзхожда семантичния анализ и чатботът предоставя неправилен отговор въз основа на структурата, а не на значението на фразата в заявката. Казано по-просто, изкуственият интелект може да се фиксира прекалено върху стила на въпроса, а не върху значението му. Например, ако всички географски въпроси в обучителния набор започват с думата „къде“, тогава, когато бъде попитан „Къде е най-добрата пица в Казан?“, чатботът ще отговори „В Татарстан“ и няма да се опита да предостави списък с пицарии в столицата на републиката, защото няма да разбере, че въпросът е за храна. Това създава две заплахи: моделите започват да предоставят неправилни отговори в непознатите контексти, демонстрирайки един вид фалшива памет; атакуващите могат да използват тези граматически модели, за да заобиколят мерките за сигурност, като скрият невалидните въпроси в „безопасни“ синтактични структури. По този начин те променят темата, като свързват заявката с различен контекст.

За да измерят твърдостта на съпоставянето на шаблоните, учените са подложили своите ИИ-модели на стрес-тестове. Когато форматът на заявката съответства на зададената предметна област, замяната на някои думи със синоними или дори антоними намалява точността до максимум 93%, което е в съответствие с изходния показател от 94%. Въпреки това, при прилагане на същия граматичен шаблон към различен предмет на област, точността на отговора спада с между 37 и 54 процентни пункта, в зависимост от размера на модела.

Изследователите са провели тестове, използвайки пет метода за манипулиране на заявките: точни фрази от обучаващия набор, заместване на синоними, заместване на антоними, перифразиране с променена структура на изреченията и заявките с „нечетлив език“ – безсмислени, но граматически правилни заявки. В рамките на обучаващата област моделите демонстрирали висока производителност във всички случаи, с изключение на постоянно ниското качество на отговора за заявките с „нечетлив език“. Когато били принудени да сменят областите, качеството на отговора спадало рязко, оставайки постоянно ниско за заявките с „нечетлив език“.

Подобен спад е наблюдаван и при моделите OLMo-2-7B, GPT-4o и GPT-4o. В задачата по емоционална класификация в туитовете на Sentiment140, моделът GPT-4o-mini е демонстрирал спад в точността от 100% на 44%, когато към заявките с емоционална окраска са добавени географски шаблони. Подобни модели са открити и в други набори от данни. Изследователите са заобиколили защитите на моделите по подобен начин: в случая с OLMo-2-7B-Instruct, те са добавили структури на заявки, типични за безопасните раздели от обучителния масив, към злонамерено съдържание. Добавили са хиляда злонамерени заявки от добре познатия набор от данни WildJailbreak към безобидните модели на разсъждение – процентът на неуспех на модела е спаднал от 40% на 2,5%. Учените са дали примери за това как са успели да получат подробни инструкции за извършване на незаконни действия.

Резултатите на изследователите са обект на няколко уговорки. По-конкретно, те не са успели да потвърдят наличието на специфични набори от данни в обучителните масиви на своите затворени модели, което означава, че идентифицираните от тях модели може да имат други обяснения. Те също така са използвали опростени критерии за оценка на отговорите на ИИ, което означава, че неправилните отговори може да не са свързани с преходи към други области. И накрая, обектите на техните изследвания най-често са OLMo модели с диапазон от 1 милиард до 13 милиарда параметъра; по-големите модели с повече разсъждения може да се държат различно. За да потвърдят модела, учените са разчитали на синтетични набори от данни; обучителните масиви, използвани на практика, съдържат по-сложни граматически модели, общи за множество области. Въпреки това, проучването за пореден път потвърждава, че големите езикови модели на ИИ са статистически машини, които съпоставят заявките с моделите в обучителните данни и могат да бъдат заблудени чрез изкривяване на контекста.

Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Google Новини, TikTok, Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!

Учените хакват ИИ с безсмислици: пренарежданията на думите заобикалят филтрите и объркват моделите

Най-четени

Netflix променя курса: българските субтитри вече се завръщат при новите филми и сериали

Кои професии винаги ще са необходими: тук изкуственият интелект е безсилен

Каква е разликата между обикновения дизел и дизел плюс?

Нови ревюта

Huawei Watch Fit 5 Pro: часовникът, който тежи едва 30 грама, но прави изненадващо много

Xiaomi 17T: Телефонът, който намери точния баланс между цена и възможности

Lenovo Yoga Slim 7 Aura Edition: лаптопът под килограм, който може да ви накара да забравите за MacBook Air

Saros доказва, че Housemarque вече са сред най-добрите студиа в света

Подобни новини

AI вместо касиер: McDonald’s тества системата ArchIQ в McDrive в САЩ

Дигиталният мегапроект: Китай инвестира невероятните $295 милиарда в изграждането на нови ИИ дейта центрове

Хората започнаха да искат от пластичните хирурзи да им създадат лице, което да прилича на тяхната AI версия. Какво не е наред?

Най-авангардният AI на iOS 27 се нуждае от 12 GB RAM, а повечето iPhone-и не разполагат с толкова

Връзка с нас

Приложения

Следвайте ни

Абонирайте се!

Учените хакват ИИ с безсмислици: пренарежданията на думите заобикалят филтрите и объркват моделите

Най-четени

Всичко важно от света на технологиите, директно в пощата ти.

Нови ревюта

Подобни новини

Връзка с нас

Приложения

Следвайте ни

Абонирайте се!