Големите езикови модели (LLM), които захранват приложенията с изкуствен интелект крият истинските механизми на своите разсъждения и предлагат по-сложни обяснения за тях, когато бъдат попитани от хора, се казва в проучване, проведено от Anthropic.
Компанията Anthropic, която стои зад чатбота с изкуствен интелект Claude е проучила ИИ-модели, способни да симулират процеса на разсъждение, включително R1 на DeepSeek и собствената си серия системи Claude. Оказва се, че разсъждаващите ИИ-модели често не успяват да разкрият кога приемат помощ от външни източници или използват съкращения при подготовката на отговора, въпреки функциите, предназначени да накарат ИИ да демонстрира своя процес на „разсъждаване“.
За да се опише работата на разсъждаващите модели на ИИ се използва понятието Chain-of-Thought – CoT, или „верига на мисълта“. Това е резултатът от текущите коментари на симулацията на мисловния процес на ИИ: показва се всяка стъпка, която ИИ-моделът прави по пътя към получаването на отговор – подобно на това, когато решава пъзел, човек може да разсъждава, като стъпка по стъпка изрежда всяка мисъл.
Функцията се оказа полезна не само за получаване на резултати при решаване на сложни задачи, но и за изследователите на сигурността на изкуствения интелект, които искат да проследят вътрешната работа на системите. В идеалния случай ходът на мисълта на ИИ трябва да бъде разбираем за хората и да съответства на действителността, т.е. да отразява действителния процес на разсъждение на ИИ-модела.

В действителност, както се оказа такъв идеален сценарий не винаги съществува.
ИИ-моделите, включително Claude 3.7 Sonnet често използваха информация, предложена им като част от експеримента – подсказки с варианти за правилен отговор или инструкции за получаване на резултат чрез „неразрешен“ пряк път – при генерирането на отговор по време на опита, но често пропускаха да споменат тези външни фактори при извеждането на публичната верига от разсъждения.
Като разчиташе мълчаливо на подсказка или на пряк път, ИИ създаваше сложно, но фиктивно обяснение за своя отговор, т.е. по същество изфабрикуваше фалшива верига от разсъждения – като ученик от гимназията, който мами от контролно, но се опитва да се преструва, че сам е решил задачата.
За да се уверят, че заключенията им са правилни, изследователите на Anthropic стават по-деликатни.
В някои случаи те ненатрапчиво добавяли подсказки директно в заявките. Някои подсказки даваха правилния отговор, докато други бяха умишлено неверни. ИИ-моделите Claude 3.7 Sonnet и DeepSeek R1 бяха подложени на такъв тест: първият призна, че е използвал подсказки само в 25% от случаите, а вторият – само в 39% от случаите. Това означава, че в повечето опити изкуственият интелект е извеждал неуместни разсъждения, пропускайки информация, която е повлияла на отговора. Интересно е, че фиктивните вериги от разсъждения са средно по-дълги от валидните, а с усложняването на заявките валидните вериги от разсъждения се извеждат по-рядко.
Най-открояващият се експеримент беше reward hacking.
Това е сценарий, при който ИИ-моделът открива неочакван начин за получаване на отговор по най-краткия възможен начин, за да постигне максимална производителност, а не да реши проблема според очакванията. В експериментите на Anthropic учените умишлено възнаграждават ИИ-моделите за избора на грешни отговори, дадени в подсказките: ИИ бързо се научава да използва тази вратичка, избирайки грешни отговори в 99% от случаите, за да печели точки – споменаването на този сценарий в откритата верига от разсъждения е сведено до по-малко от 2%. По този начин ИИ-модел, който дава грешен отговор по медицинска тема, може да напише дълга верига от разсъждения, водеща до този грешен отговор, без да споменава подсказката.
Екипът на Anthropic изказва хипотезата, че обучението на ИИ-моделите по по-сложни задачи, които изискват повече разсъждения може по естествен начин да ги насърчи да използват веригата на разсъжденията по-съществено и да споменават подсказките по-често. Те провериха тази хипотеза, като обучиха Claude да прилага по-плътно мисловния поток при решаването на сложни задачи по математика и програмиране – резултатът беше положителен, но не доведе до радикална промяна.
Учените отбелязват, че тяхното проучване е ограничено: сценариите са изкуствени, а подсказките са въведени в задачи с избор между няколко отговора – в реалните задачи залогът и стимулите са различни. Освен това за извадка са взети само моделите Anthropic и DeepSeek.
Възможно е задачите, използвани в експеримента да не са били достатъчно сложни, за да се установи значителна зависимост от веригата на разсъжденията, като при по-сложни заявки ролята на извеждането на веригата на разсъжденията може да се увеличи и нейното наблюдение да бъде по-жизнеспособно. От гледна точка на последователността и сигурността наблюдението на веригата на разсъжденията може да не е напълно ефективно и невинаги може да се вярва на начина, по който моделите съобщават за своите разсъждения, когато предметът на запитването се окаже reward hacking.
„За да се изключи нежеланото поведение на ИИ с помощта на мониторинг на мисловната верига с висока степен на надеждност, все още ще трябва да се свърши значителна работа.“
заключават от Anthropic
Всичко важно от света на технологиите, директно в пощата ти.
С абонирането приемате нашите Условия и Политика за поверителност. Може да се отпишете с един клик по всяко време.
Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Google Новини, TikTok, Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!