Учени разкриха тайния език за комуникация между AI-системите

Най-четени

Светослав Димитров
Светослав Димитровhttps://www.kaldata.com/
Занимава се със създаване на съдържание за уеб от 2009 г. с над 15000 написани новини за Калдата. Интересува се от SMM, Афилиейт и др.

Изследователи на изкуствения интелект в Anthropic и Truthful AI са открили в езиковите модели необичаен и обезпокоителен феномен, който те наричат „подсъзнателно учене“. Става дума за това, че ИИ моделите могат да се учат взаимно на сложни модели на поведение, дори в привидно неутрални и безопасни набори от данни. Откритието поставя под въпрос ефективността на традиционните методи за модериране на съдържанието, използвани за предотвратяване на злонамереното поведение в системите с изкуствен интелект.

В проучването моделите „учител“ – по-специално GPT-4.1 – бяха използвани за обучение на други езикови модели. Забележителното тук е, че данните от обучението съдържат само трицифрени числа, без явно вредно или чувствително съдържание. Въпреки това моделите „ученик“ са демонстрирали проблемни поведенчески реакции, вариращи от оправдаване на насилие до подкрепа на незаконни действия. Нещо повече, тези реакции понякога са били дори по-изразени от тези на моделите „учител“.

Ключово откритие тук е това, че дори след внимателно филтриране на данните за токсичност и етични опасности, моделите все още демонстрират нежелано поведение. Това предполага, че самите набори от данни може да съдържат скрити модели, които са невидими за хората, но се разпознават от други системи с изкуствен интелект на ниво статистически закономерности.

Оказва се, че този ефект се проявява само когато моделите имат сходни архитектури. Тоест, „поведенчески структури“ се прехвърлят само между системите със сходни вътрешни принципи на работа. Това предполага, че изкуственият интелект е способен да прехвърля сложна информация не чрез експлицитно текстово обучение, а чрез дълбоки структурни връзки в данните, които генерира или обработва.

Най-тревожното е, че обичайните методи за филтриране на съдържанието, на които индустрията разчита, за да гарантира безопасното поведение на моделите, се оказват неефективни. Проучването показва, че проблемните модели на поведение могат да се появят не само в резултат на директно учене от токсично съдържание, но и чрез вторични, подсъзнателни влияния, които възникват по време на процеса на пренос на данните между изкуствените интелекти.

Това откритие поставя нови предизвикателства пред изследователите и разработчиците в областта на сигурността на изкуствения интелект. Необходимо е да се преразгледат както принципите за създаване на самите обучителни набори, така и стратегиите за тестване и ограничаване на поведението на моделите. С разширяването на въздействието на изкуствения интелект в критични области на обществото е важно да се гарантира, че дори „подсъзнателните“ слоеве на обучение не носят скрити заплахи.

Припомняме, че скоро изкуственият интелект на Google ще опрости процеса на пазаруване и ще започне да генерира дрехи въз основа на потребителските заявки. Тоест, потребителите чрез текстова заявка описват каква дреха търсят, а невронната мрежа генерира релевантни графични изображения, от които да изберете най-подходящото.

Всичко важно от света на технологиите, директно в пощата ти.

С абонирането приемате нашите Условия и Политика за поверителност. Може да се отпишете с един клик по всяко време.


Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Google Новини, TikTok, Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!

Нови ревюта

Подобни новини