Китайският стартъп DeepSeek се прочу по-рано тази година със своя ИИ-модел R1, способен да „разсъждава“, който успя да се конкурира с тези на американските технологични гиганти въпреки скромния си бюджет. Сега DeepSeek публикува статия в сътрудничество с изследователи от Университета Цинхуа, в която подробно се описва нов подход за обучение на ИИ-модели с подсилване, позволяващ значително да се подобри тяхната ефективност. Това бе съобщено от ресурса SCMP.
Според публикацията новият метод има за цел да помогне на ИИ-моделите да отговарят по-добре на човешките предпочитания, като използват механизма на наградите за по-точни и разбираеми отговори.

Обучението с подсилване е доказало своята ефективност при ускоряването на задачите на ИИ в ограничени области и приложения. Използването му за по-общи задачи обаче не е толкова ефективно. Екипът на DeepSeek се опитва да реши този проблем, като комбинира генеративно моделиране на възнагражденията (GRM) и т.нар. самокритично настройване, основано на принципи. Както се твърди в статията, новият подход за подобряване на способностите за разсъждаване на големи езикови модели (LLM) превъзхожда съществуващите методи, което се потвърждава от валидирането на моделите в различни тестове, и дава най-висока производителност за общи заявки, като същевременно използва по-малко изчислителни ресурси.
Новите ИИ-модели са наречени DeepSeek-GRM, което е акроним на Generalist Reward Modelling (универсално моделиране на възнагражденията). Компанията заяви, че те ще бъдат с отворен код, но все още не е обявена дата на пускане. Миналия месец Ройтерс съобщи, позовавайки се на информирани източници, че през април компанията ще пусне и R2, наследник на R1.
Други водещи разработчици на изкуствен интелект, сред които китайската Alibaba Group и базираната в Сан Франциско OpenAI също работят по подобряване на възможностите за разсъждаване и самоусъвършенстване на ИИ-моделите, отбелязва Bloomberg.
Всичко важно от света на технологиите, директно в пощата ти.
С абонирането приемате нашите Условия и Политика за поверителност. Може да се отпишете с един клик по всяко време.
Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Google Новини, TikTok, Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!