Технологичният институт на Масачузетс откри, че масивните модели на невронните мрежи могат да съдържат в себе си по-малки линейни модели във вътрешните си слоеве. Това означава, че е възможно да бъдат обучени да изпълняват нови задачи с помощта на опростени алгоритми, на базата на малък брой примери, без да са необходими големи бази данни.
Големите езикови модели като GPT са способни да генерират всякакви смислени текстове – от научни статии до поезия. След като са преминали обучение с огромно количество данни, те вземат подадения текст и прогнозират какво трябва да следва. Изследователи от Масачузетския технологичен институт (MIT), Google Research и Станфордския университет обаче разкриха друга много интересна особеност на тези модели – любопитният феномен на „учене в контекст„, при който големите езикови модели се научават да изпълняват нови задачи само от два-три примера.
Обикновено моделите от типа GPT-3 трябва да бъдат повторно обучени, за да могат да изпълняват нови задачи. По време на този процес изкуственият интелект актуализира своите параметри. Но в случая на контекстуалното учене параметрите му не се актуализират, така че изглежда, че той усвоява ново умение, без изобщо да е научил нещо. Изследователи са се опитали да разрешат тази загадка, пише MIT News.
Получените от тях резултати показват, че в по-големите модели могат да бъдат скрити по-опростени линейни модели с по-малък размер. И докато при големите модели се използват сложни алгоритми за обучение, линейните модели могат да бъдат обучавани на нови умения, като се използва и информацията, която вече съществува в голямата невронна мрежа.