Google представи нов тип изкуствен интелект с един трилион параметри

0
968

Специалистите на Google разработиха и тестваха нови методи, даващи възможност за създаване и обучаване на езикови модели с над 1,5 трилиона параметри. По този начин се е получил най-мощния към днешен ден изкуствен интелект, работещ четири пъти по-бързо в сравнение с предишния рекордьор на компанията Т5-XXL. Експерименталният нов модел на Google почти десетократно превъзхожда по потенциал и скорост на обучение изкуствения интелект GPT-3 на Open AI.

Параметрите са най-важният елемент в алгоритмите за машинно обучение, особено когато става дума за езикови модели. Колкото е по-голям броят на параметрите, толкова по-добре се справя изкуственият интелект с генерирането и разбирането на текста. Така например, GPT-3, които е един от най-големите езикови модели с използване на алгоритми с елементи на изкуствен интелект, има 175 милиарда параметри, като това му позволява да прави аналогии, да създава нови рецепти, да пише стихове и да програмира.

Мащабното обучение е един от най-ефективните начини за създаването на мощни езикови ИИ модели. Опростената архитектура, подкрепена с големи бази данни и голям брой параметри, превъзхожда по-сложните алгоритми. Но обучението на тези модели е изключително труден процес, който отнема много ресурси. Това е и причината експертите на Google да разработят метода Switch Transformer, при който се използва само подклас на теглото на модела – това са параметрите, които само трансформират входните данни на ИИ модела.

Switch Transformer се базира на работата на различни допълнителни ИИ експерти, които са също модели от подобен тип, специализирани върху изпълняването на точно определени задачи и са част от по-големия модел. Новата технология, която се използва при този подход, се базира на хардуерно умножение на плътни матрици – математически операции, широко използвани в ИИ езиковите модели. В режим на тренировка, изчисленията се разпределят върху няколко модула, като се използва автоматично управление на паметта и изчислителното натоварване на всеки модул.

По време на експеримента специалистите на Google са обучили няколко различни ИИ модела с помощта на тензорен процесор върху база данни от 750 GB, текстове на която са взети от Reddit, Wikipedia и други източници. Една от основните задачи е да се вмъкнат липсващите 15% от думите във фразите. В сравнение с по-малкия Switch-XXL, при новия ИИ модел не се наблюдава характерната „нестабилност на обучението“, въпреки че този изкуствен интелект при тестовете е постигнал по-малко точки – 87,7 в сравнение с 98,6. Разработчиците обясняват този ефект с непрозрачното съотношение между качеството на настройката, изчислителните изисквания и броя параметри. Сега предстои настройката на новия модел.

Но Switch Transformer демонстрира седем пъти по-висока скорост на предварителното обучение при използването на едни и същи изчислителни ресурси. В тестовете за превеждане на текст между над 100 различни езика, има четирикратно увеличение на скоростта в сравнение с предишния модел.

5 2 гласа
Оценете статията
Абонирай се
Извести ме за
guest
0 Коментара
Отзиви
Всички коментари