Изследователи от Google публикуваха статия, в която обявяват, че са създали модел, генериращ висококачествена музика от текстово описание. Нарича се MusicLM и според учения Кенлу Чой, цялостната структура на този модел е базирана на други, които комбинират MuLan + AudioLM и MuLan + w2b-BERT + Soundstream.
Той обяснява малко за това как работи всеки от тези модели:
- MuLan е модел за съвместно вграждане на текст-музика с контрастно обучение и 44 милиона описания на аудио-текст от YouTube;
- AudioLM използва междинен слой от предварително обучен модел за семантична информация;
- w2v-BERT е представяне на двупосочен енкодер от Transformers, инструмент за дълбоко обучение, първоначално за реч, този път използван за аудио;
- SoundStream е невронен аудио кодек.
Google комбинира всичко това, за да генерира музика от текст.
Ето как изследователите обясняват MusicLM:
Представяме MusicLM, модел, генериращ висококачествена музика от текстови описания като „успокояваща мелодия на цигулка, придружена от китарен риф “.
Нашите експерименти показват, че MusicLM превъзхожда предишните системи както по качеството на звука, така и по отношение на придържането към текстовото описание. Нещо повече, ние демонстрираме, че MusicLM може да бъде обусловен както от текст, така и от мелодия, тъй като може да трансформира подсвиркващи и тананикащи мелодии според стила, зададен в описанието.
Сравнително интересно е да се мисли за нещата, които ChatGPT успя да изпълни. Това са трудни изпити, анализиране на сложни кодекси, писане на закони за Конгреса и дори създаване на стихове, музикални текстове и т.н.
В този случай MusicLM отива отвъд това и трансформира история и рисуване в песен. Да се види например известната картина „Постоянство на паметта“ от Салвадор Дали, трансформирана в мелодия, е любопитно.
MusicLM на Google направи достъпни повече от 5000 двойки музика-текст, за да могат хората да експериментират.
За съжаление, компанията все още не планира да пусне този модел за широката публика.
Все пак може да се чуе как генерира музика от текст тук.