fbpx
8.8 C
София

VALL-E на Microsoft може да имитира всеки глас

Най-четени

Microsoft показа резултата от последните си разработки в областта на изкуствения интелект. VALL-E е най-новият софтуер на компанията, способен да симулира всеки човешки глас, „чувайки” го дори от трисекунден аудио запис. Имитацията напълно съответства не само на тембъра, но и на емоционалния тон на говорещия и дори на акустиката на заобикалящата го среда. Идеята зад продукта е един ден той да може да се използва в създаването на персонализирани или висококачествени приложения за преобразуване на текст в реч, въпреки че подобно на deepfake, крие и рискове от злоупотреба. За това от Microsoft са решили да не правят кода на VALL-E отворен, следвайки вече установените в компанията „принципи при създаване на изкуствен интелект“:

„Тъй като VALL-E е способен да синтезира реч, която е част от идентичността на говорещия, това (б.а. отворения код) би могло да създаде потенциални рискове от злоупотреба със софтуера, като създаване на фалшиви гласови идентификации или записи.“, заявяват от компанията.

Опростена схема на работата на VALL-E. Снимка: Microsoft

От Microsoft определят VALL-E като „невронен кодек за възпроизвеждане на езиков модел“. Базиран е на изкуствения интелект Encodec на Meta, способен да генерира човешка реч от въведен текст и кратки аудио проби от гласа на избрания говорител. За обучението на VALL-E са използвани звукозаписи на английски език, направени от повече от 7000 души с общо времетраене от 60 000 часа. Те са част от аудио библиотеката LibriLight на Meta. Гласът, предвиден за обект на имитация, трябва да е близък до някой от наличните в базата данни на софтуера. Ако бъде открит подходящ такъв, VALL-E ще използва записите от обучението, за да симулира как би звучал определения човек, ако трябва да изговори желания въведен текст. Екипът показва точно колко добре работи това на страницата на VALL-E в Github.

Резултатите не винаги са перфектни – някои имитации звучат като изговорени от машина, а други са изненадващо реалистични. Фактът, че софтуера на Microsoft успява да запази емоционалния тон от оригиналните образци, е това, което може да се отчете като значителен пробив в технологиите за изкуствен интелект. VALL-E също така пресъздава в пълно съответствие и акустиката на локацията, където е направен оригиналният запис.

За да подобрят продукта си, от Microsoft планират да разширят базата данни, използвана за обучението му. Желанието на компанията е да усъвършенства способностите на софтуера да възпроизвежда правилните интонация, ритъм и стил на говорене, бързо да открива най-сходния глас и дори да може самостоятелно да използва подходящи синоними и сродни думи, за да замества неясно записаните.


Коментирайте статията в нашите Форуми. За да научите първи най-важното, харесайте страницата ни във Facebook, и ни последвайте в Telegram и Viber или изтеглете приложението на Kaldata.com за Android, iOS и Huawei!

Абонирай се
Извести ме за
guest

0 Коментара
Отзиви
Всички коментари

Нови ревюта

Подобни новини