Невронната мрежа на Facebook започна да говори с гласа на Бил Гейтс

10
1204

Шон Васкез и Майк Луис от Facebook представиха синтезатор на реч с нов и много ефективен принцип на работа. В акаунта на разработчиците в GitHub е качена колекция от тракове, в които се чува как невронната мрежа съвсем убедително имитира речта на основателя на Microsoft. На записите се чуват няколко фрази с произволен текст, в които не само съвсем точно се копира тембъра на гласа на Бил Гейтс, но и съвсем подробно и тънко се имитират естествените интонации, а това досега бе недостижимо за алгоритмите с елементи на изкуствен интелект.

Създаденият от Facebook модел за синтез на човешка реч се нарича MelNet и това не е първата колекция имитации на човешка реч. Преди виртуалния двойник на Бил Гейтс бяха представени гласовете на Джордж Такеи, Стивън Хокинг и други знаменитости. Въпреки че невронната мрежа е тренирана с материали от аудиокниги и речи, досега не можеше да се избегнат характерните металически нотки в изкуствения глас.

Разработчиците обясняват направения пробив с това, че за разлика от WaveNet на Google и другите съвременни технологии за генериране на реч, MelNet е обучена не чрез графичното представяне на амплитудата на звуковите вълни, а чрез спектрограми. Методът на амплитудите прекалено много раздробява звуковия поток, понеже фиксира сигнала за период от милисекунди, което затруднява изкуствения интелект да извърши необходимите корелации. В резултат от това, някои характеристики на речта като височина и тембър се улавят, но се възпроизвеждат в ущърб на други параметри на гласа – интонация и фонемен състав. Спектрограмите са много по-наситени от информационна гледна точка, а данните в тях са по-компактни и комплексният анализ на звуковия поток става без изкривявания.

Въпреки това, според създателите на MelNet, технологията все още е далече от съвършенството. Примерите в GitHub не случайно са само къси фрази: засега невронната мрежа може съвсем точно да озвучава интонациите само за някои отделни къси фрази. Обработката на сложни смислови масиви, като например драматичното четене на неголям разказ или монолог, в който се променя емоционалността, засега не са възможни.

Но и в сегашния си вид новата технология може да се използва в гласовите асистенти, в кол центровете, в така наречените горещи линии и в другите подобни ситуации, в които общуването става по предварително зададен сценарий и лесно се автоматизира. Интернет изданията отбелязват и огромния потенциал за нелегалното използване на MelNet. Това е разбираемо, понеже съвсем точното генериране гласа на определен човек може да се използва за фалшифициране на неговата реч и изговор. Васкез и Луис не споделиха какви са им плановете за използването на тази технология и как ще бъдат контролирани рисковете.

10
ДОБАВИ КОМЕНТАР

avatar
5 Коментари
5 Отговори на коментарите
1 Последователи
 
Коментарът с най-много реакции
Най-горещият коментар
  Абонирай се  
нови стари оценка
Извести ме за
Шакарон
Шакарон

Това да не е заплаха от Зуки, че може да клонира и затрие дедо Бил?

zoom
zoom

на първо четене за реклами , филми , тв сериали , компютърни игри … на второ четене при комуникацията машина-човек е много по-удобно за интерфейс …

Colombino
Colombino

Това все едно да питаш кому е нужна перфектна компютърна графика. Първото и най-очевидно нещо е четенето на текст. В момента се плаща на разни хора да го правят и много хора с удоволствие биха делегирали това на някоя далеч по-евтина програма. Може да се ползва и да си слушаш книги в колата, докато висиш в някоя тапа, или дори да ти чете новините. Добрият синтезиран говор е абсолютна необходимост, а това че може да имитира конкретни тембър и интонация е просто страничен ефект, а не основна цел на упражнението.

Последния самурай
Последния самурай

Аз лично бих ползвал гласа на Бай Тошо за навигация .

Радо
Радо

Коя част от гласа му – „Тази година ще построим завод за полу-проводници а догодина за цели проводници“ тоя ли?

Дъжд от Пари
Дъжд от Пари

Той друга има ли?

Не е лесно да си антиджендър
Не е лесно да си антиджендър

Има, „Бойко, размачкай ми ушите.“

Капитализъм
Капитализъм

Уволняваш водещите на новини и имаш 24 часови новини и водещи, които не мрънкат, нямат нужда от заплати и не излизат в отпуска. Създаваш реклами без да наемаш хора. Слагаш служители в кол центрове без да наемаш хора и работят почти постоянно. Създаваш преводи в реално време, които да симулират твоята собствена реч и така обикаляш като свободен гражданин света и говориш с местните хора на техния език без да го знаеш. Приложенията са безброй. Едно време не са виждали в идеята на Форд. На прага сме на Четвърта индустриална революция и хората, които искат да запазят или дори върнат… Виж още »

Дъжд от Пари
Дъжд от Пари

Така както сте се разпенили по темата, що не организирате един протест за защита свободата на словото и да поканите ЛОГО5 да изнесат един концерт, я новия посланник ви раздаде по някоя грамота, за награда.

Капитализъм
Капитализъм

Става дума за общочовешки прогрес, това е движение отдолу нагоре и няма нищо общо с политиката. Да живеем в един по-добър свят, благодарение на развитието и науката не го виждам за нещо лошо. Всички индустриални революции са подобрили животът на хората. Къде ги сложихте тези посланици, сороси и кои сме „ние“!? Аз говоря от мое име, нямам тоталитарно и колективистко мислене. Колкото и да се съпротивляваме срещу развитието, то ще се случи и това е въпрос на естествен стопански прогрес, а не на политика. Просто казавам, че който е статичен в един динамичен свят ще загуби, времето не може да… Виж още »