Mozilla представи системата за синтез на човешка реч LPCNet

0
326

Mozilla анонсира новата система за синтез на човешка реч LPCNet. Тя осигурява много по-ефективен синтез на речта благодарение на удачното комбиниране на традиционните методи за цифрова обработка на сигналите (DSP) с алгоритми за машинно обучение. Сорс кодовете на LPCNet се разпространяват под BSD лиценза.

Въпреки че съвременните модели за синтез на речта с невронни мрежи, като например WaveNet, демонстрират превъзходно качество на синтез, тяхната реализация е твърде сложна и изисква голяма изчислителна мощност. Тази особеност затруднява използването на подобни системи за синтез на човешка реч в мобилните устройства, като например смартфоните.

Главната особеност на LPCNet е, че вместо всичко да минава през невронната мрежа, се извършва приблизително прогнозиране на следващия звук, отново чрез невронна мрежа. По този начин значително се намаляват размерът на невронната мрежа и необходимите за нейната работа ресурси. При този подход невронната мрежа не се занимава с моделирането на вокалния тракт а само коригира проблемите при прогнозирането.

LPCNet може да се използва и в други области, в които е необходимо повишаване качеството на гласовия сигнал. LPCNet е много подходяща за създаването на нови технологии за компресия на речта, като съответният кодек вече се разработва.

Сорс кодът на LPCNet е написан на C с използването на Keras – популярният фреймуърк за невронни мрежи.

ДОБАВИ КОМЕНТАР

  Абонирай се  
Извести ме за