Google съобщи, че създаването на система за преобразуване на текст в естествено звучаща човешка реч е една от приоритетните цели на корпорацията. Новата версия Tacotron 2 на тази система се справя с тази задача много по-ефективно от предишните Tacotron и WaveNet, при това с използването на по-малко ресурси.

Предишните системи за генериране на реч имаха съществени недостатъци. WaveNet например, издава неочаквани и режещи звука звуци. Нейният алгоритъм много ефективно преобразува текста, но за неговата успешна работа е необходимо огромно количество метаданни от произношението до специфичните езикови особености. Tacotron се справя много по-добре с интонациите, но не може да предложи пълноценно преобразуване.

В Tacotron 2 са отстранени недостатъците на предишните системи. Използвани са успешните функции на предишните алгоритми с усъвършенствана система за натрупване на данните за обучение.

За изчисляването на лингвистичните правила, алгоритъмът има нужда от самия текст и неговото озвучаване, от които се образува специална Tacotron спектрограма, чрез която се определя ритъма и ударенията, а думите се генерират от функциите на WaveNet.

Демонстрационните записи показват, че генерираната от компютъра реч наистина много прилича на човешката, само някои думи са малко неясни. Темпът на речта е убедителен, произношението е добро. Понякога ударенията са неправилни и засега липсва тон – няма как фразите да бъдат произнесени весело и оптимистично или грубо и самоуверено.

0 0 глас
Оценете статията
Абонирай се
Извести ме за
guest
2 Коментара
стари
нови оценка
Отзиви
Всички коментари