Google представи аудио кодек с машинно обучение

6
418

Към днешен ден най-популярният аудио кодек с отворен код за VoIP телефония е Opus, който при битрейт около 32 Kb/s осигурява качество на речта, което е близко до оригинала. Разбира се, Opus може да работи и при по-нисък битрейт – до минимум 6 Kb/s, а неговият конкурент Speex дори при 3 Kb/s.

Но този твърде нисък битрейт оказва твърде негативно влияние на качеството и възприемането на речта, думите престават да се разбират и аудио чатът вече е невъзможен. За да се справи с тези проблеми Google използва невронна мрежа с машинно обучение, която е обучена с помощта на хиляди фрази, диалози и разговори.

Това е новият аудио кодек Lyra, който генерира паралелно няколко сигнала в различни честотни диапазони, които след това се обединяват в един общ изходен сигнал с необходимата честота на дискретизация. По този начин става възможно дори и с най-слабите смартфони да се осигури латентност на кодирането не повече от 90 милисекунди.

Ако направим сравнение на Lyra с използваните към днешен ден аудио кодеци, то по съотношение битрейт/качество той просто няма никакви конкуренти. Докато Opus при 6 Kb/s вмъква твърде неприятни звукови артефакти, а Speex при 3 Kb/s твърде силно изкривява гласовете, Lyra при 3 Kb/s осигурява гласове с минимални изкривявания в сравнение с оригинала.

Нещо повече, кодекът Lyra е обучен да кодира и декодира не само гласове на английски език. Той поддържа над 70 езика от целия свят. И още, съвместното използване на Lyra със съвременните видео кодеци от рода на AV1 дава възможност за осигуряване на видеоконферентна връзка за потребители със скорост на интернет едва 56 Kb/s.

4 1 глас
Оценете статията
Абонирай се
Извести ме за
guest
6 Коментара
стари
нови оценка
Отзиви
Всички коментари