Проектът Mozilla публикува първата версия на своята нова система за машинно обучение, предназначена за разпознаване на реч.

Публикувани са и използваните за тренирането на системата гласови данни, събрани по време на инициативата Common Voice, в която са включени примери с произношенията на около 20 000 души, споделили почти 400 000 записа на своята реч с продължителност 500 часа.

Благодарение на големия брой доброволци е сформирана една от най-големите бази с гласови шаблони. В момента, грешките при разпознаването са на ниво 6,5% при тестовете LibriSpeech. Това е много добър резултат, понеже човешкото ниво на разпознаване е оценено на 5,83%, грешките на Google Speech са 6,64%, на wit.ai — 7,94%, Bing Speech — 11,73%, Apple Dictation — 14,24%.

Системата за разпознаване на речта на Mozilla се базира на енджина DeepSpeech, създаден с помощта на отворената платформа на Google за машинно обучение TensorFlow. Новата система на Mozilla се доставя с програмни модули на Python и NodeJS, даващи възможност за съвсем лесното вграждане на функции за разпознаване на речта във всякакви приложения. Предвидени са и инструменти за работа от команден ред. Енджинът е много бърз и може да работи дори и с Raspberry Pi.

0 0 гласа
Оценете статията
Абонирай се
Извести ме за
guest
2 Коментара
стари
нови оценка
Отзиви
Всички коментари