Проектът OpenAI, който започна да предлага все повече общодостъпни проекти в сферата на изкуствения интелект, отвори кода на системата Whisper за разпознаване на човешка реч. Разработчиците подчертават, че за английския език Whisper осигурява точност и надеждност съвсем близки до човешките възможности. Сорс кодът (Openai.com/blog/whisper) се разпространява под MIT лиценза.
За обучението на невронната мрежа са използвани 680 хиляди часа речеви данни от няколко колекции, обхващащи различни езици и тематични области. Около 1/3 от този масив от данни включва езици, различни от английския. Предложеният модел изцяло се справя с различните акценти, с реч, където има много шум, както и с използването на технологичен жаргон. Освен преобразуването на човешката реч в текст, системата може и да превежда текст от произволен език на английски език, както и да определя наличието на реч в произволен звуков поток.
Предлагат се два модела на Whisper – само за английски език и многоезичен модел. От своя страна, всеки един от тези модели е разделен на 5 варианта, които се различават по своя раздел и броя на параметрите (изкуствените неврони) в невронната мрежа. Колкото е по-голям размерът, толкова е по-голяма точността и качеството на разпознаване, но едновременно с това нарастват системните изисквания към използвания компютър. Така например, минималният вариант има 39 милиона параметъра и изисква 1 GB видео памет. Максималният разполага с 1550 милона изкуствени неврона и изисква 10 GB графична памет. И още, минималният вариант е 32 пъти по-бърз от максималния.