OpenAI с открытым исходным кодом Whisper, многоязычная система распознавания речи • TechCrunch

Распознавание речи остается сложной проблемой в области искусственного интеллекта и машинного обучения. В качестве шага к решению этой проблемы OpenAI сегодня открыла исходный код Whisper, системы автоматического распознавания речи, которая, по утверждению компании, обеспечивает «надежную» транскрипцию на нескольких языках, а также перевод с этих языков на английский.

Бесчисленное количество организаций разработали мощные системы распознавания речи, лежащие в основе программного обеспечения и услуг таких технологических гигантов, как Google, Amazon и Мета. Но что отличает Whisper, согласно OpenAI, так это то, что он был обучен на 680 000 часов многоязычных и «многозадачных» данных, собранных из Интернета, что привело к улучшенному распознаванию уникальных акцентов, фонового шума и технического жаргона.

«Основные предполагаемые пользователи [the Whisper] модели – это исследователи ИИ, изучающие надежность, обобщение, возможности, предубеждения и ограничения текущей модели. Тем не менее, Whisper также потенциально весьма полезен в качестве решения для автоматического распознавания речи для разработчиков, особенно для распознавания английской речи», — написал OpenAI в репозитории GitHub для Whisper, откуда можно загрузить несколько версий системы. “[The models] показать хорошие результаты ASR примерно на 10 языках. Они могут обладать дополнительными возможностями… если они настроены на определенные задачи, такие как обнаружение голосовой активности, классификация говорящих или диаризация говорящих, но они еще не были тщательно оценены в этих областях».

Whisper имеет свои ограничения, особенно в области предсказания текста. Поскольку система была обучена на большом количестве «зашумленных» данных, OpenAI предупреждает, что Whisper может включать в свои транскрипции слова, которые на самом деле не были произнесены — возможно, потому, что он одновременно пытается предсказать следующее слово в аудио и пытается расшифровать сам звук. . Более того, Whisper не одинаково хорошо работает на разных языках, страдая от более высокого уровня ошибок, когда речь идет о носителях языков, которые недостаточно хорошо представлены в обучающих данных.

К сожалению, этот последний момент не является чем-то новым для мира распознавания речи. Предубеждения уже давно преследуют даже самые лучшие системы: исследование, проведенное в Стэнфорде в 2020 году, показало, что системы из Amazon, AppleGoogle, IBM и Microsoft сделали гораздо меньше ошибок — около 35% — с белыми пользователями, чем с чернокожими.

Несмотря на это, OpenAI считает, что возможности транскрипции Whisper используются для улучшения существующих инструментов доступности.



«Хотя модели Whisper нельзя использовать для транскрипции в реальном времени «из коробки», их скорость и размер позволяют предположить, что другие могут создавать на их основе приложения, позволяющие распознавать и переводить речь почти в реальном времени», — отмечает компания. продолжается на GitHub. «Реальная ценность полезных приложений, созданных на основе моделей Whisper, предполагает, что несопоставимая производительность этих моделей может иметь реальные экономические последствия… [W]Мы надеемся, что эта технология будет использоваться в первую очередь в полезных целях, поскольку более доступная технология автоматического распознавания речи может позволить большему количеству субъектов создавать эффективные технологии наблюдения или расширять существующие усилия по наблюдению, поскольку скорость и точность обеспечивают доступную автоматическую транскрипцию и перевод больших объемов. аудиосвязи».

Выпуск Whisper не обязательно указывает на планы OpenAI на будущее. Сосредоточив все больше внимания на коммерческих разработках, таких как DALL-E 2 и GPT-3, компания занимается несколькими чисто теоретическими исследованиями, включая системы искусственного интеллекта, которые учатся, наблюдая за видео.