Новейшие технологии NVIDIA делают голоса ИИ более выразительными и реалистичными.

От

31.08.2021

Голоса на AmazonAlexa, Google Assistant и другие помощники AI намного опережают старые устройства GPS, но им все еще не хватает ритмов, интонации и других качеств, которые делают речь звуковой, ну, по-человечески. Компания NVIDIA объявила на конференции Interspeech 2021, что NVIDIA представила новые исследования и инструменты, которые могут уловить эти естественные качества речи, позволяя тренировать систему ИИ собственным голосом.

Чтобы улучшить синтез голоса AI, исследовательская группа NVIDIA по преобразованию текста в речь разработала модель под названием RAD-TTS, победившую на соревновании по трансляции NAB для разработки наиболее реалистичного аватара. Система позволяет человеку обучать модель преобразования текста в речь собственным голосом, включая темп, тональность, тембр и многое другое.

Еще одна функция RAD-TTS – преобразование голоса, которое позволяет пользователю произносить слова одного говорящего, используя голос другого человека. Этот интерфейс обеспечивает точное управление на уровне кадра высотой, длительностью и энергией синтезированного голоса.

Используя эту технологию, исследователи NVIDIA создали более разговорное голосовое повествование для своей собственной серии видео I Am AI, используя синтезированные, а не человеческие голоса. Цель заключалась в том, чтобы повествование соответствовало тону и стилю видеороликов, что до сих пор не было реализовано во многих видеороликах с искусственным интеллектом. Результаты все еще немного роботизированы, но лучше, чем любое повествование искусственного интеллекта, которое я когда-либо слышал.

«С помощью этого интерфейса наш видеопродюсер мог записать себя, читая сценарий видеоролика, а затем использовать модель искусственного интеллекта для преобразования своей речи в голос женского рассказчика. Используя это базовое повествование, продюсер мог затем направить ИИ как голосового актера – настроить синтезированную речь, чтобы выделить определенные слова, и изменить темп повествования, чтобы лучше передать тон видео », – написала NVIDIA.

NVIDIA распространяет некоторые из этих исследований – разумеется, оптимизированных для эффективной работы на графических процессорах NVIDIA – всем, кто хочет попробовать их через открытый исходный код с помощью инструментария NVIDIA NeMo Python для разговорного ИИ с ускорением на GPU, доступного в концентраторе контейнеров NGC. и другое программное обеспечение.

«Некоторые модели обучаются с использованием десятков тысяч часов аудиоданных в системах NVIDIA DGX. Разработчики могут точно настроить любую модель для своих сценариев использования, ускоряя обучение с помощью вычислений со смешанной точностью на графических процессорах NVIDIA Tensor Core », – написали в компании.

Примечание редактора: Этот пост изначально был размещен на Engadget.