Стартап по синтетической речи Murf предоставляет голос создателям контента любого размера • TechCrunch

Стартап Murf, занимающийся технологиями синтетической речи, буквально дает голос создателям а любого масштаба. Компания Murf, у которой теперь есть библиотека из более чем 120 голосов искусственного интеллекта с человеческим паритетом на 20 языках, объявила сегодня о привлечении финансирования серии A в размере 10 млн. долл. под руководством партнеров Matrix. Участие исходило от вернувшихся инвесторов Elevation Capital и нескольких известных инвесторов-ангелов, таких как основатель Ola Анкит Бхай; старший вице-президент Disney Streaming по продукту; Ашвини Асокан, основатель Mad Street Dap; и Пушкар Мукевар, основатель Drip Capital

Компания Murf, основанная в октябре 2020 года школьными друзьями IIT-Kharagpur Снехой Роем, Анкуром Эдки и Дивьяншу Пандей, ранее объявила о выделении финансирования в размере 1,5 млн. долл. под руководством Elevation Capital и бизнес-ангелов, которые помогали им набирать таланты, инвестировать в инновации продуктов и привлекать пользователей. Мёрф говорит, что с момента своего начального раунда ARR вырос в 26 раз и было синтезировано более миллиона проектов озвучивания с самыми разными стилями речи и тональностями.

Некоторые примеры того, как использовалась технология Мерфа, включают в себя технического предпринимателя и художника, создавшего целый фильм с использованием художественных моделей ИИ, программ глубокого подделки и голосов ИИ от студии Murf; агентство развлекательной анимации, создавшее телесериал с использованием коллекции голосов Мерфа; авторы, создающие аудиокниги в жанре фэнтези с голосами ИИ Мерфа; и YouTube влиятельный человек, который использовал голос ИИ Мерфа для создания рэп-видео.

Основатели Мерфа

Эдки, генеральный директор Murf, сказал TechCrunch, что, хотя команда основателей Murf в прошлом работала в разных областях, все они столкнулись с трудностями при создании высококачественного озвучивания. Это включало создание и обновление демонстраций продуктов, а также запись радио- и видеорекламы. Он добавил, что пандемия «дала импульс созданию мультимедиа, и спрос на масштабируемый аудиоконтент быстро растет».

Клиенты Мерфа использовали его по-разному, включая рекламу, аудиокниги, пояснительные видеоролики и электронное обучение. Murf.ai, его платформа SaaS, была разработана, чтобы облегчить клиентам создание высококачественной естественно звучащей озвучки для любых коммерческих целей. Клиенты компании варьируются от индивидуальных создателей контента до малого и среднего бизнеса и предприятий и работают в таких секторах, как образование, корпоративный бизнес, здравоохранение, СМИ и развлечения, маркетинг, реклама, подкастинг, поддержка клиентов и многое другое.



Эдки сказал TechCrunch, что создатели контента и маркетинговые команды часто сами записывают озвучку или передают весь процесс на аутсорсинг, что «обременительно, дорого и требует много времени». Murf, с другой стороны, позволяет пользователям создавать «человеческие» голоса за кадром без необходимости покупать записывающее оборудование или нанимать голосового исполнителя.

Компания также хочет снять ограничения на возможности преобразования текста в речь. «Хотя TTS существует уже довольно давно, ограничения в качестве голоса ограничивают его использование. Используя последние достижения в области искусственного интеллекта и глубокого обучения, мы делаем возможным создание высокоточных синтетических голосов, имитирующих естественную просодию и произношение человеческой речи».

Платформа Мерфа включает в себя SaaS-инструмент с поддержкой искусственного интеллекта, который помогает пользователям генерировать «человеческие» голоса, как правило, для использования в видео или презентациях, без необходимости приобретать сложное и дорогостоящее оборудование для записи или нанимать голосового исполнителя. Создатели контента могут использовать онлайн-кабинку для записи голоса, где они могут попробовать широкий спектр стилей речи. Мерф хочет преодолеть разрыв в разнообразии традиционных платформ преобразования текста в речь, включив голоса с разными акцентами, такими как афроамериканцы, британцы, австралийцы и другие.

Согласно рыночным отчетам, которые использовали основатели Murf, ожидается, что к 2028 году мировой рынок текстовой речи достигнет 7,06 млрд долларов, увеличившись на 14,6% CAG. Между тем прогнозируется, что к 2027 году рынки озвучивания и дубляжа будут приносить в общей сложности 8 млрд. долл. в год.

Преобразование текста в речь существует уже много лет, но из-за ограничений качества они использовались в основном голосовыми помощниками и чат-ботами. Но последние разработки в области искусственного интеллекта и глубокого обучения теперь позволяют создавать синтетические голоса, которые имеют просодию и произношение человеческой речи. Механизм искусственного интеллекта Murf обучен часам реальной человеческой речи, а Murf Studios предлагает более 120 человеческих голосов искусственного интеллекта, которые могут говорить на 20 языках. Мерф также работает над тем, чтобы сделать акцент более разнообразным, сотрудничая с актерами озвучивания, чтобы передать за границу такие голоса, как афроамериканский, британский и австралийский английский.

Преобразование текста в речь на основе искусственного интеллекта Murf также может учиться на контекстной информации, чтобы возвращать правильные ответы. Основатели описывают Murf как «решение «все в одном голосе», которое позволяет пользователям добавлять изображения, видео и фоновую музыку. Он также имеет функции для произношения с использованием международного фонетического алфавита (IPA), настройки голоса, которые изменяют высоту звука пользователя, паузу, акцент и скорость.

Murf зарабатывает на подписке на свои услуги. Он вышел из бета-тестирования в январе 2021 года и за последние 18 месяцев вырос в 22 раза в ARR и на сегодняшний день синтезировал более миллиона проектов озвучивания.

Эдки сказал, что основными конкурентами Мерфа являются крупные технологические и облачные компании, такие как Google. AmazonПолли и Microsoft, у которых есть ведущие платформы преобразования текста в речь на рынке. Murf отличается естественным звучанием голосов искусственного интеллекта, которые также поддерживают несколько акцентов и стилей.

«Помимо простого инструмента преобразования текста в речь, наша платформа предлагает пользователям возможность добавлять изображения, видео, презентации и закадровый голос, включать фоновую музыку и синхронизировать их в целом для создания привлекательного контента», — сказал Эдки. TTS Murf на основе искусственного интеллекта также может учиться на больших объемах контекстной информации для создания контекстуальной речи. Например, он имеет встроенную осведомленность о контексте, которая может распознавать часто используемые форматы объектов, такие как числа, валюты, проценты, адреса, даты и время, уменьшая их случайность и приближая их к заранее определенному стандарту, добавил Эдки.

В подготовленном заявлении соуправляющий партнер Elevation Capital Мукул Арора сказал: «Реалистичная озвучка на основе искусственного интеллекта — это следующий рубеж на рынке преобразования текста в речь. Murf, с их звездной командой основателей и уникальной интеллектуальной собственностью, идеально подходит для того, чтобы занять лидирующие позиции в этой области. Их исполнительское мастерство и ориентированность на технологии очевидны в устойчивой тяге и росте, которые они продемонстрировали до сих пор. Мы очень рады удвоить наше партнерство с Murf».