Deepgram, компания, которая разрабатывает технологию распознавания речи для предприятий, сегодня привлекла 47 млн. долл. в виде нового финансирования под руководством Madrona Venture Group с участием Citi Ventures и Alkeon. Расширение Deepgram Series B, которое началось в феврале 2021 года под руководством Tiger Global, увеличило общую сумму стартапа до 86 млн. долл., которые, по словам генерального директора Скотта Стефенсона, направляются на исследования и разработки в таких областях, как восприятие эмоций, распознавание намерений, резюме, определение темы. , перевод и написание.
«Мы рады, что Deepgram достигла самой высокой оценки до и после денег, даже несмотря на сложные рыночные условия», — сказал Стивенсон TechCrunch в интервью по электронной почте. (К сожалению, он не хотел раскрывать, какова именно оценка.) «Мы считаем, что у Deepgram есть все шансы добиться успеха в этой более сложной макроэкономической среде. Искусственный интеллект речи Deepgram является основной технологией, лежащей в основе многих приложений наших клиентов, и спрос на понимание речи растет, поскольку предприятия стремятся к большей эффективности».
Компания Deepgram, запущенная в 2015 году, фокусируется на создании пользовательских решений для распознавания речи для таких клиентов, как Spotify, Auth0 и даже NASA. Исследователи данных компании получают, создают, маркируют и оценивают речевые данные для создания моделей распознавания речи, которые могут понимать разметку и сленг, фиксировать различные языки и акценты и адаптироваться к сложной звуковой среде. Например, для НАСА Deepgram построила модель для расшифровки сообщений между Центром управления полетами и Международной космической станцией.
«Аудиоданные — один из крупнейших неиспользованных источников данных в мире. [But] его трудно использовать в аудиоформате, потому что аудио — это неструктурированный тип данных, и поэтому его нельзя извлечь для получения информации без дополнительной обработки», — сказал Стефенсон. «Deepgram берет неструктурированные аудиоданные и структурирует их как текст и метаданные с высокой скоростью и низкими затратами, разработанными для корпоративного масштаба… [W]с дипграммой, [companies] вы можете отправить все аудиоклипы ваших клиентов (сотни тысяч или миллионы часов) для расшифровки и анализа».
Откуда берутся аудиоданные для обучения моделей Deepgram? Стефенсон был немного сдержан, хотя и не отрицал, что Deepgram использует данные о клиентах для улучшения своих систем. Он сразу же отметил, что компания соответствует требованиям GDPR и позволяет пользователям запрашивать удаление своих данных в любое время.
«Модели Deepgram обучаются в основном на данных, собранных или сгенерированных нашими экспертами по обработке данных, а также на некоторых анонимных данных, предоставленных нашими пользователями», — сказал Стивенсон. «Обучение моделей на реальных данных — краеугольный камень качества нашей продукции; это то, что позволяет системам машинного обучения, подобным нашей, производить результаты, подобные человеческим. При этом мы разрешаем нашим пользователям отказаться от использования их анонимных данных для обучения, если они этого хотят».
С помощью API Deepgram компании могут встроить платформу в свои технологические стеки, чтобы обеспечить голосовую автоматизацию и взаимодействие с клиентами. Для организаций в строго регулируемых отраслях, таких как здравоохранение и правительство, Deepgram предлагает вариант локального развертывания, который позволяет клиентам управлять данными и обрабатывать их локально. (Стоит отметить, что In-Q-Tel, стратегический инвестиционный отдел ЦРУ, в прошлом поддерживал Deepgram.)
Deepgram, выпускник Y Combinator, основанный Стефенсоном и Ноем Шатти, выпускником факультета физики Мичиганского университета, конкурирует с различными поставщиками на рынке распознавания речи, который, согласно источнику (оптимистично?), может стоить 48,8 млрд. долл. к 2030 году. Технологические гиганты, такие как Nuance, Cisco, Google, Microsoft Д Amazon предлагают услуги транскрипции речи и субтитров в реальном времени, как и такие стартапы, как Otter, Speechmatics, Voicera и Verbit.
У технологий есть препятствия, которые нужно преодолевать. Согласно отчету Speechmatics за 2022 год, 29% руководителей заметили предвзятость ИИ в речевых технологиях, в частности, дисбаланс в типах голосов, которые понимает распознавание речи. Но спрос явно достаточно высок, чтобы поддержать ряд поставщиков; Стивенсон говорит, что валовая прибыль Deepgram «соответствует показателям самых эффективных компаний, занимающихся разработкой программного обеспечения».
Это контрастирует с потребительским рынком распознавания речи, который в последнее время стал хуже. Сообщается, что подразделение Amazon Alexa компании Alexa в этом году потеряет 10 млрд. долл.. Ходят слухи, что Google рассматривает возможность сокращения разработки Google Assistant в пользу более прибыльных проектов.
В последние месяцы, по словам Стивенсона, Deepgram сосредоточил внимание на переводе языка на лету, анализе настроений и разделенных расшифровках многосторонних разговоров. Компания также расширяется, в настоящее время охватывая более 300 клиентов и более 15 000 пользователей.
В поисках нового бизнеса Deepgram недавно запустила программу Deepgram Startup Program, предлагая 10 млн. долл. в виде кредитов на бесплатное распознавание речи на платформе Deepgram для стартапов в сфере образования и бизнеса. Участвующим предприятиям не нужно платить какие-либо сборы, и они могут использовать средства в сочетании с существующими преимуществами грантов, семян, инкубаторов и акселераторов.
«Бизнес Deepgram продолжает быстро расти. Как компания-основатель инфраструктуры искусственного интеллекта, мы не наблюдаем снижения спроса на Deepgram», — сказал Стивенсон. «Действительно, мы видели, как компании ищут способы сократить расходы и делегировать повторяющиеся и второстепенные задачи ИИ, давая людям больше времени для выполнения интересной и полезной работы. Примеры этого включают снижение больших затрат на облачные вычисления за счет переключения транскрипции с большого облака на продукт транскрипции Deepgram или в новых случаях использования, таких как сквозной заказ и первоначальная сортировка ответов на услуги клиенту ».
В Deepgram в настоящее время работает 146 сотрудников, разбросанных по офисам в Анн-Арборе и Сан-Франциско. Когда его спросили о планах найма на оставшуюся часть года, Стефенсон отказался отвечать, несомненно, помня о непредсказуемости сегодняшней глобальной экономики и стремлении придерживаться твердого числа.