Speechmatics привлекает 62 млн. долл. за инклюзивный подход к преобразованию речи в текст AI – TechCrunch

От

28.06.2022

На прошлой неделе я писал о стартапе в области искусственного интеллекта, который разрабатывает технологию, способную в режиме реального времени изменять акцент чьей-то речи. Но что, если цель ИИ вместо этого состоит в том, чтобы люди, говорящие так, как они говорят, могли быть поняты такими, какие они есть, и устранить некоторые предубеждения, присущие многим системам ИИ в процессе? В этом тоже есть острая потребность, и теперь британский стартап под названием Speechmatics, который создал ИИ для перевода речи в текст, независимо от акцента или того, как человек говорит, объявляет о выделении 62 млн. долл. на расширение своего бизнеса.

Susquehanna Growth Equity из США возглавила раунд с британскими инвесторами АльбионВК а также IQ Capital также участвует. Это серия B — большой шаг вперед для Speechmatics. Первоначально компания была выделена в 2006 году из исследований ИИ в Кембридже основателем доктором Тони Робинсоном, и до этого привлекла всего около 10 млн. долл. (Albion и IQ входят в число тех, кто в прошлом поддерживал, наряду с поддерживаемой ЦРУ In-Q). -тел и др.).

За это время компания нарастила клиентскую базу из примерно 170 человек — она продает только B2B, чтобы предоставлять услуги, ориентированные на потребителя или бизнес, — и хотя она не раскрывает полный список, некоторые из имен включают what3words, 3Play Media, Veritone, Deloitte UK и Vonage, которые по-разному используют эту технологию не только для создания транскрипций в традиционном смысле; но для того, чтобы принимать произнесенные слова, чтобы помочь другим аспектам функции приложения, таким как автоматические субтитры, или для включения более широких функций доступности.

Его движок сегодня способен переводить речь в текст на 34 языках, и в дополнение к использованию финансирования как для дальнейшего повышения точности, так и для развития бизнеса, он также будет добавлять больше языков и рассматривать различные варианты использования, такие как как преобразование речи в текст, который можно использовать в более сложной среде автомобилей (где шум и вибрации двигателя влияют на то, как ИИ может воспринимать звуки).

«Что мы сделали, так это собрали данные за миллионы часов в наших усилиях по борьбе с предвзятостью ИИ. Наша цель — понимать любой голос на нескольких языках», — сказала Кэти Вигдал, генеральный директор стартапа (эту должность она занимала вместе с Робинсоном, который недавно отказался от руководящей должности).

Это проявляется в ориентации компании на продукт, а также в ее миссии, и это то, что она также стремится расширить.

«То, как мы смотрим на язык, глобально», — сказал Вигдал. «У Google будет свой пакет для каждой версии английского языка, но наш единый пакет будет понимать все». Первоначально она делала свои технологии доступными только через частный API, который продавала клиентам; теперь, стремясь привлечь больше пользователей и, возможно, больше платящих пользователей, он также предлагает разработчикам больше открытых инструментов API для игры с технологией и сэмплер перетаскивания на своем сайте.

И действительно, если одна из задач Speechmatics заключается в обучении ИИ более человечному пониманию того, как люди говорят, то другая заключается в том, чтобы создать себе имя на фоне других крупных поставщиков технологий преобразования речи в текст.

Вигдал сказал, что сегодня компания конкурирует с «большими технологиями», то есть с такими крупными компаниями, как AmazonGoogle и Microsoft (у которого теперь есть Nuance), которые создали механизмы распознавания речи и предоставляют технологию как услугу третьим сторонам.

Но в нем говорится, что он постоянно получает более высокие баллы, чем эти, в тестах на способность понимать, когда на языках говорят разными способами. (Одним из тестов, которые он мне процитировал, были Стэнфордские «Расовые различия в Речь Исследование узнавания, где это записал «общую точность 82,8% для афроамериканских голосов по сравнению с Google (68,6%) и Amazon (68,6)». В нем говорилось, что «соответствует 45-процентному сокращению речь ошибки распознавания — эквивалент трех слов в среднем предложении. Он также предоставил TC «средневзвешенное значение по конкурентам»:

Кредиты изображений: речевая техника (Открывается в новом окне)

Однако здесь действительно есть огромные возможности, если учесть, что между небольшими разработчиками и крупными технологическими гигантами, такими как AppleGoogle, Microsoft а также Amazon существуют сотни гигантских компаний, которые могут быть не совсем на уровне (или заинтересованы) в создании внутреннего ИИ для этой цели, но если вы возьмете, например, такую компанию, как Spotify, она определенно заинтересована в этом и определенно предпочла бы не полагаться на эти огромные компании, которые также иногда являются их конкурентами, а иногда и откровенными противниками. (Чтобы было ясно, Вигдал не сказал мне, что Spotify был клиентом, но сказал, что это типичный пример размера и ситуации, в которой кто-то может постучать в дверь Speechmatics.)

Отчасти это также было причиной того, что инвесторы так стремятся финансировать эту компанию. У Саскуэханны есть история поддержки компаний, которые выглядят так, как будто они могут составить конкуренцию влиятельным игрокам за свои деньги (это был один из первых и крупных сторонников Tik Tok).

«Команда Speechmatics, несомненно, представляет собой технологов другого происхождения, — заявил в своем заявлении Джонатан Клар, управляющий директор Susquehanna Growth Equity. «Мы начали отслеживать Speechmatics, когда наши портфельные компании сообщили нам, что Speechmatics снова и снова выигрывает в точности по сравнению со всеми другими вариантами, в том числе исходящими от игроков из «больших технологий». Мы готовы работать с командой, чтобы гарантировать, что больше компаний смогут познакомиться с этой передовой технологией и внедрить ее». Клар присоединяется к доске в этом раунде.

Действительно, по мере того, как технология становится все более натурализованной, а те, кто ее создает, ищут все больше способов уменьшить любые трения, которые могут возникнуть вокруг использования этой технологии, голос превратился в основную возможность, а также в болевую точку. Таким образом, технология, которая работает при «чтении» и понимании всех видов голосов, потенциально может применяться самыми разными способами.

«Мы считаем, что голос станет все более доминирующим интерфейсом человек-машина, а Speechmatics является лидером в области применения глубокого обучения к речи, с категорией, определяющей точность и понимание в отраслевых сценариях использования и требованиях», — добавил Роберт Уитби-Смит, партнер. в АльбионВК. «Мы стали свидетелями впечатляющего роста команды и продукта за последние несколько лет после нашей инвестиции серии A в 2019 году, и как ответственные инвесторы мы рады поддержать всеобъемлющую миссию компании — понять каждый голос во всем мире».