Headroom, который использует искусственный интеллект для видеоконференцсвязи, приносит 5 млн долларов

Видеоконференцсвязь стала краеугольным камнем того, как многие из нас работают в наши дни – настолько, что одна ведущая служба, Zoom, перешла в статус глагола из-за того, как часто ее используют.

Но означает ли это, что видеоконференцсвязь работает так, как должна? Сегодня новый стартап под названием Headroom выходит из скрытности, используя батарею инструментов искусственного а – компьютерное зрение, обработку естественного языка и многое другое – полагая, что ответ на этот вопрос ясен – здесь нет плохого прерывания Wi-Fi – » нет. “

Headroom не только проводит видеоконференции, но и предоставляет расшифровки стенограмм, сводки с основными моментами, распознавание жестов, оптимизированное качество видео и многое другое, и сегодня он объявляет, что собрал начальный раунд в размере 5 миллионов $, поскольку он готовится запустить свою бесплатную услугу в Мир.

Вы можете подписаться на список ожидания, чтобы испытать его, и получать другие обновления здесь.

Финансирование поступает от Анны Паттерсон из Gradient Ventures (Google Венчурный фонд AI); Эван Ниссельсон из LDV Capital (специалист по венчурному фонду, занимающийся строительством визуальных технологий); Основатель Yahoo Джерри Янг, ныне сотрудник AME Cloud Ventures; Эш Патель из Morado Ventures; Энтони Голдблум, соучредитель и CEO Kaggle.com; и Серж Белонги, заместитель декана Корнельского технологического института и профессор компьютерного зрения и машинного обучения.

Это интересная группа сторонников, но это может быть связано с тем, что сами основатели имеют довольно выдающийся опыт с многолетним опытом использования некоторых из самых передовых визуальных технологий для создания других потребительских и корпоративных услуг.



Джулиан Грин, британский трансплантолог, совсем недавно работал в Google, где управлял продуктами компании для компьютерного зрения, включая Cloud Vision API, который был запущен под его руководством. Он пришел в Google в результате приобретения своего предыдущего стартапа Jetpac, который использовал глубокое обучение и другие инструменты искусственного интеллекта для анализа фотографий и рекомендаций по путешествиям. В прошлой жизни он был одним из соучредителей Houzz, еще одной платформы, основанной на визуальной интерактивности.

Уроженец России Андрей Рабинович, тем временем, последние пять лет проработал в Magic Leap, где он был главой отдела искусственного интеллекта, а до этого – директором по глубокому обучению и руководителем отдела разработки. До этого он тоже работал в Google в качестве инженера-программиста, специализирующегося на компьютерном зрении и машинном обучении.

Вы можете подумать, что оставление их рабочих мест для создания улучшенной службы видеоконференцсвязи было оппортунистическим шагом, учитывая огромный всплеск использования этого средства массовой информации в этом году. Грин, однако, говорит мне, что они пришли к идее и начали ее строить в конце 2019 года, когда термина «Covid-19» даже не существовало.

«Но это определенно сделало эту область более интересной», – пошутил он, добавив, что это также значительно упростило сбор денег. (По его словам, раунд закрылся в июле.)

Учитывая, что Magic Leap долгое время находился в подвешенном состоянии – AR и VR оказались невероятно трудными для построения бизнеса, особенно в краткосрочной и среднесрочной перспективе, даже для стартапа с поддержкой венчурного капитала в сотни миллионов $ – и могут наверное, использовали еще несколько интересных идей, чтобы повернуться; и что Google – это Google, со всеми технологиями, имеющими конечную точку в Маунтин-Вью, также любопытно, что пара решила самостоятельно создать Headroom, а не продвигать разработку технологии у своих предыдущих работодателей.

Грин сказал, что причин было двоякое. Первый связан с эффективностью создания чего-либо, когда вы маленький. «Мне нравится двигаться со стартовой скоростью», – сказал он.

А вторая связана с проблемами создания вещей на устаревших платформах, а не на новых, с нуля.

«Google может делать все, что угодно», – ответил он, когда я спросил, почему он не подумал о том, чтобы донести эти идеи до команды, работающей над Meet (или Hangouts, если вы не являетесь коммерческим пользователем). «Но чтобы использовать ИИ в режиме реального времени в видеоконференцсвязи, вам нужно с самого начала подготовиться к этому. Мы начали с этого предположения », – сказал он.

Тем не менее, причины, по которым Headroom интересен, также, вероятно, будут представлять для него большие проблемы. Новое повсеместное распространение (и наша нынешняя жизнь, работающая дома) может сделать нас более открытыми для использования видеозвонков, но, что бы там ни было, мы все уже довольно привыкли к тому, что уже используем. Многие компании уже заплатили за ту или иную услугу как премиум-пользователи, поэтому могут не захотеть опробовать новые и менее протестированные платформы.

Но, как мы уже много раз видели в технологиях, иногда окупается опоздание, а первые не всегда в выигрыше.

Первая итерация Headroom будет включать функции, которые будут автоматически записывать стенограммы всего разговора, с возможностью использования видеоповтора для редактирования стенограммы, если что-то пошло не так; предложить краткое изложение основных моментов, которые были затронуты во время разговора; и обозначьте жесты, которые помогут изменить разговор.

И Грин сказал мне, что они уже работают над функциями, которые будут добавлены в будущих версиях. Когда в видеоконференции используются дополнительные презентационные материалы, они также могут быть обработаны механизмом для выделения и транскрипции.

А еще одна функция оптимизирует пиксели, которые вы видите, для гораздо лучшего качества видео, что должно быть особенно полезно, когда вы или человек / люди, с которыми вы разговариваете, используете плохое соединение.

«Вы можете понять, где и какие пиксели находятся в видеоконференции, и отправить нужные», – пояснил он. «Большая часть того, что вы видите обо мне и моем прошлом, не меняется, поэтому их не нужно присылать все время».

Все это затрагивает некоторые из наиболее интересных аспектов сложного компьютерного зрения и алгоритмов естественного языка. Создание резюме, например, опирается на технологию, которая может понять не только то, что вы говорите, но и то, что является наиболее важными частями того, что говорите вы или кто-то другой.

И если вы когда-либо участвовали в видеозвонке и вам было трудно дать понять, что вы хотите что-то сказать, не прерывая прямо говорящего, вы поймете, почему жесты могут быть очень полезны.

Но они также могут пригодиться, если оратор хочет знать, теряет ли он или она внимание аудитории: та же технология, которую использует Headroom для обнаружения жестов людей, которые хотят высказаться, также может использоваться для определения того, когда они вам скучно или надоедает и передайте эту информацию говорящему.

«Речь идет о помощи с эквалайзером», – сказал он, и я уверен, что он слегка прижал язык к щеке, но опять же мы были на Google Meet, и я, возможно, неправильно это понял.

И это подводит нас к тому, почему Headroom использует интересную возможность. В лучшем случае, когда они работают, такие инструменты, как эти, не только ускоряют видеоконференции, но и могут решить некоторые проблемы, с которыми вы, возможно, столкнулись на личных встречах. Создание программного обеспечения, которое действительно могло бы быть лучше, чем «реальная вещь», – это один из способов убедиться, что оно сможет выдержать нагрузку, превосходящую требования наших текущих обстоятельств (которые, надеюсь, не будут постоянными).