WorldGaze использует камеры смартфонов, чтобы помочь голосовым ИИ попасть в погоню

Если вы находите голосовых помощников разочаровывающе тупыми, вы едва ли одиноки. Многообещающее обещание удобства вокала, управляемого искусственным интеллектом, очень быстро проваливается сквозь трещины роботизированной педантичности.

Умный , который должен возвращаться снова (а иногда и снова), чтобы попросить дополнительный ввод для выполнения вашего запроса, может показаться особенно глупым – когда, например, не получается, что наиболее вероятная ремонтная мастерская, о которой вы спрашиваете, это не один из них, но тот, на котором вы припарковались прямо сейчас.

Исследователи в Институт взаимодействия человека с компьютером в Университете Карнеги-Меллона, работающий с Гирад Лапут инженер машинного обучения в Apple, разработали дополнение к демонстрационному программному обеспечению для голосовых помощников, которое позволяет пользователям ов повышать уровень искусственного интеллекта на устройстве, протягивая ему руку помощи – или, скорее, голову помощи.

В прототипе системы одновременно используются передняя и задняя камеры смартфона, чтобы иметь возможность определять местонахождение головы пользователя в физическом пространстве и, более конкретно, в непосредственной близости – которые анализируются для идентификации объектов поблизости с использованием технологии компьютерного зрения.

Затем пользователь может использовать свою голову в качестве указателя, чтобы направить свой взгляд на то, о чем он говорит – то есть на «этот гараж» – без слов заполняя контекстуальные пробелы в понимании ИИ, как утверждают исследователи, более естественно.

Таким образом, вместо того, чтобы говорить как робот, чтобы задействовать утилиту голосового ИИ, вы можете звучать немного более, ну, в общем, человек. Спрашивать такие вещи, как ‘Siri, когда это Starbucks закрывается? 'Или – в розничной продаже -‘ есть другие варианты цвета для это диван? »или попросить мгновенное сравнение цен‘это стул и это один'. Или для лампы, которая будет добавлена ​​в ваш список пожеланий.



В сценарии «дом / офис» система также может позволить пользователю удаленно управлять множеством устройств в пределах их поля зрения – без необходимости быть слишком специфичным в этом отношении. Вместо этого они могут просто смотреть в сторону умного телевизора или термостата и говорить необходимую регулировку громкости / температуры.

Команда собрала демонстрационное видео (ниже), показывающее прототип – который они назвали WorldGaze – в действии. «Мы используем фронтальную камеру iPhone для отслеживания головы в 3D, включая вектор направления. Поскольку геометрия передней и задней камер известна, мы можем направить вектор головы в мир, как это видно с камеры заднего вида », – объясняют они в видео.

«Это позволяет пользователю интуитивно определять объект или область интереса, используя взгляд головы. Затем голосовые помощники могут использовать эту контекстную информацию для более точных и естественных запросов ».

В исследовательской работе, представляющей прототип, они также предполагают, что его можно использовать для «помочь в социализации мобильных AR, которые в настоящее время характеризуются людьми, идущими по улице и смотрящими вниз на свои устройства ».

На вопрос, чтобы расширить это, исследователь CMU Крис Харрисон сказал TechCrunch: «Люди всегда ходят и смотрят на свои телефоны, что не очень общительно. Они не общаются с другими людьми и даже не смотрят на прекрасный мир вокруг них. С чем-то вроде WorldGaze, люди могут смотреть в мир, но все же задавать вопросы на свой смартфон. Если я иду по улице, я могу узнать и послушать отзывы о ресторанах или добавить вещи в свой список покупок, не глядя на свой телефон. Но в телефоне все еще есть все смарты. Мне не нужно покупать что-то дополнительное или особенное ».

В документе, который они отмечают, имеется много исследований, посвященных отслеживанию взгляда пользователей в интерактивных целях, но ключевой целью их работы здесь была разработка «функционального прототипа в реальном времени, ограничивающегося аппаратным обеспечением, которое можно найти на обычных смартфонах». ». (Хотя поле обзора задней камеры является одним из потенциальных ограничений, которые они обсуждают, включая предложение частичного обходного пути для любого аппаратного обеспечения, которое не работает.)

«Хотя WorldGaze может быть запущен как отдельное приложение, мы считаем, что более вероятно, что WorldGaze будет интегрирован в качестве фоновой службы, которая активирует триггер голосового помощника (например,« Привет, Сири »)», – пишут они. «Хотя открытие обеих камер и выполнение обработки компьютерного зрения требует много энергии, рабочий цикл будет настолько низким, что не окажет существенного влияния на время автономной работы современных смартфонов. Возможно даже, что для обеих камер требуется только один кадр, после чего они могут отключиться (время запуска WorldGaze составляет 7 секунд). Используя стендовое оборудование, мы оценили энергопотребление в ~ 0,1 мВтч на запрос ».

Конечно, все еще есть что-то немного неловкое в том, что человек держит экран перед лицом и разговаривает с ним – но Харрисон подтверждает, что программное обеспечение может работать так же легко, без помощи рук, на паре умных очков.

«И то и другое возможно», – сказал он нам. «Мы решили сосредоточиться на смартфонах просто потому, что у каждого есть один (и WorldGaze может буквально быть обновлением программного обеспечения), в то время как почти ни у кого нет очков AR (пока). Но предпосылка использования, где вы ищете, чтобы перезарядить голосовых помощников, применима к обоим ».

«Очки AR все чаще включают датчики для отслеживания местоположения взгляда (например, Magic Leap, который использует его для целей фокусировки), поэтому в этом случае нужно только смотреть наружу камеры », добавил он.

Сделав еще один скачок, можно представить себе, что такая система сочетается с технологией распознавания лиц – чтобы умный владелец спецификации мог спокойно наклонить голову и спросить, кто это? »- при условии, что необходимые лицевые данные были легально доступны в банках памяти ИИ.

Такие функции, как «добавить в контакты» или «когда мы в последний раз встречались», можно затем разблокировать, чтобы расширить возможности общения или общения. Хотя, на данный момент, последствия внедрения такой системы в реальный мир для конфиденциальности выглядят более сложными, чем объединение инженерных решений. (См., Например, Apple запрет на приложение Clearview AI за нарушение его правил.)

«Для этого необходим уровень безопасности и разрешений, и это не то, о чем мы сейчас думаем, но это интересная (и потенциально пугающая идея)», – соглашается Харрисон, когда мы спрашиваем о такой возможности.

Команда должна была представить исследование в ACM CHI – но конференция была отменена из-за COVID-19.