Этот алгоритм отслеживания рук может привести к распознаванию языка жестов

Миллионы людей общаются, используя язык жестов, но пока проекты, чтобы захватить его сложные жесты и перевести их чтобы устная речь имела ограниченный успех. Новый прогресс в отслеживании рук в реальном времени из лабораторий искусственного интеллекта Google, однако, это может быть прорыв, которого некоторые ждали.

В новой методике используются несколько хитрых ярлыков и, конечно же, повышается общая эффективность систем машинного обучения для создания в реальном времени высокоточной карты руки и всех ее пальцев, используя только смартфон и камеру.

«Принимая во внимание, что современные современные подходы основаны главным образом на мощных десктопных средах, наш метод достигает производительности в реальном времени на мобильном телефоне и даже масштабируется до нескольких рук», – пишут исследователи Google Валентин Базаревский и Фан Чжан в Сообщение блога. «Надежное восприятие рук в режиме реального времени является решающей задачей для компьютерного зрения, поскольку руки часто закрывают себя или друг друга (например, окклюзии пальцев / ладоней и дрожания рук) и не имеют высококонтрастных рисунков».

Мало того, но движения рук часто бывают быстрыми, тонкими или и тем, и другим – не обязательно, что компьютеры хорошо ловят в режиме реального времени. По сути, это просто супер трудно сделать правильно, а делать это правильно сложно быстро. Даже с несколькими камерами, чувствительные к глубине установки, подобные тем, которые используются SignAll, не позволяют отслеживать каждое движение. (Но это не останавливает их.)

Цель исследователей в этом случае, по крайней мере частично, заключалась в том, чтобы сократить объем данных, которые должны были проанализировать алгоритмы. Меньшее количество данных означает более быстрое выполнение.

Во-первых, они отказались от идеи, чтобы система определяла положение и размер всей руки. Вместо этого у них есть только система поиска ладони, которая является не только самой характерной и надежной формой руки, но и имеет квадратную форму, что означает, что им не нужно беспокоиться о способности системы обрабатывать высокие прямоугольные изображения. короткие и так далее.



Разумеется, когда ладонь распознана, пальцы прорастают с одного ее конца и могут анализироваться отдельно. Отдельный алгоритм смотрит на изображение и присваивает ему 21 координату, приблизительно координирующую суставы пальцев и кончики пальцев, в том числе, насколько далеко они, вероятно, находятся (среди прочего, он может угадать, основываясь на размере и угле ладони).

Чтобы выполнить эту часть распознавания пальцев, им сначала пришлось вручную добавить эти 21 точку к примерно 30 000 изображений рук в разных позах и ситуациях освещения, чтобы система машинного обучения могла воспринимать и учиться. Как обычно, искусственный интеллект зависит от тяжелой человеческой работы.

Как только поза руки определена, эта поза сравнивается с кучей известных жестов, от символов языка жестов для букв и цифр до таких вещей, как «мир» и «металл».

В результате получается быстрый и точный алгоритм отслеживания рук, который работает на обычном смартфоне, а не на виртуальном рабочем столе или в облаке (т. Е. На другом виртуальном рабочем столе). Все это работает в рамках MediaPipe, о которой специалисты по мультимедиа уже могут кое-что знать.

Если повезет, другие исследователи смогут взять это и работать с ним, возможно, улучшая существующие системы, которые нуждаются в более мощном оборудовании, чтобы выполнять распознавание рук, необходимое для распознавания жестов. Однако до настоящего понимания языка жестов еще далеко, который использует обе руки, выражения лица и другие сигналы, чтобы создать богатый способ общения, в отличие от любого другого.

Это еще не используется ни в одном продукте Google, поэтому исследователи могли бесплатно отдать свою работу. Исходный код здесь для любого, чтобы взять и построить.

«Мы надеемся, что предоставление этой функциональности восприятия рук более широкому сообществу исследователей и разработчиков приведет к появлению творческих вариантов использования, стимулированию новых приложений и новых направлений исследований», – пишут они.