Перевод SLAIT на язык жестов в реальном времени обещает более доступное онлайн-общение

От

26.04.2021

Язык жестов используется миллионами людей по всему миру, но в отличие от испанского, китайского или даже латыни, автоматический перевод недоступен для тех, кто не может его использовать. SLAIT заявляет, что это первый такой инструмент, доступный для общего пользования, который может переводить около 200 слов и простых предложений для начала, используя только обычный компьютер и веб-камеру.

Сотни миллионов людей с нарушениями слуха или другими состояниями, затрудняющими речевую речь, полагаются на те же самые распространенные технические средства, что и люди со слухом. Но хотя электронные письма и текстовые чаты полезны и, конечно, сейчас очень распространены, они не заменяют личное общение, и, к сожалению, нет простого способа превратить подписи в письменные или устные слова, поэтому это остается значительный барьер.

Мы видели попытки автоматического перевода на жестовый язык (обычно американский / ASL) в течение многих лет: в 2012 году Microsoft вручил свой Imagine Cup студенческой команде, которая отслеживала движения рук с помощью перчаток; в 2018 году я писал о SignAll, которая работает над кабиной для перевода на язык жестов, используя несколько камер для трехмерного позиционирования; а в 2019 году я заметил, что новый алгоритм отслеживания рук под названием MediaPipe, разработанный лабораторией Google AI, может привести к прогрессу в обнаружении знаков. Оказывается, это примерно так и произошло.

SLAIT – это стартап, основанный на исследованиях, проведенных в Аахенском университете прикладных наук в Германии, где соучредитель Антонио Доменек создал небольшой механизм распознавания ASL с использованием MediaPipe и пользовательских нейронных сетей. Доказав основную идею, Доменек присоединился к соучредителям Евгению Фомину и Уильяму Викарсу, чтобы основать компанию; Затем они перешли к созданию системы, которая могла распознавать сначала 100, а теперь и 200 отдельных жестов ASL и несколько простых предложений. Перевод происходит в автономном режиме и практически в реальном времени на любом относительно недавнем телефоне или компьютере.

Они планируют сделать ее доступной для образовательных и опытно-конструкторских работ, расширяя свой набор данных, чтобы они могли улучшить модель, прежде чем пытаться использовать какие-либо более важные потребительские приложения.

Конечно, разработка нынешней модели была совсем не простой, хотя это было сделано за очень короткое время небольшой командой. MediaPipe предлагает эффективный метод с открытым исходным кодом для отслеживания положения рук и пальцев, конечно, но решающим компонентом любой сильной модели машинного обучения являются данные, в данном случае видеоданные (поскольку он будет интерпретировать видео) используемого ASL – и этого просто не так много.

Как они недавно объяснили в презентации для конференции DeafIT, первая команда оценивала, используя более старую Microsoft база данных, но обнаружила, что в более новой австралийской академической базе данных содержится больше и более качественных данных, что позволяет создать модель, которая на 92% точна при идентификации любого из 200 знаков в режиме реального времени. Они дополнили это видео жестами из социальных сетей (конечно, с разрешения) и выступлениями в правительстве с участием переводчиков с языка жестов – но им все еще нужно больше.

Анимированное изображение женщины, говорящей

GIF, показывающий один из прототипов в действии – очевидно, что у потребительского продукта не будет каркаса.Кредиты изображений: Slait.ai

Их намерение состоит в том, чтобы сделать платформу доступной для глухих и учащихся ASL, которые, надеюсь, не будут возражать против того, чтобы их использование системы было направлено на ее улучшение.

И, естественно, в своем нынешнем состоянии он может оказаться бесценным инструментом, поскольку модель перевода компании, даже в незавершенной работе, по-прежнему потенциально трансформирует многих людей. Из-за количества видеозвонков, происходящих в наши дни и, вероятно, на всю оставшуюся вечность, доступность остается позади – только некоторые платформы предлагают автоматические субтитры, транскрипцию, резюме и, конечно же, не распознают язык жестов. Но с помощью инструмента SLAIT люди могли нормально подписываться и участвовать в видеозвонке естественным образом, а не использовать забытую функцию чата.

«В краткосрочной перспективе мы доказали, что модели из 200 слов доступны и наши результаты улучшаются с каждым днем», – сказал Евгений Фомин из SLAIT. «В среднесрочной перспективе мы планируем выпустить ориентированное на потребителя приложение для отслеживания языка жестов. Однако предстоит проделать большую работу, чтобы создать обширную библиотеку жестов на языке жестов. Мы стремимся воплотить это будущее состояние в жизнь. Наша миссия – радикально улучшить доступность для глухих и слабослышащих сообществ ».

Слева направо: Евгений Фомин, Доминик Доменек и Билл Викарс.Кредиты изображений: Slait.ai

Он предупредил, что этого не будет. полностью полный – так же, как перевод и транскрипция на любой язык или на любой язык являются лишь приблизительными, суть в том, чтобы обеспечить практические результаты для миллионов людей, а несколько сотен слов имеют большое значение для этого. По мере поступления данных в словарь могут быть добавлены новые слова, а также новые фразы с несколькими жестами, а производительность основного набора улучшится.

Прямо сейчас компания ищет начальное финансирование, чтобы выпустить свой прототип и расширить команду за пределы команды основателей. Фомин сказал, что они вызвали некоторый интерес, но хотят убедиться, что они контактируют с инвестором, который действительно понимает план и видение.

Когда сам движок станет более надежным за счет добавления большего количества данных и уточнения моделей машинного обучения, команда рассмотрит дальнейшую разработку и интеграцию приложения с другими продуктами и услугами. На данный момент продукт является скорее доказательством концепции, но каким доказательством он является – приложив немного больше усилий, SLAIT перепрыгнет через отрасль и предоставит то, чего глухие и слышащие люди ждали на протяжении десятилетий.