Теперь iPhone может автоматически распознавать и маркировать кнопки и функции пользовательского интерфейса для слепых пользователей.

Apple всегда старался изо всех сил создавать функции для пользователей с ограниченными возможностями, и Voiceover на iOS – бесценный инструмент для всех, кто страдает нарушением зрения – при условии, что каждый элемент а был помечен вручную. Но компания только что представила совершенно новую функцию, которая использует машинное обучение для ической идентификации и маркировки каждой кнопки, слайдера и вкладки.

Распознавание экрана, доступное сейчас в iOS 14, – это система компьютерного зрения, которая была обучена на тысячах изображений используемых приложений, изучая, как выглядит кнопка, что означают значки и т. Д. Такие системы очень гибкие – в зависимости от данных, которые вы им предоставляете, они могут стать экспертами в обнаружении кошек, выражений лиц или, как в данном случае, различных частей пользовательского интерфейса.

В результате теперь в любом приложении пользователи могут вызвать эту функцию, и через долю секунды каждый элемент на экране будет помечен. Под словом «каждый» они понимают каждый – в конце концов, программы чтения с экрана должны знать обо всем, что видит зрячий пользователь и с чем может взаимодействовать, от изображений (которые iOS смогла составить сводку из одного предложения в течение некоторого времени) до обычных значков (главная , назад) и контекстно-зависимые, такие как меню «…», которые появляются практически везде.

Идея состоит не в том, чтобы сделать ручную маркировку устаревшей – разработчики лучше всех знают, как маркировать свои собственные приложения, но обновления, изменение стандартов и сложные ситуации (например, внутриигровые интерфейсы) могут привести к тому, что вещи станут не такими доступными, как могли бы. .

Я разговаривал с Крисом Флейзаком из Appleкоманда разработчиков специальных возможностей iOS и Джефф Бигхэм из группы обеспечения доступности AI / ML о происхождении этой чрезвычайно полезной новой функции. (Это описано в документе, который будет представлен в следующем году.)



«Мы искали области, в которых мы можем повысить доступность, например описания изображений», – сказал Флейзак. «В iOS 13 мы автоматически помечаем значки – функция распознавания экрана делает еще один шаг вперед. Мы можем смотреть на пиксели на экране и определять иерархию объектов, с которыми вы можете взаимодействовать, и все это происходит на устройстве за десятые доли секунды ».

Идея точно не нова; Бигхэм упомянул программу чтения с экрана Outspoken, которая несколько лет назад пыталась использовать данные на уровне пикселей для идентификации элементов пользовательского интерфейса. Но хотя этой системе требовались точные совпадения, нечеткая логика систем машинного обучения и скорость встроенных в ускорителей искусственного интеллекта означают, что распознавание экрана намного более гибкое и мощное.

Этого не могло быть всего пару лет назад – состояние машинного обучения и отсутствие специального модуля для его выполнения означало, что что-то подобное было бы чрезвычайно обременительным для системы, занимало бы намного больше времени и, вероятно, разряжало бы батарею. все время.

Но как только такая система показалась возможной, команда приступила к работе над ее прототипированием с помощью преданных своему делу сотрудников и сообщества тестировщиков.

«VoiceOver долгое время был стандартом в области доступности систем зрения. Если вы посмотрите на этапы разработки Screen Recognition, то увидите, что это было основано на сотрудничестве между командами – доступность повсюду, наши партнеры в сборе данных и аннотации, AI / ML и, конечно же, в дизайне. Мы сделали это для того, чтобы наши разработки в области машинного обучения продолжали способствовать повышению качества обслуживания пользователей », – сказал Бигхэм.

Это было сделано путем создания тысяч скриншотов популярных приложений и игр, а затем вручную пометить их как один из нескольких стандартных элементов пользовательского интерфейса. Эти помеченные данные были переданы в систему машинного обучения, которая вскоре научилась самостоятельно выделять те же элементы.

Это не так просто, как кажется – как люди, мы достаточно хорошо понимаем назначение определенного изображения или фрагмента текста, и поэтому часто мы можем ориентироваться даже в абстрактных или творчески разработанных интерфейсах. Это не так ясно для модели машинного обучения, и команде пришлось работать с ней, чтобы создать сложный набор правил и иерархий, которые гарантируют, что интерпретация программы чтения с экрана имеет смысл.

Новая возможность должна помочь сделать миллионы приложений более доступными или просто доступными для пользователей с нарушениями зрения. Вы можете включить его, перейдя в настройки специальных возможностей, затем VoiceOver, затем VoiceOver Recognition, где вы можете включать и выключать распознавание изображения, экрана и текста.

Перенести распознавание экрана на другие платформы, такие как Mac, было бы нетривиально, так что пока не надейтесь на это. Но принцип здравый, хотя сама модель не распространяется на настольные приложения, которые сильно отличаются от мобильных. Возможно, другие возьмут на себя эту задачу; Перспектива функций доступности, управляемых ИИ, только начинает реализовываться.