Этот новый инструмент может сказать вам, помогают ли ваши онлайн-фотографии тренировать системы распознавания лиц.

Для обучения системы распознавания лиц распознаванию людей требуется множество фотографий лиц — фотографии, которые часто собираются из Интернета. Обычно невозможно определить, есть ли среди них загруженные вами изображения.

Exposing.ai, открыт в январе, позволяет узнать, является ли фотографии у вас размещены на изображение обмена сайте Flickr, были использованы для продвижения этого спорного применения искусственного интеллекта, позволяя искать более 3,6 миллионов фотографий в шесть лицевом распознавании изображения наборы данных. Это небольшое число по сравнению с миллионами фотографий, разбросанных по бесчисленным наборам данных о лицах, но многие люди все равно будут удивлены, обнаружив, что их фотографии — и лица — включены.

«Легче всего понять, когда это становится более личным», — сказал Адам Харви, художник и исследователь, создавший сайт вместе с другим художником и программистом Жюлем Лапласом в сотрудничестве с некоммерческим проектом по надзору за технологиями наблюдения (STOP). «Иногда помогает визуальное подтверждение».

Чтобы использовать сайт, вы должны ввести свое имя пользователя Flickr, URL-адрес конкретной фотографии Flickr или хэштег (например, «#wedding»), чтобы узнать, включены ли ваши фотографии. Если фотографии будут найдены, Exposing.ai покажет вам миниатюру каждой, а также месяц и год, когда они были опубликованы в вашей учетной записи Flickr, и количество изображений, которые есть в каждом наборе данных.

Поиск по имени пользователя Flickr этого автора ничего не дал. Однако поиск некоторых распространенных хэштегов дал массу результатов, но для неизвестных людей: «#wedding» вернул более 103 000 фотографий, используемых в наборах данных для распознавания лиц, а поисковые запросы «#birthday» и «#party» дали десятки тысяч включенных изображений, с детскими лицами во многих из первых результатов.

Как быстро отмечает Харви, Exposing.ai исследует лишь небольшую часть используемых данных о лицах, поскольку многие компании публично не раскрывают, как они получили данные, используемые для обучения своих систем распознавания лиц. «Это верхушка айсберга», — сказал он.

Пограничное агентство «не обеспечило должной защиты»  данные распознавания лиц, находки сторожевого пса

В течение многих лет исследователи и компании обращались к Интернету, чтобы собирать и аннотировать фотографии всех видов объектов, в том числе многих, многих лиц, в надежде сделать компьютеры более способными понимать окружающий мир. Это часто включает использование изображений с Flickr, на которые распространяются лицензии Creative Commons — это особые виды лицензий на авторское право, в которых четко указаны условия, на которых такие изображения и видео могут использоваться и передаваться третьими лицами, а также извлечение изображений из поиска изображений Google , извлекая их из общедоступных учетных записей Instagram или другими способами (некоторые законными, некоторые, возможно, нет).

Многие из полученных наборов данных предназначены для академической работы, такой как обучение или тестирование алгоритма распознавания лиц. Но распознавание лиц все больше перемещается из лабораторий в сферу большого бизнеса, поскольку такие компании, как Microsoft, Amazon, Facebook и Google делают ставку на ИИ. Программное обеспечение для распознавания лиц становится повсеместным в его использовании — полицией, в аэропортах и ​​даже на смартфонах и дверных звонках.
На фоне более широкого рассмотрения использования онлайн-данных отдельных лиц наборы данных для обучения программному обеспечению распознавания лиц стали горячей точкой для проблем конфиденциальности и будущего, в котором наблюдение может стать более обычным явлением. Сами системы распознавания лиц также все чаще изучаются на предмет опасений по поводу их точности и лежащих в основе расовых предубеждений, отчасти из-за данных, на которых они были обучены.


Скоро появятся новые наборы данных

Первоначально Харви планировал использовать технологию распознавания лиц, чтобы вы могли искать свои собственные фотографии, но затем понял, что она может отображать фотографии других людей, которые просто похожи на вас. По его словам, текстовый поиск таких вещей, как имена пользователей Flickr и хэштеги, может быть «менее впечатляющим» для людей, но это более верный способ показать, включены ли ваши фотографии в наборы данных.

Теперь Харви планирует добавить в Exposing.ai два десятка наборов данных лиц, собранных из Интернета, в том числе набор данных Flickr-Faces-HQ, собранный Nvidia и используемый для обучения ИИ созданию чрезвычайно реалистичных поддельных лиц. (Nvidia предлагает онлайн-инструмент для проверки, есть ли ваши фотографии в этом наборе данных, но он не выполняет поиск в дополнительных наборах данных.) Это займет некоторое время, отмечает Лиз О’Салливан, директор по технологиям STOP, потому что их так много эти наборы данных там.
Распознавание лиц предназначено не только для людей - оно также помогает распознавать медведей и коров.

Неясно, как люди отреагируют, узнав больше о том, как используются их фотографии. Кейси Фислер, доцент Колорадского университета в Боулдере, изучающий этику использования общедоступных данных, обнаружил, что люди неоднозначно реагируют, например, на изучение своих Twitter посты использовались для исследования. Они могут быть сбиты с толку, посчитать это неприятным или совсем не заботиться. Однако в случае с фотографиями, используемыми для обучения систем распознавания лиц, она подозревает, что люди не будут знать, что делать с открытием, что их изображения были включены.

«Вы видите, что там ваше лицо», — сказала она. «И что?»

Во многих случаях на этот вопрос нет ответа. Харви сказал, что добавит на Exposing.ai форму с информацией, которую можно использовать, чтобы попросить автора набора данных удалить вас из своего списка изображений. Но даже если это удастся сделать, он сказал, что любой, кто скачивал набор данных в прошлом, не собирается брать ваши фотографии из своей копии. Некоторые наборы данных, такие как MegaFace, который был выпущен исследователями Вашингтонского университета в 2016 году, больше не распространяются, но копии уже широко распространены. Харви рекомендует людям, которые не хотят использовать свои изображения для обучения распознаванию лиц, либо отключить их, либо сделать конфиденциальными.

«На самом деле лучшего сценария не существует», — сказал Харви. «Есть только менее худшие сценарии».