Для обучения системы распознавания лиц распознаванию людей требуется множество фотографий лиц — фотографии, которые часто собираются из Интернета. Обычно невозможно определить, есть ли среди них загруженные вами изображения.
«Легче всего понять, когда это становится более личным», — сказал Адам Харви, художник и исследователь, создавший сайт вместе с другим художником и программистом Жюлем Лапласом в сотрудничестве с некоммерческим проектом по надзору за технологиями наблюдения (STOP). «Иногда помогает визуальное подтверждение».
Чтобы использовать сайт, вы должны ввести свое имя пользователя Flickr, URL-адрес конкретной фотографии Flickr или хэштег (например, «#wedding»), чтобы узнать, включены ли ваши фотографии. Если фотографии будут найдены, Exposing.ai покажет вам миниатюру каждой, а также месяц и год, когда они были опубликованы в вашей учетной записи Flickr, и количество изображений, которые есть в каждом наборе данных.
Поиск по имени пользователя Flickr этого автора ничего не дал. Однако поиск некоторых распространенных хэштегов дал массу результатов, но для неизвестных людей: «#wedding» вернул более 103 000 фотографий, используемых в наборах данных для распознавания лиц, а поисковые запросы «#birthday» и «#party» дали десятки тысяч включенных изображений, с детскими лицами во многих из первых результатов.
Как быстро отмечает Харви, Exposing.ai исследует лишь небольшую часть используемых данных о лицах, поскольку многие компании публично не раскрывают, как они получили данные, используемые для обучения своих систем распознавания лиц. «Это верхушка айсберга», — сказал он.
В течение многих лет исследователи и компании обращались к Интернету, чтобы собирать и аннотировать фотографии всех видов объектов, в том числе многих, многих лиц, в надежде сделать компьютеры более способными понимать окружающий мир. Это часто включает использование изображений с Flickr, на которые распространяются лицензии Creative Commons — это особые виды лицензий на авторское право, в которых четко указаны условия, на которых такие изображения и видео могут использоваться и передаваться третьими лицами, а также извлечение изображений из поиска изображений Google , извлекая их из общедоступных учетных записей Instagram или другими способами (некоторые законными, некоторые, возможно, нет).
Скоро появятся новые наборы данных
Первоначально Харви планировал использовать технологию распознавания лиц, чтобы вы могли искать свои собственные фотографии, но затем понял, что она может отображать фотографии других людей, которые просто похожи на вас. По его словам, текстовый поиск таких вещей, как имена пользователей Flickr и хэштеги, может быть «менее впечатляющим» для людей, но это более верный способ показать, включены ли ваши фотографии в наборы данных.
Неясно, как люди отреагируют, узнав больше о том, как используются их фотографии. Кейси Фислер, доцент Колорадского университета в Боулдере, изучающий этику использования общедоступных данных, обнаружил, что люди неоднозначно реагируют, например, на изучение своих Twitter посты использовались для исследования. Они могут быть сбиты с толку, посчитать это неприятным или совсем не заботиться. Однако в случае с фотографиями, используемыми для обучения систем распознавания лиц, она подозревает, что люди не будут знать, что делать с открытием, что их изображения были включены.
«Вы видите, что там ваше лицо», — сказала она. «И что?»
«На самом деле лучшего сценария не существует», — сказал Харви. «Есть только менее худшие сценарии».