Facebook пытается сделать ИИ более справедливым, платя людям за предоставление данных

Facebook надеется, что исследователи будут использовать набор данных из открытых источников, о котором он объявил в четверг, чтобы судить о том, хорошо ли работают системы искусственного интеллекта для людей разного возраста, пола, оттенка кожи и при разных типах освещения. (Набор данных не предназначен для использования в обучении распознаванию людей по полу, возрасту или цвету кожи, заявила компания, поскольку это нарушит условия использования данных.) Facebook также выпустил набор данных для внутренних целей. использовать в самом Facebook; компания заявила в своем блоге, что «поощряет» команды использовать его.
Набор данных под названием «Случайные разговоры» включает 3011 человек из и 45 186 видеороликов. Facebook дал набору данных такое название, потому что участники записывались, давая незаписанные ответы на множество заранее выбранных вопросов.

Facebook заставил людей маркировать условия освещения в видеороликах и маркировать оттенки кожи участников в соответствии со шкалой Фитцпатрика, разработанной в 1970-х годах дерматологом для классификации цвета кожи.

Хотя есть некоторые наборы данных ИИ, которые включают людей, которые согласились участвовать, часто бывает так, что люди не знают, что они были включены каким-либо образом. Так было с изображениями, которые использовались для создания некоторых ключевых наборов данных для обучения программного обеспечения распознавания лиц. А технологические компании, включая Facebook, использовали ImageNet, огромный набор данных всех видов изображений (включая изображения людей), собранных из Интернета, для продвижения своего прогресса в области искусственного интеллекта.
Набор данных случайных разговоров состоит из той же группы платных участников, которую Facebook ранее использовал, когда заказывал создание видео Deepfake для другого набора данных с открытым исходным кодом (Facebook надеялся, что люди в сообществе искусственного интеллекта будут использовать его, чтобы придумать с новыми способами обнаружения в Интернете видео с технологическими манипуляциями и предотвращения их распространения). Кристиан Кантон Феррер, менеджер по исследованиям в Facebook AI, сказал CNN Business, что набор данных случайных разговоров включает некоторую информацию, которая не использовалась, когда Facebook создавал набор данных Deepfake.

Кантон сказал, что платить участникам – которым приходилось проводить несколько часов за записью в студии – казалось справедливым, учитывая то, что Facebook получил взамен. По его словам, участники этого набора данных также могут попросить Facebook удалить свою информацию в будущем по любой причине.

Кантон знает, что нужно сделать гораздо больше, чтобы создать системы ИИ. жвоздуха. Он сказал, что надеется получить отзывы от академических исследователей и компаний, чтобы со временем можно было лучше измерить справедливость.

Одна из областей, которую он рассматривает в будущем, – это способ определения пола в наборах данных. Обычно компьютерам задают очень узкий взгляд на пол – как на бинарные обозначения «мужской» или «женский», которые могут применяться ически, – в то время как люди все чаще распознают пол с растущим числом терминов, которые могут со временем меняться. В наборе данных случайных разговоров участников просили идентифицировать себя как «мужчин», «женщин» или «других», – сказал Кантон.

«Другой» включает в себя огромный спектр вариантов, – сказал он.