Cambridge Analytica пыталась использовать данные Facebook для прогнозирования пристрастия к таргетингам на избирателей, подтверждает британское расследование

Британский орган по надзору за данными направил письмо в парламент вместо окончательного отчета о широкомасштабном расследовании политической рекламы в Интернете, в ходе которой был проведен рейд на офисы . в 2018 году после того, как выяснилось, что опальная (а теперь уже не существующая) информационная компания неправильно собрала данные о миллионах пользователей .

В письме регулятор сообщает, что рассмотренные им материалы включали:

  • 42 ноутбука и компьютера;
  • 700 ТБ данных;
  • 31 сервер;
  • более 300 000 документов; а также
  • широкий спектр материалов в бумажной форме и с облачных хранилищ

«Огромный объем изъятого материала означал, что нам был представлен цифровой« стог сена »информации в различных штатах и ​​местах, и это продлило работу по анализу и оценке материала, чтобы помочь нам понять, что произошло. Однако, собрав воедино временную шкалу событий, мы смогли получить исчерпывающее доказательное представление о том, что могло произойти », – пишет он, прежде чем перейти к наброску своего понимания того, как Cambridge Analytica / SCL действовала в то время, когда платила академику Кембриджского университета доктору Александру Когану за ненадлежащее получение и обработку данных миллионов пользователей Facebook с целью нацеливания рекламы на избирателей США.

«Заключение этой работы продемонстрировало, что SCL собирали наборы данных из нескольких коммерческих источников, чтобы делать прогнозы по личным данным для целей политического альянса», – пишет ICO. «Например, мы восстановили данные, которые включали файлы избирателей (версия реестра избирателей для США), наборы данных о потребителях, наборы данных для социальных сетей и разведки, которые, по всей видимости, были получены от следующих компаний: Labels & Lists, InfoGroup, Aristotle, Magellan, Acxiom и Experian. Некоторые данные похожи на аналогичные данные об избирателях в США, которые были подвержены известным кибернетическим нарушениям и были доступны в Интернете ».

Бывший CEO Cambridge Analytica Александр Никс, которому в прошлом месяце запретили управлять компанией на семь лет после того, как он подписал договор о дисквалификации с британской службой несостоятельности, ранее сообщил парламенту Великобритании, что CA / SCL приобрела большую часть данные, которые он использовал для построения психографических профилей избирателей от крупных коммерческих брокеров данных, таких как Acxiom, Experian и Infogroup.

Согласно оценке ICO, CA / SCL чрезмерно переоценивает глубину профилирования своих сотрудников – регулирующий орган заявляет, что не нашел доказательств, подтверждающих утверждения в своих маркетинговых материалах, что у него было «5000+ точек данных на каждого человека из 230 миллионов. взрослые американцы ».



«Судя по тому, что мы обнаружили, это могло быть преувеличением», – пишет он.

Участники ICO были удовлетворены тем, что Facebook данные, переданные в CA / SCL компанией доктора Когана, были включены в уже существующую более крупную базу данных, которая уже содержала «досье избирателей, демографические данные и данные потребителей для граждан США».

«Данные, собранные GSR [Dr Kogan's company] относительно [Facebook app] Пользователи опроса и их «друзья» Facebook были специально выбраны для включения процесса «сопоставления» с уже существующими базами данных SCL », – пишет он, объясняя свое понимание того, как CA / SCL использовала неправильно полученные данные Facebook. «Сопоставление происходило с использованием платформ для обмена файлами и по имени, дате рождения и местонахождению – при этом существующие файлы данных SCL« обогащались »и дополнялись данными GSR об этих же людях – и эта сопоставленная информация передавалась обратно в системы SCL.

«Это привело, например, к информации, включающей баллы по частоте голосования, независимо от того, является ли она республиканским или демократическим, согласованность голосования и профиль, который предсказывал личностные черты, соответствующие такой информации, как идентификатор избирателя, имя, адрес, возраст и другие коммерческие данные».

Расследование также подтвердило, что CA / SCL применил методы искусственного интеллекта к данным, чтобы попытаться предсказать пристрастие или другие важные атрибуты избирателей с целью более эффективного нацеливания на них с помощью политических сообщений. Хотя в нем говорится, что не удалось подтвердить, использовались ли такие методы в конкретных кампаниях.

«Посредством таких процессов соответствующие данные GSR избирателей США (около 30 миллионов человек) были затем дополнительно проанализированы с использованием алгоритмов машинного обучения для создания дополнительных« прогнозируемых »оценок, касающихся партийности и других критериев, которые затем применялись ко всем лицам в базе данных. . Некоторые из них были посвящены столь широкому кругу вопросов, как «права геев», «Обама – худший президент в истории США», «Переизбрать президента Обаму в 2012 году», «Библия» и «Национальная стрелковая ассоциация», – пишет он.

«Эти баллы использовались для определения групп похожих лиц, на которых потенциально может быть нацелена реклама, относящаяся к политическим кампаниям. Эта таргетированная реклама в конечном итоге, вероятно, была конечной целью сбора данных, но были ли конкретные данные из GSR затем использованы в какой-либо конкретной части кампании, было невозможно определить на основе проанализированных цифровых данных. Однако были обнаружены доказательства, свидетельствующие о том, что аналогичные подходы и модели, основанные на прогнозируемых личностных качествах и других показателях, использовались с данными Республиканского национального комитета (RNC) ».

Что касается методов моделирования данных CA / SCL, ICO приходит к выводу, что компания в основном использовала «хорошо известные процессы с использованием общедоступных технологий».

«Например, SCL загрузила библиотеки науки о данных с открытым исходным кодом, такие как scikit, которые содержат хорошо зарекомендовавшие себя, широко используемые алгоритмы для визуализации, анализа и прогнозного моделирования данных. Именно эти сторонние библиотеки сформировали большую часть деятельности SCL в области науки о данных, за которой наблюдала ICO », – пишет он. «Используя эти библиотеки, SCL протестировала несколько различных архитектур моделей машинного обучения, функции активации и оптимизаторы (все из которых предварительно разработаны в сторонних библиотеках), чтобы определить, какие комбинации дают наиболее точные прогнозы для любого заданного набора данных. Мы понимаем, что эта процедура хорошо зарекомендовала себя в более широком сообществе специалистов по науке о данных и, на наш взгляд, не демонстрирует никаких патентованных технологий или процессов в рамках работы SCL ».

Регулирующий орган также отмечает, что по-прежнему возникают вопросы относительно эффективности такого моделирования для прогнозирования характеристик людей, что подчеркивает признаки внутреннего скептицизма по поводу этого подхода.

«Проведенный ICO анализ внутренних коммуникаций компании, расследование выявило определенный скептицизм в SCL в отношении точности или надежности выполняемой обработки. Похоже, что внутреннее беспокойство по поводу внешнего обмена сообщениями было противопоставлено реальности их обработки », – отмечает он.

Расследование ICO также не нашло доказательств того, что данные Facebook, которые Коган продал Cambridge Analytica, использовались для политической кампании, связанной с референдумом Великобритании по Brexit. «Наше мнение о рассмотрении доказательств состоит в том, что данные GSR не могли быть использованы в референдуме по Брекситу, поскольку данные, предоставленные SCL / Cambridge Analytica доктором Коганом, относятся к зарегистрированным избирателям в США», – говорится в сообщении.

Отсутствие доказательств того, что данные британских пользователей Facebook использовались для политического таргетинга, было заявлением Facebook, когда оно оспаривало штраф в размере 500 тысяч фунтов стерлингов за скандал с Cambridge Analytica.

В конце концов, в прошлом году регулятор рассчитался с Facebook, хотя компания не признала ответственности.

В письме ICO также обсуждается канадская информационная компания AIQ, которая была связана с CA / SCL и действительно сыграла ключевую роль в референдуме Великобритании по Brexit – поскольку она использовалась в нескольких кампаниях “ Выйти ” для таргетинга рекламы на британских избирателей через Facebook.

«Был ряд свидетельств, которые продемонстрировали очень тесную взаимосвязь между AIQ и SCL (например, свидетельство, описывающее AIQ как канадское отделение SCL, и свидетельство того, что счета Facebook, выставленные AIQ за рекламу, оплачивались непосредственно SCL). Однако AIQ последовательно отрицает наличие более тесных отношений, помимо отношений между разработчиком программного обеспечения и их клиентом. Г-н Сильвестр (директор / владелец AIQ) заявил о том, что в 2014 году SCL «попросила нас создать SCL Canada, но мы отказались», – пишет ICO.

Регулирующий орган заявляет, что исследовал, использовала ли AIQ одни и те же наборы данных для таргетинга рекламы на британских избирателей от имени трех разных кампаний «Покинуть»: «Голосование за отпуск», «BeLeave», DUP и «Ветераны для Великобритании», но не нашла доказательств того, что это произошло.

«Первоначальная информация, предоставленная Facebook, предполагала, что было три аудитории, которые использовались для таргетинга как с помощью Vote Leave, так и BeLeave. Однако впоследствии AIQ пояснила, что это была ошибка администратора, сделанная младшим сотрудником при создании учетной записи BeLeave. Ошибка была исправлена ​​на следующий день, и никакая информация из этих кампаний не распространялась через Facebook в виде целевой рекламы », – пишет он.

Хотя письмо ICO в парламент вместо более официального итогового отчета может показаться чем-то вроде предвкушения давнего скандала с неправомерным использованием данных, регулирующий орган вновь выражает озабоченность по поводу того, что в письме говорится о «системных уязвимостях в наших демократических системах». ».

Хотя комиссар по информации Элизабет Денхэм не конкретизирует ранее публично высказанную озабоченность по поводу того, что большие данные подрывают демократию.

Вместо этого в письме отмечается, что ICO предоставило «советы и рекомендации» с целью достижения лучшего соответствия правилам в будущем нескольким неназванным организациям, оставшимся и оставившимся на референдуме в Великобритании.

«Мои аудиторские группы также завершили аудит соблюдения требований защиты данных в 14 организациях, связанных с первоначальным расследованием, включая: основные политические партии, основные кредитные справочные агентства и крупных брокеров данных, а также Психометрический центр Кембриджского университета. Мы дали важные рекомендации по внесению изменений в законодательство о защите данных », – добавляет она.

Подробная информация об этих «важных» рекомендациях – это незавершенные отчеты об аудитах основных политических партий ICO; основные агентства кредитной информации и крупных брокеров данных; и Центр психометрии Кембриджского университета, примечания к которому будут опубликованы «в ближайшее время».

Еще одна интересная деталь из расследования CA / SCL ICO заключается в том, что, похоже, компания планировала переместить свои данные в оффшор, чтобы избежать контроля со стороны регулирующих органов – по-видимому, из-за того, что фурор СМИ вокруг скандала с данными Facebook пролил свет на ее процессы.

«Мы также выявили доказательства того, что на последних этапах SCL / CA разрабатывала планы по перемещению своих данных в офшор, чтобы избежать контроля со стороны регулирующих органов со стороны ICO. Мы изучили сложную структуру их компании с зарубежными партнерами и пришли к выводу, что, хотя планы были составлены, компания не смогла реализовать их до того, как прекратила торговлю », – таков вывод регулятора.

В самом наборе данных Facebook ICO сообщает, что В ходе расследования были обнаружены данные «в различных местах, мало продуманных для эффективных мер безопасности». «Мы обнаружили, что лица, интересующиеся расследованием, имели данные о различных учетных записях Gmail», – отмечается в сообщении. «Данные также были обнаружены на серверах и, похоже, были переданы ряду сторон, например, были доказательства того, что данные были переданы персоналу SCL / CA, Eunoia Technologies Inc. [CA whistleblower Chris Wylie‘s company], Кембриджский университет и Университет Торонто ».

В письме также указывается, что ряд неназванных «высокопоставленных фигур», связанных со скандалом, продолжают отказываться сотрудничать с расследованием ICO. «Несколько высокопоставленных лиц продолжали хранить молчание и отказались от интервью », – отмечается в сообщении.