Предупреждение о спойлере! Эта нейронная сеть замечает опасные отзывы, прежде чем читать их

В наши дни трудно избежать спойлеров в Интернете – даже если вы будете осторожны, случайный твит или рекомендуемая новость могут лишиться вашего плана посмотреть финал сезона с опозданием на день или поймать после того, как толпа улеглась. Но вскоре агент ИИ может сделать для вас поиск спойлера и пометить спойл-рецензии и еще до того, как у вас появится возможность посмотреть.

SpoilerNet это создание команды в Калифорнийском университете в Сан-Диего, состоящей, возможно, из людей, которые пытались ждать неделю, чтобы увидеть «Бесконечную войну», и были схвачены за свои проблемы. Больше никогда!


Они собрали базу данных, содержащую более миллиона отзывов от читающего сообщества Goodreads, принадлежащего Amazon, где принято помечать спойлеры в любых обзорах, в основном построчно. Как пользователь сайта, я благодарен за эту возможность, и исследователи тоже были благодарны – потому что нигде больше нет ни одного корпуса письменных обзоров, в которых все, что составляет «спойлер», было тщательно помечено добросовестным сообществом.

(Ну, вроде как добросовестный. Как отмечают исследователи: «мы видим, что в действительности только несколько пользователей используют эту функцию».)

Во всяком случае, такие маркированные данные в наши дни являются в основном пищей для того, что обычно называют системами ИИ: нейронные сети различных типов, которые «изучают» качества, которые определяют конкретное изображение, объект или, в данном случае, спойлеры. Команда загрузила в систему 1,3 миллиона отзывов Goodreads, что позволило ей наблюдать и записывать различия между обычными предложениями и предложениями со спойлерами в них.

Возможно, авторы рецензий склонны начинать предложения с подробностей сюжета определенным образом – «Позже это раскрывается…» – или, возможно, в испорченных предложениях, как правило, отсутствуют оценочные слова, такие как «великий» или «сложный». Только сеть.

После того, как его обучение было завершено, агент был освобожден от отдельного набора предложений (как от Goodreads, так и от ошеломляющих временных каналов TV Tropes), которые он смог пометить как «спойлер» или «не спойлер», используя до 92 процентная точность Более ранние попытки вычислительно предсказать, есть ли в предложении спойлеры, не очень-то хороши; одна статья Chiang et al. прошлый год открыл новые возможности, но ограничен набором данных и подходом, которые позволяют ему рассматривать только предложение перед ним.

«Мы также моделируем зависимость и согласованность между предложениями в одном и том же документе обзора, чтобы можно было включить семантику высокого уровня», – сказал TechCrunch в электронном письме ведущий автор статьи SpoilerNet Мэнтинг Ван. Это позволяет более полно понять абзац или обзор, хотя, конечно, это также и более сложная проблема.

Но более сложная модель является естественным результатом более богатых данных, он написал:

Такой дизайн модели действительно выигрывает от нового крупномасштабного набора данных обзора, который мы собрали для этой работы, который включает в себя полные обзорные документы, теги спойлеров на уровне предложений и другие метаданные. Насколько нам известно, общедоступный набор данных (выпущенный в 2013 году) до этой работы включает только несколько тысяч комментариев в одном предложении, а не полные обзорные документы. Для исследовательских сообществ такой набор данных также облегчает возможность анализа реальных спойлеров обзора в деталях, а также разработки современных «углубленных в данные» моделей глубокого обучения в этой области.

Этот подход все еще является новым, и более сложный подход имеет свои недостатки. Например, модель иногда ошибочно принимает предложение как содержащее спойлеры, если другое предложение спойлера смежно; и его понимание отдельных предложений не достаточно хорошо, чтобы понять, когда определенные слова действительно указывают на спойлеры или нет. Мы с вами знаем, что «это убивает Дарта Вейдера» – это спойлер, в то время как «это убивает неизвестность» – это не так, но у компьютерной модели могут возникнуть проблемы с различием.

Ван сказал мне, что система должна иметь возможность работать в режиме реального времени на компьютере пользователя, хотя, конечно, обучение будет гораздо более сложной задачей. Это открывает возможность для браузера или приложение, которое читает отзывы перед вами и скрывает все, что он считает рискованным. Хотя Amazon косвенно связан с исследованием (там работает соавтор Rishabh Misra), Wan сказал, что пока нет плана коммерциализации или иного применения технологии.

Без сомнения, для Amazon и ее дочерних компаний и дочерних компаний было бы полезно автоматически помечать спойлеры в обзорах и другом контенте. Но до тех пор, пока не будет реализована новая модель (и на самом деле, пока она не станет немного лучше), нам придется придерживаться старомодного метода избегания любых контактов с миром, пока мы не увидим фильм или шоу, о которых идет речь.

Команда из UCSD представит свою работу на конференции Ассоциации вычислительной лингвистики в Италии в конце этого месяца; Вы можете прочитать полный текст статьи здесь – но остерегайтесь спойлеров. Шутки в сторону.

0 Комментарий
Inline Feedbacks
View all comments