После телеграфного сообщения о появлении в СМИ OpenAI выпустила инструмент, который пытается различать текст, написанный человеком, и текст, сгенерированный ИИ, например текст, созданный собственными моделями ChatGPT и GPT-3 компании. Классификатор не особенно точен: его показатель успеха составляет около 26%, отмечает OpenAI, но OpenAI утверждает, что при использовании в сочетании с другими методами он может быть полезен для предотвращения злоупотреблений текстовыми генераторами ИИ.
«Классификатор предназначен для смягчения ложных утверждений о том, что текст, сгенерированный ИИ, был написан человеком. Однако он по-прежнему имеет ряд ограничений, поэтому его следует использовать в качестве дополнения к другим методам определения источника текста, а не в качестве основного инструмента для принятия решений», — сообщил представитель OpenAI TechCrunch по электронной почте. «Мы делаем этот первоначальный классификатор доступным для отзывов о том, полезны ли подобные инструменты, и мы с нетерпением ждем возможности поделиться улучшенными методами в будущем».
По мере роста интереса к генеративному ИИ, особенно ИИ, генерирующему текст, критики призвали создателей этих инструментов принять меры для смягчения их потенциально вредных последствий. Некоторые из крупнейших школьных округов США запретили ChatGPT в своих сетях и устройствах, опасаясь влияния на обучение учащихся и точность контента, создаваемого этим инструментом. А сайты, в том числе Stack Overflow, запретили пользователям делиться контентом, созданным ChatGPT, заявив, что искусственный интеллект позволяет пользователям слишком легко заливать ветки обсуждения сомнительными ответами.
Классификатор OpenAI, метко названный OpenAI AI Text Classifier, интригует своей архитектурой. Как и ChatGPT, это языковая модель ИИ, обученная на множестве примеров общедоступного текста в Интернете. Но в отличие от ChatGPT, он настроен на предсказание вероятности того, что ИИ сгенерирует фрагмент текста не только из ChatGPT, но и из любой модели ИИ, генерирующей текст.
В частности, OpenAI обучил классификатор текста OpenAI AI на тексте из 34 систем генерации текста из пяти различных организаций, включая саму OpenAI. Этот текст был объединен с аналогичным (но не совсем похожим) написанным человеком текстом из Википедии, веб-сайтами, извлеченными из ссылок, размещенных на Reddit, и набором «человеческих демонстраций», скомпилированных для более старой системы генерации текста OpenAI. (Однако OpenAI признает в сопроводительном документе, что он мог непреднамеренно ошибочно классифицировать некоторый написанный ИИ текст как написанный человеком «учитывая распространение контента, созданного ИИ, в Интернете».)
Классификатор текста OpenAI не будет работать с любым текстом, что более важно. Вам нужно минимум 1000 символов или около 150-250 слов. Он не обнаруживает плагиат, что является особенно неприятным ограничением, учитывая, что ИИ, генерирующий текст, извергает текст, на котором он был обучен. И OpenAI говорит, что с большей вероятностью ошибется в тексте, написанном детьми или на языке, отличном от английского, из-за его набора данных на английском языке.
Детектор несколько скрывает свой ответ, оценивая, сгенерирован ли данный фрагмент текста искусственным интеллектом. В зависимости от вашего уровня уверенности, он будет помечать текст как сгенерированный ИИ как «крайне маловероятный» (вероятность менее 10 %), сгенерированный ИИ как «маловероятный» (вероятность 10–45 %), «неясный», если он «сгенерирован ИИ» ( вероятность 45–90 %), «Возможно» создано ИИ (вероятность 90–98 %) или «Вероятно» создано ИИ (вероятность более 98 %).
Из любопытства я прогнал какой-то текст через классификатор, чтобы посмотреть, как он работает. Хотя он правильно и уверенно предсказал, что несколько абзацев статьи TechCrunch о Meta’s Horizon Worlds и фрагмент страницы поддержки OpenAI не были сгенерированы ИИ, у классификатора было больше проблем с текстом длины статьи, чем у ChatGPT, и в конечном итоге он не смог ранжировать его. общее. Тем не менее, он успешно перехватил вывод ChatGPT из статьи Gizmodo о чем еще? — ЧатGPT.
Согласно OpenAI, классификатор неправильно помечает написанный человеком текст как написанный ИИ в 9% случаев. В моих тестах этой ошибки не было, но я связываю ее с небольшим объемом выборки.
На практическом уровне я обнаружил, что классификатор не особенно полезен для оценки более коротких текстов. 1000 символов — это жесткий порог в области сообщений, например, электронных писем (по крайней мере, тех, которые я получаю регулярно). И ограничения заставляют задуматься: OpenAI подчеркивает, что классификатор можно обойти, изменив некоторые слова или предложения в сгенерированном тексте.
Это не означает, что классификатор бесполезен, это далеко не так. Но это, конечно, не остановит закоренелых мошенников (или студентов, если на то пошло) в его нынешнем состоянии.
Вопрос в том, будут ли другие инструменты? Возникла своего рода надомная промышленность, чтобы удовлетворить спрос на текстовые детекторы, созданные искусственным интеллектом. ChatZero, разработанный студентом Принстонского университета, использует такие критерии, как «тупость» (сложность текста) и «взрыв» (вариации предложений), чтобы определить, может ли ИИ напечатать текст. Средство проверки на плагиат Turnitin разрабатывает собственное средство проверки текста, сгенерированное искусственным интеллектом. Кроме того, поиск в Google выдает как минимум полдюжины других приложений, которые утверждают, что способны отделить сгенерированную искусственным интеллектом пшеницу от плевел, созданных людьми, чтобы истязать метафору.
Скорее всего, это станет игрой в кошки-мышки. По мере совершенствования ИИ, генерирующего текст, совершенствуются и детекторы — бесконечный обмен информацией, подобный тому, что происходит между киберпреступниками и исследователями безопасности. И, как пишет OpenAI, хотя классификаторы могут помочь в определенных обстоятельствах, они никогда не будут единственным надежным тестом, позволяющим определить, был ли текст сгенерирован ИИ.
Это все говорит о том, что нет панацеи для решения проблем, связанных с текстом, созданным ИИ. Очень вероятно, что никогда не будет.