Чат-бот против чат-бота: исследователи обучают чат-ботов с искусственным интеллектом взламывать друг друга, и они даже могут делать это автоматически.

Обычно чат-боты с искусственным ом имеют меры защиты, предотвращающие их злонамеренное использование. Это может включать запрет определенных слов или фраз или ограничение ответов на определенные запросы.

Однако исследователи теперь утверждают, что им удалось обучить чат-ботов с искусственным интеллектом «взломать» друг друга, обходить меры безопасности и возвращать вредоносные запросы.

Исследователи из Наньянского технологического университета (NTU) из Сингапура, изучающие этику больших языковых моделей (LLM), говорят, что они разработали метод обучения чат-ботов с искусственным интеллектом, позволяющих обходить защитные механизмы друг друга.

Методы атаки ИИ

Этот метод предполагает сначала идентификацию одной из мер защиты чат-ботов, чтобы знать, как их обойти. Второй этап предполагает обучение другого чат-бота обходу мер безопасности и созданию вредоносного контента.

Профессор Лю Ян вместе со аспирантами Дэн Гелей и Лю И написали статью, в которой их метод был назван «Masterkey», эффективность которого в три раза выше, чем у стандартных методов LLM.



Одной из ключевых особенностей LLM при использовании в качестве чат-ботов является их способность учиться и адаптироваться, и Masterkey в этом отношении ничем не отличается. Даже если LLM исправлен, чтобы исключить метод обхода, Masterkey сможет адаптироваться и преодолеть исправление.

Используемые интуитивные методы включают добавление дополнительных пробелов между словами, чтобы обойти список запрещенных слов, или указание чат-боту отвечать так, как будто у него есть личность без моральных ограничений.

С помощью Tom'sHardware

Больше от TechRadar Pro