OpenAI формирует новую команду, чтобы взять под контроль «сверхразумный» ИИ

OpenAI формирует новую команду под руководством Ильи Суцкевера, главного научного сотрудника и одного из соучредителей компании, для разработки способов управления и контроля над «сверхразумными» системами искусственного интеллекта.

В сообщении в блоге, опубликованном сегодня, Суцкевер и Ян Лейке, руководитель группы согласования в OpenAI, предсказывают, что ИИ с интеллектом, превышающим человеческий, может появиться в течение десятилетия. Суцкевер и Лейке говорят, что этот ИИ — если он действительно когда-нибудь появится — не обязательно будет доброжелательным, что потребует исследования способов его контроля и ограничения.

«В настоящее время у нас нет решения для управления потенциально сверхинтеллектуальным ИИ и предотвращения его выхода из-под контроля», — пишут они. «Наши текущие методы согласования ИИ, такие как обучение с подкреплением на основе отзывов людей, основаны на способности людей контролировать ИИ. Но люди не смогут надежно контролировать системы ИИ, которые намного умнее нас».

Чтобы продвинуться вперед в области «согласования сверхразума», OpenAI создает новую команду Superalignment во главе с Суцкевером и Лейке, которая будет иметь доступ к 20% вычислений, которые компания обеспечила на сегодняшний день. Вместе с учеными и инженерами из предыдущего отдела выравнивания OpenAI, а также исследователями из других организаций компании, команда будет стремиться решить основные технические проблемы управления сверхинтеллектуальным ИИ в течение следующих четырех лет.

Как? Создавая то, что Суцкевер и Лейке называют «автоматизированным исследователем выравнивания на уровне человека». Цель высокого уровня состоит в том, чтобы обучать системы ИИ, используя обратную связь от человека, обучать ИИ помогать в оценке других систем ИИ и, в конечном итоге, создавать ИИ, который может проводить исследования выравнивания. (Здесь «исследование согласованности» относится к обеспечению того, чтобы системы ИИ достигли желаемых результатов или не сошли с рельсов.)

Гипотеза OpenAI заключается в том, что ИИ может быстрее и лучше продвигать исследования в области выравнивания, чем люди.



«По мере того, как мы добиваемся в этом прогресса, наши системы искусственного интеллекта могут брать на себя все больше и больше нашей работы по выравниванию и, в конечном итоге, придумывать, внедрять, изучать и разрабатывать лучшие методы выравнивания, чем у нас есть сейчас», — постулировали Лейке и его коллеги Джон Шульман и Джеффри Ву в своем исследовании. предыдущий пост в блоге. «Они будут работать вместе с людьми, чтобы гарантировать, что их собственные преемники будут больше соответствовать людям. Исследователи-люди будут все больше и больше сосредоточивать свои усилия на обзоре исследований выравнивания, проводимых системами ИИ, вместо того, чтобы проводить эти исследования самостоятельно».

Конечно, ни один метод не является надежным — и Лейке, Шульман и Ву признают многие ограничения OpenAI в своем посте. По их словам, использование ИИ для оценки может увеличить несоответствия, предубеждения или уязвимости в этом ИИ. И может оказаться, что самые сложные части проблемы выравнивания могут быть вообще не связаны с инженерией.

Но Суцкевер и Лейке считают, что попробовать стоит.

«Согласование сверхразума — это, по сути, проблема машинного обучения, и мы думаем, что великие эксперты по машинному обучению — даже если они еще не работают над согласованием — будут иметь решающее значение для ее решения», — пишут они. «Мы планируем широко делиться плодами этих усилий и рассматривать содействие согласованию и безопасности моделей, отличных от OpenAI, как важную часть нашей работы».