После того, как ИИ освоили го и Super Mario, ученые научили их проводить эксперименты


Вдохновленные мастерством искусственного интеллекта (ИИ) над такими играми, как Go и Super Mario, ученые из National Synchrotron Light Source II (NSLS-II) обучили ИИ-агент – автономную вычислительную программу, которая наблюдает и действует, – как проводить исследовательские эксперименты на сверхчеловеческих уровнях с использованием того же подхода. Команда Брукхейвена опубликовала свои выводы в журнале. Машинное обучение: наука и технологии и реализовал агент ИИ в рамках исследовательских возможностей NSLS-II.

NSLS-II, являясь объектом научных исследований Министерства энергетики США (DOE), расположенным в Брукхейвенской национальной лаборатории Министерства энергетики США, позволяет проводить научные исследования более чем 2000 исследователям каждый год, предлагая доступ к ультраярким рентгеновским лучам. Ученые со всего мира приезжают на объект, чтобы продвигать свои исследования в таких областях, как батареи, микроэлектроника и разработка лекарств. Тем не менее, время на экспериментальных станциях NSLS-II, называемых лучевыми линиями, получить трудно, потому что почти в три раза больше исследователей хотели бы их использовать, чем любая станция может обработать за день, несмотря на то, что объект работает круглосуточно и без выходных.

«Поскольку время, проведенное на нашем предприятии, является ценным ресурсом, мы обязаны хорошо распоряжаться им; это означает, что нам нужно найти способы более эффективного использования этого ресурса, чтобы мы могли способствовать большему количеству научных исследований», – сказал Дэниел Олдс, ученый, работающий с лучевыми линиями. в NSLS-II и автор-корреспондент исследования. «Одно из узких мест – это мы, люди, которые измеряют образцы. Мы придумываем первоначальную стратегию, но корректируем ее на лету во время измерения, чтобы все прошло гладко. Но мы не можем постоянно наблюдать за измерением, потому что нам также нужно есть, спать и делать больше, чем просто проводить эксперимент ».

«Вот почему мы научили агента ИИ проводить научные эксперименты, как если бы они были видеоиграми. Это позволяет роботу проводить эксперимент, в то время как нас, людей, нет. Это позволяет круглосуточно и полностью удаленно – экспериментирование без вмешательства пользователя, эффективность которого примерно вдвое выше, чем у людей », – добавил Филип Маффеттоне, научный сотрудник NSLS-II и первый автор исследования.


По словам исследователей, им даже не нужно было давать агенту ИИ правила «игры» для проведения эксперимента. Вместо этого команда использовала метод, называемый «обучение с подкреплением», чтобы обучить агента ИИ тому, как проводить успешный научный эксперимент, а затем протестировала своего агента на смоделированных данных исследования из канала передачи функции распределения пар в NSLS-II.

Beamline Experiments: испытание на уровне босса

Обучение с подкреплением – это одна из стратегий обучения ИИ-агента овладению способностями. Идея обучения с подкреплением заключается в том, что агент ИИ воспринимает среду – мир – и может влиять на нее, выполняя действия. В зависимости от того, как агент ИИ взаимодействует с миром, он может получить награду или штраф, в зависимости от того, является ли это конкретное взаимодействие хорошим или плохим выбором. Уловка заключается в том, что агент ИИ сохраняет память о своем взаимодействии с миром, чтобы он мог извлечь уроки из этого опыта, когда он попытается снова. Таким образом, агент ИИ выясняет, как справиться с задачей, собирая как можно больше наград.

«Обучение с подкреплением действительно позволяет научить агентов ИИ играть в видеоигры. Наиболее успешно оно работает с играми, которые имеют простую концепцию – например, сбор как можно большего количества монет – но также имеют скрытые слои, такие как секретные туннели, содержащие больше монет. «Эксперименты с лучевой линией основаны на схожей идее: основная концепция проста, но есть скрытые секреты, которые мы хотим раскрыть. По сути, для того, чтобы агент ИИ управлял нашим лучом, нам нужно было превратить наш луч в видеоигру», – сказал Олдс.

Маффеттоне добавил: «Сравнение с видеоигрой хорошо работает для луча. В обоих случаях агент ИИ действует в мире с четкими правилами. В мире Супер Марио агент ИИ может перемещать Марио вверх, вниз, слева, справа; в то время как на линии луча действиями будут движения образца или детектора и решение, когда брать данные. Настоящая задача состоит в том, чтобы правильно смоделировать окружающую среду – видеоигра, такая как Super Mario, уже является смоделированным миром. и вы можете просто позволить агенту ИИ проиграть его миллион раз, чтобы изучить его. Итак, для нас вопрос заключался в том, как мы можем смоделировать луч так, чтобы агент ИИ мог провести миллион экспериментов, не выполняя их на самом деле », – сказал Маффеттоне.