ИИ воссоздает то, что люди видят, читая их сканирование мозга | Наука

Пока нейробиологи пытаются демистифицировать то, как человеческий преобразует то, что видят наши глаза, в мысленные образы, искусственный интеллект () все лучше и лучше имитирует этот подвиг. А недавнее обучениекоторый планируется представить на предстоящей конференции по компьютерному зрению, демонстрирует, что ИИ может считывать сканирование мозга и воссоздавать в значительной степени реалистичные версии изображений, которые видел человек. Исследователи говорят, что по мере развития этой технологии у нее может быть множество применений, от изучения того, как различные виды животных воспринимают мир, до, возможно, когда-нибудь записи человеческих снов и помощи в общении парализованным людям.

Многие лаборатории использовали ИИ для считывания сканов мозга и воссоздания изображений, которые субъект недавно видел, таких как человеческие лица и фотографии пейзажей. Новое исследование знаменует собой первый раз, когда алгоритм ИИ называется Стабильная диффузия, разработанный немецкой группой и публично выпущенный в 2022 году. Стабильная диффузия похожа на другие «генеративные» ИИ для преобразования текста в изображение, такие как ДАЛЛ-Э 2 и Середина пути, которые создают новые изображения из текстовых подсказок после обучения на миллиардах изображений, связанных с текстовыми описаниями..

Для нового исследования группа в Японии добавила дополнительное обучение к стандартной системе Stable Diffusion, связав дополнительные текстовые описания тысяч фотографий с паттернами мозга, полученными, когда эти фотографии наблюдались участниками исследований сканирования мозга.

В отличие от предыдущих попыток использовать алгоритмы ИИ для расшифровки сканов мозга, которые нужно было обучать на больших наборах данных, Stable Diffusion смогла получить больше от меньшего обучения для каждого участника, включив в алгоритм подписи к фотографиям. Это новый подход, который включает текстовую и визуальную информацию для «расшифровки мозга», говорит Ариэль Гольдштейн, когнитивный нейробиолог из Принстонского университета, который не участвовал в работе.

Алгоритм ИИ использует информацию, собранную из различных областей мозга, участвующих в восприятии изображений, таких как затылочные и височные доли, по словам Ю Такаги, системного нейробиолога из Университета Осаки, который работал над экспериментом. Система интерпретировала информацию, полученную при функциональной магнитно-резонансной томографии (фМРТ) головного мозга, которая выявляет изменения кровотока в активных областях мозга. Когда люди смотрят на фотографию, височные доли преимущественно регистрируют информацию о содержании изображения (людях, объектах или декорациях), тогда как затылочные доли преимущественно регистрируют информацию о расположении и перспективе, такую ​​как масштаб и положение содержимого. Вся эта информация записывается фМРТ, поскольку она фиксирует пики активности мозга, а затем эти паттерны могут быть преобразованы в имитацию изображения с помощью ИИ.

В новом исследовании ученые добавили дополнительное обучение алгоритму стабильной диффузии с помощью онлайн-курса. набор данных предоставлено Миннесотским университетом, который состоял из сканирования мозга четырех участников, каждый из которых просматривал набор из 10 000 фотографий. Часть этих сканов мозга тех же четырех участников не использовалась в обучении и позже использовалась для тестирования системы ИИ.



Каждое изображение, сгенерированное ИИ, начинается с шума, напоминающего помехи на телевидении, и заменяет шум различимыми признаками, поскольку алгоритм стабильной диффузии сравнивает образцы активности мозга человека при просмотре фотографии с образцами в своем наборе обучающих данных. Система эффективно генерирует изображение, отражающее содержание, расположение и перспективу просматриваемой фотографии. Такаги говорит, что новая система была более эффективной, чем предыдущие, требовала меньше тонкой настройки и могла обучаться на меньшем наборе данных.

Исследователи обнаружили, что мозговая активность, преимущественно в затылочной доле, давала достаточно информации, чтобы воссоздать расположение и перспективу просматриваемых фотографий. Но алгоритм изо всех сил пытался воспроизвести объекты, такие как башня с часами, из реальной фотографии и вместо этого создал абстрактные фигуры. По словам японской команды, одним из подходов к решению этой проблемы было бы использование больших наборов обучающих данных, которые могли бы обучить алгоритм прогнозировать больше деталей, но набор данных фМРТ был слишком ограничен для этого.

Вместо этого исследователи обошли эту проблему, используя ключевые слова из подписей к изображениям, которые сопровождали фотографии в наборе данных фМРТ Миннесоты. Если, например, на одной из обучающих фотографий изображена башня с часами, картина активности мозга на скане будет связана с этим объектом. Это означало, что если участник исследования еще раз продемонстрирует тот же мозговой паттерн на этапе тестирования, система передаст ключевое слово объекта в обычный генератор преобразования текста в изображение Stable Diffusion, а башня с часами будет включена в воссозданный генератор. изображения, следуя макету и перспективе, указанным мозговым паттерном, что приводит к убедительной имитации реальной фотографии.

Реальное фото, изображение AI и более полное изображение часов AI
Stable Diffusion может воссоздавать фотографии (слева), которые видели участники исследования. Используя только паттерны активности мозга, он правильно воспроизводит план и перспективу (в центре), но с добавлением текстовой информации может также правильно воссоздать объект на фотографии (справа). Креатив Коммонс

Важно отметить, что алгоритм стабильной диффузии не получает текстовую подсказку непосредственно из тестовых данных — он может сделать вывод о наличии объекта только в том случае, если образ мозга совпадает с образцом, наблюдаемым в обучающих данных. Это ограничивает объекты, которые он может воссоздать, теми, которые присутствуют на фотографиях, используемых во время обучения.

Наконец, исследователи проверили свою систему на дополнительных сканах мозга тех же участников, когда они просматривали отдельный набор фотографий, включая игрушечного медведя, самолет, часы и поезд. Сравнивая мозговые паттерны на этих изображениях с паттернами, созданными на фотографиях в наборе обучающих данных, система ИИ смогла убедительно имитировать новые фотографии. (Команда опубликовала препринт своей работы в декабре 2022 года.)

«Точность этого нового метода впечатляет», — говорит Айрис Гроен, нейробиолог из Амстердамского университета, которая не участвовала в работе.

Однако система искусственного интеллекта была протестирована только на сканах мозга тех же четырех человек, которые предоставили обучающие сканы мозга, и ее распространение на других людей потребовало бы переобучения системы на сканах их мозга. Таким образом, может потребоваться некоторое время, чтобы эта технология стала широко доступной. Тем не менее, Гроен утверждает, что «эти диффузионные модели [an] беспрецедентная способность генерировать реалистичные изображения» и может открыть новые возможности для исследований в области когнитивной нейробиологии.

Синдзи Нисимото, еще один системный нейробиолог из Университета Осаки, который работал над исследованием, надеется, что при дальнейшем совершенствовании технология может быть использована для перехвата воображаемых мыслей и снов или позволит ученым понять, как по-разному другие животные воспринимают реальность.