Редис в пачке выгуливает собаку? Этот ИИ умеет хорошо рисовать

Теперь новая модель искусственного интеллекта может создавать такие изображения с четкостью и привлекательностью.

На этой неделе некоммерческая исследовательская компания OpenAI выпустила DALL-E, который может генерировать множество впечатляющих, часто сюрреалистических изображений из письменных подсказок, таких как «кресло в форме авокадо» или «изображение капибары, сидящей в поле. на рассвете.” (И да, название DALL-E – это сумочка, отсылающая к художнику-сюрреалисту Сальвадору Дали и анимационному научно-фантастическому фильму “ВАЛЛ-И”.)

Хотя искусственный интеллект уже много лет используется для создания изображений из текста, он имеет тенденцию создавать кляксы, пиксельные изображения с ограниченным сходством с реальными или воображаемыми объектами; это исследование Института искусственного интеллекта Аллена дает представление о современном состоянии дел. Тем не менее, многие творения DALL-E, представленные OpenAI в блоге, выглядят четкими и ясными и варьируются от сложных, но очаровательных (вышеупомянутые редька и собака; лисы в стиле глиняной лепки; кресла, похожие на половинки авокадо, с подушками для ям) до довольно фотореалистичных (видения моста Золотые Ворота Сан-Франциско или Дворца изящных искусств).

По словам Илья Суцкевер, соучредителя OpenAI и его главного научного сотрудника, эта модель является шагом к , который хорошо разбирается в текстах и ​​изображениях. И это намекает на будущее, когда ИИ сможет выполнять более сложные инструкции для некоторых приложений, таких как редактирование фотографий или создание концепций для новой мебели или других объектов, одновременно поднимая вопросы о том, что значит для компьютера заниматься искусством и дизайном. задачи, традиционно выполняемые людьми.

Кресло в форме авокадо

DALL-E – это версия существующей модели искусственного интеллекта от OpenAI под названием GPT-3, которая была выпущена в прошлом году с большой помпой. GPT-3 был обучен тексту с миллиардов веб-страниц, так что он сможет реагировать на письменные запросы путем создания всего, от новостных статей до рецептов и стихов. Для сравнения, DALL-E был обучен на парах изображений и связанном с ними тексте таким образом, что он, по-видимому, мог отвечать на письменные подсказки изображениями, которые могут быть на удивление похожими на то, что может представить человек; Затем OpenAI использует другую новую модель искусственного интеллекта, CLIP, чтобы определить, какие результаты являются лучшими. (CNN Business не смог самостоятельно экспериментировать с ИИ.)

Адитья Рамеш, который руководил созданием DALL-E, сказал, что был удивлен его способностью взять две несвязанные концепции и смешать их в функциональные объекты, такие как стулья в форме авокадо, и добавить части тела, похожие на человеческие. (например, усы) на неодушевленные предметы, такие как овощи, в месте, которое имеет смысл.



OpenAI, соучредителем которого является Илон Маск, Microsoft как один из его спонсоров, еще не определил, как и когда он выпустит модель. На данный момент единственный способ попробовать это – отредактировать подсказки в сообщении блога DALL-E, выбрав разные слова для их завершения из раскрывающихся списков: например, подсказка для «кресла в форме авокадо» можно изменить на «часы в виде кубика Рубика». Однако даже в этих пределах существует множество способов манипулировать подсказками, чтобы увидеть, что будет производить DALL-E, будь то кубические часы в стиле 80-х, вид в разрезе головы человека или татуировка. пурпурный артишок.

Марк Ридл, доцент Технологического института Джорджии, изучающий искусственный интеллект, ориентированный на человека, сказал, что изображения, полученные с помощью модели, кажутся «действительно связными». Несмотря на то, что он не может получить доступ к DALL-E напрямую, из демонстрации ясно, что ИИ понимает определенные концепции и понимает, как их визуально смешивать.

«Вы можете видеть, что он понимает овощи, он понимает пачки, он понимает, как надевать пачку на овощ», – сказал он, отметив, что он, вероятно, поместил бы пачку на овощ аналогичным образом.

Фламинго играет в теннис с кошкой

OpenAI действительно позволял CNN Business отправлять несколько исходных запросов, которые выполнялись через модель. Это были: «Фотография лодки с надписью« с днем ​​рождения »»; «Картина, на которой панда ест сладкую вату»; «Фотография« Эмпайр-стейт-билдинг на закате »и« Иллюстрация фламинго, играющего в теннис с кошкой ».

ДАЛЛ-И труднее справляется с более сложными подсказками;  здесь просили «иллюстрацию фламинго, играющего в теннис с кошкой».

Полученные изображения, казалось, отражали сильные и слабые стороны DALL-E, с пандами, которые, казалось, спокойно жевали сладкую вату, и компьютерными визуализациями своего рода Эмпайр-стейт-билдинг на закате. Оказалось, что модели сложно писать длинные слова или фразы на объектах (и, возможно, она не была хорошо обучена на изображениях лодок), поэтому изображенные на ней лодки выглядели немного странно, и только один из полученных нами результатов имел очень четкое «с днем ​​рождения». DALL-E также сложно выдавать четкие результаты для запросов, содержащих большое количество объектов. В результате многие изображения фламинго, играющего в теннис с кошкой, выглядели немного странно.

«Хотя в некоторых вещах она успешна, в некоторых она еще и хрупкая», – объяснил Рамеш.

Эти панды, поедающие сладкую вату, были созданы моделью ИИ под названием DALL-E.

Ридл тоже попытался протестировать DALL-E, отредактировав одну из подсказок, указав на то, что, как он ожидал, в ней не было бы много тренировочных данных: креветка в пижаме, запускающая воздушного змея. Эта комбинация привела к созданию изображений, которые были более размытыми и похожими на капли, чем изображения редиса в балетной пачке, выгуливающего собаку.

Возможно, это связано с тем, что чем более отработанная концепция содержится в наборе данных, взятом из того, что есть в Интернете, тем более «комфортной» будет модель искусственного интеллекта при игре с ней, сказал он. То есть, что его действительно удивило, так это то, сколько фотографий мультяшных овощей должно быть в сети.