Теперь новая модель искусственного интеллекта может создавать такие изображения с четкостью и привлекательностью.
На этой неделе некоммерческая исследовательская компания OpenAI выпустила DALL-E, который может генерировать множество впечатляющих, часто сюрреалистических изображений из письменных подсказок, таких как «кресло в форме авокадо» или «изображение капибары, сидящей в поле. на рассвете.” (И да, название DALL-E – это сумочка, отсылающая к художнику-сюрреалисту Сальвадору Дали и анимационному научно-фантастическому фильму “ВАЛЛ-И”.)
По словам Илья Суцкевер, соучредителя OpenAI и его главного научного сотрудника, эта модель является шагом к ИИ, который хорошо разбирается в текстах и изображениях. И это намекает на будущее, когда ИИ сможет выполнять более сложные инструкции для некоторых приложений, таких как редактирование фотографий или создание концепций для новой мебели или других объектов, одновременно поднимая вопросы о том, что значит для компьютера заниматься искусством и дизайном. задачи, традиционно выполняемые людьми.
Кресло в форме авокадо
Адитья Рамеш, который руководил созданием DALL-E, сказал, что был удивлен его способностью взять две несвязанные концепции и смешать их в функциональные объекты, такие как стулья в форме авокадо, и добавить части тела, похожие на человеческие. (например, усы) на неодушевленные предметы, такие как овощи, в месте, которое имеет смысл.
OpenAI, соучредителем которого является Илон Маск, Microsoft как один из его спонсоров, еще не определил, как и когда он выпустит модель. На данный момент единственный способ попробовать это – отредактировать подсказки в сообщении блога DALL-E, выбрав разные слова для их завершения из раскрывающихся списков: например, подсказка для «кресла в форме авокадо» можно изменить на «часы в виде кубика Рубика». Однако даже в этих пределах существует множество способов манипулировать подсказками, чтобы увидеть, что будет производить DALL-E, будь то кубические часы в стиле 80-х, вид в разрезе головы человека или татуировка. пурпурный артишок.
Марк Ридл, доцент Технологического института Джорджии, изучающий искусственный интеллект, ориентированный на человека, сказал, что изображения, полученные с помощью модели, кажутся «действительно связными». Несмотря на то, что он не может получить доступ к DALL-E напрямую, из демонстрации ясно, что ИИ понимает определенные концепции и понимает, как их визуально смешивать.
«Вы можете видеть, что он понимает овощи, он понимает пачки, он понимает, как надевать пачку на овощ», – сказал он, отметив, что он, вероятно, поместил бы пачку на овощ аналогичным образом.
Фламинго играет в теннис с кошкой
OpenAI действительно позволял CNN Business отправлять несколько исходных запросов, которые выполнялись через модель. Это были: «Фотография лодки с надписью« с днем рождения »»; «Картина, на которой панда ест сладкую вату»; «Фотография« Эмпайр-стейт-билдинг на закате »и« Иллюстрация фламинго, играющего в теннис с кошкой ».
Полученные изображения, казалось, отражали сильные и слабые стороны DALL-E, с пандами, которые, казалось, спокойно жевали сладкую вату, и компьютерными визуализациями своего рода Эмпайр-стейт-билдинг на закате. Оказалось, что модели сложно писать длинные слова или фразы на объектах (и, возможно, она не была хорошо обучена на изображениях лодок), поэтому изображенные на ней лодки выглядели немного странно, и только один из полученных нами результатов имел очень четкое «с днем рождения». DALL-E также сложно выдавать четкие результаты для запросов, содержащих большое количество объектов. В результате многие изображения фламинго, играющего в теннис с кошкой, выглядели немного странно.
«Хотя в некоторых вещах она успешна, в некоторых она еще и хрупкая», – объяснил Рамеш.
Ридл тоже попытался протестировать DALL-E, отредактировав одну из подсказок, указав на то, что, как он ожидал, в ней не было бы много тренировочных данных: креветка в пижаме, запускающая воздушного змея. Эта комбинация привела к созданию изображений, которые были более размытыми и похожими на капли, чем изображения редиса в балетной пачке, выгуливающего собаку.
Возможно, это связано с тем, что чем более отработанная концепция содержится в наборе данных, взятом из того, что есть в Интернете, тем более «комфортной» будет модель искусственного интеллекта при игре с ней, сказал он. То есть, что его действительно удивило, так это то, сколько фотографий мультяшных овощей должно быть в сети.