OpenAI выпускает GPT-4, мультимодальный ИИ, который, по его утверждению, является современным

После нескольких месяцев ожидания OpenAI выпустила новую мощную модель ИИ для понимания изображений и текста, GPT-4, которую компания называет «последней вехой в своих усилиях по расширению масштабов глубокого обучения».

GPT-4 доступен сегодня через API OpenAI со списком ожидания и в ChatGPT Plus, премиум-плане OpenAI для ChatGPT, его вирусного чат-бота на базе ИИ.

Как оказалось, он прятался у всех на виду. Microsoft подтвердил сегодня, что Bing Chat, его технология чат-ботов, разработанная совместно с OpenAI, работает на GPT-4.

Согласно OpenAI, GPT-4 может принимать изображения и текст — улучшение по сравнению с GPT-3.5, его предшественником, который принимал только текст — и работает на «человеческом уровне» в различных профессиональных и академических тестах. Например, GPT-3 сдает смоделированный экзамен на адвоката с оценкой около 10% лучших участников теста.

OpenAI потратила шесть месяцев на итеративную настройку GPT-4, используя уроки программы состязательного тестирования, а также ChatGPT, что привело к «лучшим результатам» в отношении фактичности, управляемости и отказа от выхода за пределы ограждений, по словам компании.

«В обычном разговоре разница между GPT-3.5 и GPT-4 может быть едва уловимой», — написал OpenAI в блоге, анонсирующем GPT-4. «Разница проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5».



Без сомнения, одним из наиболее интересных аспектов GPT-4 является его способность понимать изображения так же, как и текст. GPT-4 может подписывать и даже интерпретировать относительно сложные изображения, например, идентифицировать адаптер кабеля Lightning по изображению подключенного iPhone.

Возможность понимания изображений пока доступна не для всех клиентов OpenAI — для начала OpenAI тестирует ее с одним партнером, Be My Eyes. Новая функция «Виртуальный волонтер» Be My Eyes на базе GPT-4 может отвечать на вопросы об отправленных ей изображениях.

Be My Eyes объясняет, как это работает, в блоге:

«Например, если пользователь отправит фотографию своего холодильника изнутри, виртуальный волонтер сможет не только правильно определить, что в нем находится, но и экстраполировать и проанализировать, что можно приготовить из этих ингредиентов. Инструмент также может предложить ряд рецептов для этих ингредиентов и отправить пошаговое руководство по их приготовлению».