- Gemini Robotics — новая модель
- Он фокусируется на физическом мире и будет использоваться роботами
- Это визуально, интерактивно и общий
Google Gemini хорош во многих вещах, которые происходят внутри экрана, включая генеративный текст и изображения. Тем не менее, последняя модель Google Robotics — это модель действий по языку видения, которая перемещает генеративный ИИ в физический мир и может существенно ускорить гонку Humanoid Robot Revolution.
Робототехника Gemini, которую Google Deepmind представила в среду, улучшает способности Близнецов в трех ключевых областях:
- Ловкость
- Интерактивность
- Обобщение
Каждый из этих трех аспектов значительно влияет на успех робототехники на рабочем месте и неизвестной среде.
Обобщение позволяет роботу принимать обширные знания Близнецов о мире и вещах, применить его к новым ситуациям и выполнять задачи, по которым он никогда не был обучен. В одном видео исследователи показывают пару роботов, контролируемых робототехникой Gemini, баскетбольной игрой на столе, и попросите его «ударить баскетбол».
Несмотря на то, что робот не видел игру раньше, он взял маленький оранжевый мяч и пробил его через пластиковую сеть.
Google Gemini Robotics также делает роботов более интерактивными и способными реагировать не только на изменение устных заданий, но и на непредсказуемые условия.
В другом видео исследователи попросили робота положить виноград в миску с бананами, но затем они переместили миску, в то время как рука робота приспосабливалась и все же удалось поставить виноград в миску.
Смотреть
Google также продемонстрировал ловкие возможности робота, которые позволяют ему заняться такими вещами, как игра в тик-нос на деревянной доске, стирание доски и складывание бумаги в оригами.
Вместо часов обучения по каждой задаче роботы реагируют на почти постоянные инструкции по естественному языку и выполняют задачи без руководства. Впечатляюще смотреть.
Естественно, добавление ИИ к робототехнике не нова.
В прошлом году Openai сотрудничал с фигурой AI для разработки гуманоида -робота, который может выполнять задачи на основе устных инструкций. Как и в случае с робототехникой Gemini, модель визуального языка рисунка 01 работает с речевой моделью Openai, чтобы участвовать в разговорах о задачах и изменяющихся приоритетах.
В демонстрации гуманоидный робот стоит перед блюдами и дренадой. Спросите о том, что он видит, что он перечисляет, но затем собеседник меняет задачи и просит что -нибудь поесть. Не пропустив ни одного удара, робот поднимает яблоко и передает ему его.
В то время как большая часть того, что Google показал в видео, было вынужденным роботом руками и руками, работая в широком спектре физических задач, есть более грандиозные планы. Google сотрудничает с Apploniks, чтобы добавить новую модель к своему роботу Apollo Humanoid.
Google подключит точки с дополнительным программированием, новой продвинутой моделью визуального языка под названием Gemini Robotics-Er (воплощенные рассуждения).
Gemini Robotics-Er будет улучшать пространственные рассуждения о робототехнике и должен помочь разработчикам роботов подключить модели к существующим контроллерам.
Опять же, это должно улучшить рассуждения на лечении и позволить роботам быстро выяснить, как понять и использовать незнакомые объекты. Google вызывает Gemini Rotbotics ER в сквозном решении и утверждает, что «может выполнять все шаги, необходимые для управления роботом прямо из коробки, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода».
Google предоставляет модель Gemini Robotics -er для нескольких фирм-робототехники, ориентированных на бизнес и исследования, включая Boston Dynamics (производители Atlas), гибкие роботы и гибкие роботы.
В целом, это потенциальный благо для разработчиков гуманоидной робототехники. Однако, поскольку большинство из этих роботов предназначены для заводов или до сих пор в лаборатории, может пройти некоторое время, прежде чем у вас есть робот с усиленным Близнецом в вашем доме.