Собака-робот научилась ходить за час

Новорожденный жираф или жеребенок должен как можно быстрее научиться ходить на ногах, чтобы избежать хищников. Животные рождаются с сетью координации мышц, расположенной в их спинном мозге. Однако обучение точной координации мышц и сухожилий ног требует некоторого времени. Первоначально детеныши животных в значительной степени полагаются на запрограммированные рефлексы спинного мозга. Рефлексы управления движением, хотя и более простые, помогают животному избежать падения и травм во время первых попыток ходьбы. Необходимо практиковать следующий, более продвинутый и точный контроль мышц, пока в конце концов нервная система не будет хорошо адаптирована к мышцам и сухожилиям ног молодого животного. Больше никаких неконтролируемых спотыканий — молодое животное теперь может не отставать от взрослых.


Исследователи из Института интеллектуальных систем Макса Планка (MPI-IS) в Штутгарте провели исследование, чтобы выяснить, как животные учатся ходить и учатся спотыкаться. Они построили четвероногого а размером с собаку, который помог им разобраться в деталях.

«Как инженеры и робототехники, мы искали ответ, создавая робота, который обладает рефлексами, как у животных, и учится на ошибках», — говорит Феликс Рупперт, бывший докторант исследовательской группы Dynamic Locomotion в MPI-IS. «Если животное спотыкается, является ли это ошибкой? Нет, если это происходит один раз. Но если оно спотыкается часто, это дает нам представление о том, насколько хорошо робот ходит».

Феликс Рупперт — первый автор книги «Обучение пластическому согласованию динамики роботов в центральных генераторах моделей с замкнутым контуром», который будет опубликован 18 июля 2022 года в журнале Nature Machine Intelligence.

Алгоритм обучения оптимизирует виртуальный спинной мозг

Научившись ходить всего за час, робот Руперта успешно использует сложную механику ног. Алгоритм байесовской оптимизации направляет обучение: измеренная информация датчика стопы сопоставляется с целевыми данными из смоделированного виртуального спинного мозга, работающего как программа на компьютере робота. Робот учится ходить, постоянно сравнивая отправленную и ожидаемую информацию от датчиков, запуская рефлекторные циклы и адаптируя свои модели управления двигателем.

Алгоритм обучения адаптирует параметры управления центрального генератора шаблонов (CPG). У людей и животных эти центральные генераторы паттернов представляют собой сети нейронов в спинном мозге, которые производят периодические мышечные сокращения без участия головного мозга. Сети центрального генератора паттернов помогают генерировать ритмические задачи, такие как ходьба, моргание или пищеварение. Более того, рефлексы — это непроизвольные действия по управлению моторикой, запускаемые жестко закодированными нервными путями, которые соединяют датчики в ноге со спинным мозгом.

Пока молодое животное ходит по идеально плоской поверхности, CPG может быть достаточно для управления сигналами движения от спинного мозга. Однако небольшая неровность на земле меняет походку. Рефлексы включаются и регулируют движения, чтобы животное не упало. Эти мгновенные изменения в сигналах движения обратимы или «эластичны», и модели движения возвращаются к своей первоначальной конфигурации после нарушения. Но если животное не перестает спотыкаться на протяжении многих циклов движения, несмотря на активные рефлексы, то паттерны движения необходимо переучивать и делать «пластичными», т. е. необратимыми. У новорожденного животного ЦПГ изначально еще недостаточно отрегулированы, и животное спотыкается как на ровной, так и на неровной местности. Но животное быстро усваивает, как его CPG и рефлексы контролируют мышцы ног и сухожилия.

То же самое относится и к роботу-собаке размером с лабрадора по имени Морти. Более того, робот оптимизирует свои движения быстрее, чем животное, примерно за час. CPG Морти моделируется на небольшом и легком компьютере, который управляет движением ног робота. Этот виртуальный спинной мозг помещается на спину четвероногого робота, где должна быть голова. В течение часа, необходимого роботу для плавной ходьбы, данные датчика от ног робота постоянно сравниваются с ожидаемым приземлением, предсказанным CPG робота. Если робот спотыкается, алгоритм обучения меняет то, как далеко ноги качаются вперед и назад, как быстро качаются ноги и как долго нога находится на земле. Скорректированное движение также влияет на то, насколько хорошо робот может использовать свою податливую механику ног. В процессе обучения CPG посылает адаптированные двигательные сигналы, чтобы робот впредь меньше спотыкался и оптимизировал свою походку. В этой структуре виртуальный спинной мозг не имеет явных знаний о конструкции ног робота, его двигателях и пружинах. Ничего не зная о физике машины, ему не хватает «модели» робота.