Обучение роботов с помощью положительного подкрепления

Скорее всего, в мире нет института преподавателей отехники, активно занимающегося роботизированным обучением. В конце концов, эта отрасль является ключом к раскрытию большого потенциала отрасли. Одна из вещей, которая делает его таким замечательным, – это бесчисленное множество различных подходов, которые используют многие исследователи, чтобы раскрыть секреты помощи роботам в обучении с нуля.

В новой статье Университета Джона Хопкинса, носящей, по общему признанию, восхитительное название «Хороший робот», исследуется потенциал обучения через положительное подкрепление. Название происходит от анекдота автора Эндрю Хундта о том, как научить свою собаку не гоняться за белками. Я не буду здесь вдаваться в подробности – вы можете просто посмотреть это видео:

Но суть идеи состоит в том, чтобы предложить роботу какой-то стимул, когда он делает что-то правильно, а не сдерживание, когда он делает что-то неправильно. Для роботов стимулы представлены в виде системы подсчета очков – по сути, своего рода геймификации, которая награждает количество баллов за правильное выполнение задачи.

Кандидат наук говорит, что этот метод позволил значительно сократить время обучения задаче. «Робот хочет получить более высокий балл», – сказал Хундт в сообщении, посвященном исследованию. «Он быстро учится правильному поведению, чтобы получить лучшее вознаграждение. Фактически, для достижения 100% точности роботу требовался месяц практики. Мы смогли сделать это за два дня ».



Задачи по-прежнему довольно просты, включая складывание кирпичей и навигацию по видеоигре, но есть надежда, что будущие роботы смогут выполнять более сложные и полезные задачи реального мира.