Глубокое обучение с подкреплением изменит производство, каким мы его знаем

Если вы идете по улице и выкрикиваете названия каждого увиденного объекта – мусоровоз! велосипедист! смоковницу! – большинство людей не сочтут вас умным. Но если вы пройдете полосу препятствий и покажете им, как пройти серию испытаний, чтобы добраться до конца невредимым, они это сделают.

Большинство алгоритмов машинного обучения выкрикивают имена на улице. Они выполняют задачи восприятия, которые человек может выполнить менее чем за секунду. Но другой вид ИИ – глубокое – является стратегическим. Он узнает, как выполнить серию действий для достижения цели. Это мощный и умный подход, который изменит многие отрасли.

Две отрасли, находящиеся на пороге трансформации ИИ, – это производство и цепочка поставок. То, как мы производим и отправляем товары, в значительной степени зависит от групп машин, работающих вместе, а эффективность и отказоустойчивость этих машин являются основой нашей экономики и общества. Без них мы не сможем купить самое необходимое, чтобы жить и работать.

Такие стартапы, как Covariant, Ocado's Kindred и Bright Machines, используют машинное обучение и обучение с подкреплением, чтобы изменить способ управления машинами на фабриках и складах, решая чрезвычайно сложные задачи, такие как заставить роботов обнаруживать и собирать объекты различных размеров и форм из контейнеров, среди прочего. Они атакуют огромные рынки: рынок промышленного контроля и автоматизации в прошлом году оценивался в 152 миллиарда долларов, а автоматизация логистики оценивалась более чем в 50 миллиардов долларов.

Глубокое обучение с подкреплением неизменно дает результаты, недоступные другим инструментам машинного обучения и оптимизации.



Как технологу вам нужно много вещей, чтобы глубокое обучение с подкреплением работало. В первую очередь следует подумать о том, как заставить своего агента глубокого обучения с подкреплением практиковать навыки, которые вы хотите, чтобы он приобрел. Есть только два пути – с реальными данными или с помощью моделирования. У каждого подхода есть своя задача: данные необходимо собирать и очищать, а моделирование – создавать и проверять.

Несколько примеров проиллюстрируют, что это означает. В 2016 году GoogleX рекламировал свои роботизированные «фермы рук» – пространства, заполненные роботизированными руками, которые учились схватывать предметы и учить других делать то же самое – что было одним из первых способов для алгоритма обучения с подкреплением отрабатывать свои движения в реальной среде. и измерить успех его действий. Этот цикл обратной связи необходим для обучения целенаправленному алгоритму: он должен принимать последовательные решения и видеть, к чему они приводят.

Во многих ситуациях невозможно создать физическую среду, в которой может обучаться алгоритм обучения с подкреплением. Предположим, вы хотите протестировать различные стратегии для маршрутизации парка из тысяч грузовиков, перевозящих товары со многих заводов во многие торговые точки. Было бы очень дорого тестировать все возможные стратегии, и эти тесты не только стоили бы денег, но и неудачные запуски привели бы к большому количеству недовольных клиентов.

Для многих больших систем единственный возможный способ найти лучший путь действия – это моделирование. В таких ситуациях вы должны создать цифровую модель физической системы, которую хотите понять, чтобы генерировать потребности в обучении с подкреплением данных. Эти модели поочередно называются цифровыми двойниками, симуляциями и средами обучения с подкреплением. По сути, все они означают одно и то же в приложениях для производства и цепочки поставок.

Для воссоздания любой физической системы требуются специалисты в предметной области, которые понимают, как эта система работает. Это может быть проблемой для таких небольших систем, как единый центр выполнения, по той простой причине, что люди, которые построили эти системы, могли уйти или умереть, а их преемники научились работать, но не реконструировали их.

Многие программные инструменты моделирования предлагают интерфейсы с низким уровнем кода, которые позволяют экспертам в предметной области создавать цифровые модели этих физических систем. Это важно, потому что опыт в предметной области и навыки разработки программного обеспечения часто не могут быть найдены в одном и том же человеке.

Зачем вам все эти проблемы из-за единственного алгоритма? Потому что глубокое обучение с подкреплением постоянно дает результаты, недоступные другим инструментам машинного обучения и оптимизации. Конечно, DeepMind использовала его, чтобы обыграть чемпиона мира по настольной игре го. Обучение с подкреплением было частью алгоритмов, которые были неотъемлемой частью достижения прорывных результатов в шахматах, сворачивании белков и играх Atari. Точно так же OpenAI обучил глубокому обучению с подкреплением, чтобы побеждать лучшие человеческие команды в Dota 2.

Подобно тому, как глубокие искусственные нейронные сети начали находить бизнес-приложения в середине 2010-х годов, после того, как Джеффри Хинтон был нанят Google, а Ян ЛеКун – Facebook, глубокое обучение с подкреплением будет иметь все большее влияние на отрасли. Это приведет к количественным улучшениям в робототехнике и управлении системами в том же порядке, что и в Go. Это будет лучшее, что у нас есть, и, по большому счету,.

Следствием этих достижений будет огромное повышение эффективности и снижение затрат при производстве продукции и действующих цепочках поставок, что приведет к сокращению выбросов углерода и несчастных случаев на рабочих местах. И, чтобы быть ясным, узкие места и проблемы физического мира окружают нас повсюду. Только за последний год наши общества пострадали от многочисленных сбоев в цепочке поставок из-за COVID, блокировок, катастрофы на Суэцком канале и экстремальных погодных явлений.

Если говорить о COVID, то даже после того, как вакцина была разработана и одобрена, у многих стран возникли проблемы с ее производством и быстрым распространением. Это проблемы производства и цепочки поставок, которые связаны с ситуациями, к которым мы не могли подготовиться с использованием исторических данных. Им требовалось моделирование, чтобы предсказать, что произойдет, а также как лучше всего справиться с кризисами, когда они действительно возникают, как показал Майкл Льюис в своей недавней книге «Предчувствие».

Именно такое сочетание ограничений и новых проблем, возникающих на предприятиях и в цепочках поставок, может помочь нам быстрее решить обучение с подкреплением и моделирование. И мы обязательно столкнемся с ними в будущем.