«RL — уже часть нашей жизни»
Метод обучения с подкреплением позволяет создавать системы на основе ИИ, которые могут принимать оптимальные решения в условиях неопределенности. Например, планировать маршрут доставки с учетом расстояния, тяжести груза и возможных пробок. Или оценивать спрос на товары, оптимизировать запасы продукции на складах и распределять их в местах хранения более эффективно. Методом RL можно обучать и промышленных роботов, которые занимаются сборкой и упаковкой товаров или обслуживанием оборудования на производстве.
По мнению Владислава, в скором будущем обучение с подкреплением будет широко внедряться в индустриальные процессы. «К примеру, есть первичные демонстрации, как можно управлять процессами в ядерной энергетике с помощью моделей RL. В научной литературе есть MVP (Minimal Viable Product), подтверждающий, что это работает. Сейчас запускаются стартапы, чтобы эту технологию внедрить в реальное производство», — говорит ученый.
«RL уже часть нашей жизни. Например, в Netflix, Google, Amazon и у нас в лаборатории этот метод используется для улучшения рекомендаций. Компании внедряют ИИ в свои продукты, а потом публикуют научные статьи, из которых видно, что RL действительно превосходит классические рекомендательные системы», — рассказывает Владислав.
Есть и более редкие примеры внедрения технологии RL. Новое
исследование Стэнфордского университета показало, что с помощью нее можно создавать персонализированные стратегии обучения школьников математике. Искусственный интеллект определил, в каком порядке наиболее эффективно изучать предметы, составил программу обучения для двоечников и троечников, и они вышли на уровень хорошистов и отличников.
Машинное обучение с подкреплением активно применяется и в рекомендательных системах.
Минимально жизнеспособный продукт (MVP) — первая версия IT-продукта с минимальным набором функций, необходимых для решения основной проблемы целевой аудитории. Идея MVP заключается в том, чтобы быстро запустить продукт на рынок, получить обратную связь от пользователей и на основе этой информации улучшать и дорабатывать его.
Обучение с подкреплением на основе моделей
(Model-based Reinforcement Learning)
Представьте себе робот-пылесос в вашей квартире. Сначала он проведет анализ обстановки, в которой находится: изучит планировку комнат и расположение мебели. А потом благодаря внутренней карте среды сможет выбирать пути движения.
RL на основе моделей вначале строит модель среды. Она позволяет программе или роботу предсказывать вознаграждения, полученные за те или иные действия. Так происходит выбор наиболее оптимальной стратегии поведения.
Обучение с подкреплением без моделей
(Model-free Reinforcement Learning)
Предположим, вы скачали фитнес-приложение, которое будет выдавать вам персональные рекомендации. Например, если вы поставите цель пробегать три километра каждый день и начнете достигать ее, приложение может награждать вас дополнительными бонусами и стимулировать продолжать тренировки. Со временем рекомендации подстроятся под вашу активность.
Это пример RL без заданной модели, которая приспосабливается к среде. Алгоритм в этом случае обучается на основе опыта, полученного в процессе взаимодействия со средой.
Алгоритмы RL можно разделить на две группы по наличию или отсутствию модели среды — обучение с подкреплением на основе моделей и без них.