Владислав Куренков из Tinkoff Research

Как ИИ учится на ошибках: исследования ученых в области RL

В 2019 году нейросеть OpenAI Five обыграла профессиональных киберспортсменов в Dota 2. Еще через год программа MuZero превзошла человека в шахматах, го и видеоиграх Atari. В обоих случаях искусственный интеллект тренировали с помощью метода машинного обучения с подкреплением (Reinforcement Learning, RL). Сегодня это одна из самых популярных областей исследования ИИ.
«Я увидел видео, как RL играет в игры Atari и подумал: ‎„Здорово, очень крутая технология. Если так можно обучить программу играть в компьютерные игры, что же еще сделать с помощью этой технологии? Может, обучать роботов?“».
Владислав заинтересовался RL-алгоритмами еще на третьем курсе факультета компьютерных наук университета Иннополис. Окончив вуз, он присоединился к лаборатории научных исследований искусственного интеллекта. Это было весной 2021 года — тогда она только запускалась.

Одним из направлений научных изысканий стал как раз RL. «Нам виделось, что будущее в ближайшие 2−3 года за офлайн-обучением с подкреплением», — говорит Владислав. И правда: сегодня методом RL обучаются не только чат-боты вроде ChatGPT, но и роботы, беспилотные автомобили, дроны.
Что такое обучение с подкреплением, и как оно работает

Обучение с подкреплением, или RL — метод машинного обучения, при котором агент (например, программа или робот) учится принимать последовательные решения в среде, чтобы максимизировать награду.

Как работает технология
Принцип работы RL можно сравнить с тем, как ребенок методом проб и ошибок учится ходить или кататься на велосипеде. Так же агент изучает окружающую среду, совершает определенные действия и получает обратную связь в виде наград или штрафов. Цель ребенка — научиться ходить или кататься на велосипеде. Намерение агента — научиться принимать оптимальные решения и получить максимальную награду в долгосрочной перспективе.
ИИ-словарь
Владислав Куренков, научный руководитель команды обучения с подкреплением в Tinkoff Research

«RL — уже часть нашей жизни»

Метод обучения с подкреплением позволяет создавать системы на основе ИИ, которые могут принимать оптимальные решения в условиях неопределенности. Например, планировать маршрут доставки с учетом расстояния, тяжести груза и возможных пробок. Или оценивать спрос на товары, оптимизировать запасы продукции на складах и распределять их в местах хранения более эффективно. Методом RL можно обучать и промышленных роботов, которые занимаются сборкой и упаковкой товаров или обслуживанием оборудования на производстве.

По мнению Владислава, в скором будущем обучение с подкреплением будет широко внедряться в индустриальные процессы. «К примеру, есть первичные демонстрации, как можно управлять процессами в ядерной энергетике с помощью моделей RL. В научной литературе есть MVP (Minimal Viable Product), подтверждающий, что это работает. Сейчас запускаются стартапы, чтобы эту технологию внедрить в реальное производство», — говорит ученый.
«RL уже часть нашей жизни. Например, в Netflix, Google, Amazon и у нас в лаборатории этот метод используется для улучшения рекомендаций. Компании внедряют ИИ в свои продукты, а потом публикуют научные статьи, из которых видно, что RL действительно превосходит классические рекомендательные системы», — рассказывает Владислав.
Есть и более редкие примеры внедрения технологии RL. Новое исследование Стэнфордского университета показало, что с помощью нее можно создавать персонализированные стратегии обучения школьников математике. Искусственный интеллект определил, в каком порядке наиболее эффективно изучать предметы, составил программу обучения для двоечников и троечников, и они вышли на уровень хорошистов и отличников.
Машинное обучение с подкреплением активно применяется и в рекомендательных системах.
Минимально жизнеспособный продукт (MVP) — первая версия IT-продукта с минимальным набором функций, необходимых для решения основной проблемы целевой аудитории. Идея MVP заключается в том, чтобы быстро запустить продукт на рынок, получить обратную связь от пользователей и на основе этой информации улучшать и дорабатывать его.
ИИ-словарь
Обучение с подкреплением на основе моделей
(Model-based Reinforcement Learning)

Представьте себе робот-пылесос в вашей квартире. Сначала он проведет анализ обстановки, в которой находится: изучит планировку комнат и расположение мебели. А потом благодаря внутренней карте среды сможет выбирать пути движения.

RL на основе моделей вначале строит модель среды. Она позволяет программе или роботу предсказывать вознаграждения, полученные за те или иные действия. Так происходит выбор наиболее оптимальной стратегии поведения.
ИИ-словарь
Обучение с подкреплением без моделей
(Model-free Reinforcement Learning)

Предположим, вы скачали фитнес-приложение, которое будет выдавать вам персональные рекомендации. Например, если вы поставите цель пробегать три километра каждый день и начнете достигать ее, приложение может награждать вас дополнительными бонусами и стимулировать продолжать тренировки. Со временем рекомендации подстроятся под вашу активность.

Это пример RL без заданной модели, которая приспосабливается к среде. Алгоритм в этом случае обучается на основе опыта, полученного в процессе взаимодействия со средой.
Алгоритмы RL можно разделить на две группы по наличию или отсутствию модели среды — обучение с подкреплением на основе моделей и без них.
Владислав Куренков из Tinkoff Research

«Отношение к ИИ меняется благодаря научной работе»

Несмотря на множество сфер применения, к обучению с подкреплением сохраняется недоверие.
«Индустрия — основной источник скепсиса по отношению к RL, — говорит Владислав. — Обучение с подкреплением давно пробовали применять в реальных продуктах, но это в 99% случаев не получалось, и выводы специалистов сводились к тому, что „ага, мы попробовали, модель не работает, значит, пробовать больше не будем“‎. На самом деле не получалось банально из-за недостатка компетенций. Все потому, что область относительно новая и развивающаяся».
Так, например, команда Владислава в лаборатории создала алгоритм ReBRAC, который делает обучение ИИ в разы быстрее. Ученые пересмотрели и упростили свою более раннюю разработку — алгоритм SAC-RND. Результаты исследования были представлены на ведущей научной конференции в области ИИ и машинного обучения NeurIPS в декабре 2023 года.
В академическом сообществе еще 5−6 лет назад не любили RL, потому что ранние алгоритмы не гарантировали отличный перформанс и стабильную работу систем управления, объясняет Владислав. Оценка качества алгоритмов RL — также одна из ключевых проблем в этой области, поскольку часто алгоритмы не тестируют на реальных данных, и, соответственно, нет возможности подтвердить их эффективность на практике.

Однако, по словам Владислава, в научной среде и в индустрии отношение к RL сильно изменилось за последние годы, так как стало больше успешных случаев применения алгоритмов в офлайне.
«Отношение к RL меняется во многом благодаря научной работе в этой области. Благодаря исследованиям появляются новые алгоритмы, которые гораздо проще применять в реальных условиях», — рассказывает Владислав.
ReBRAC (Revisited Behavior Regularized Actor Critic) — пересмотренный актор-критик с контролируемым поведением.

NeurIPS (The Conference and Workshop on Neural Information Processing Systems) — конференция и семинар по нейронным системам обработки информации.

«Есть запрос на создание большой базовой модели»

«В сообществе как ученых, так и специалистов, явно есть запрос на создание большой базовой модели (Foundation Model). Такой, которая могла бы легко адаптироваться и учиться выполнять новые задачи», — говорит Владислав.
Подобные разработки могут использоваться, например, в рекомендательных системах, которые сейчас подстраиваются под интересы пользователя и часто не оставляют ему возможности для самостоятельного исследования и поиска интересного контента. Адаптивные агенты и мета-обучение с подкреплением могут помочь пользователю находить новый контент. Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе.
Представьте, что у вас есть ChatGPT, который умеет не только общаться, но и решать целый пул других задач. Именно о подобной разработке мечтают современные ИИ-исследователи. Такая модель, по словам ученого, сможет и роботом управлять, и товары рекомендовать, и в игры играть, и давать персонализированные стратегии обучения, и низкоуровневые системы управления оптимизировать.

Еще одно преимущество такого алгоритма — его не нужно каждый раз обучать под конкретную задачу, потому что он сам обучается в процессе взаимодействия со средой. По-другому такие модели называют адаптивными агентами или мета-обучением с подкреплением.
«Лаборатория делает ставку на исследования в этой области. Мы думаем о том, как создавать адаптивных агентов и базовые модели», — рассказывает Владислав.
Информационный пузырь, или пузырь фильтров (Filter bubble) — это негативная сторона персонализированного поиска, при которой человек окружен только той информацией, которая не противоречит его точке зрения. Со временем пользователь становится интеллектуально изолированным в своем собственном информационном пузыре. Этот термин впервые предложил американский предприниматель и активист Эли Паризер в 2011 году.
ИИ-словарь

«Если исследователь написал статью и не поделился кодом, то пользы от нее мало»

«Если исследователь написал статью и не поделился кодом, то пользы от нее мало. Чтобы область быстрее развивалась, нужно вместе со статьей выкладывать исходный код. Это сильно упрощает жизнь других исследователей».
В области онлайн-обучения с подкреплением есть Stable-Baselines3, CleanRL, JaxRL и другие библиотеки c открытым исходным кодом. Их становится все больше. При этом в смежной сфере офлайн-RL таких библиотек меньше. Один из немногих примеров — библиотека CORL (Сlean Offline RL), созданная учеными из Tinkoff Research.

На GitHub можно не только скачать код, но и совместно работать над проектами с другими разработчиками и комментировать их алгоритмы.
Открытые библиотеки когда-то подарили миру Opera, Google Chrome и операционную систему Android. Инновации распространились быстро и стали частью нашей повседневности, потому что основаны на разработках с неограниченным доступом — браузере Chromium и ядре Linux. А сегодня обмен разработками помогает ИИ развиваться с молниеносной скоростью.

Наука в сфере искусственного интеллекта невозможна без открытого доступа к исходному коду, считает Владислав:
«Бывало, в наш репозиторий с исходным кодом приходили коллеги из Стэнфорда и Беркли и говорили: „Смотрите, а здесь можно исправить, а там небольшой баг — если поправить, перформанс будет еще лучше“», — рассказывает Владислав.
По его словам, общий доступ к коду имеет накопительный эффект. Открытость не только повышает качество отдельных исследовательских работ, но и ускоряет научный прогресс в области искусственного интеллекта в целом.
Репозиторий — облачное хранилище данных, которые можно свободно использовать и изучать. Там программисты совместно работают над проектами и обмениваются знаниями. Примеры: GitHub, GitLab и Launchpad.
ИИ-словарь
Открытый исходный код (open-source) — децентрализованный подход к разработке, при котором исходный код доступен для любого пользователя.
ИИ-словарь

«Работа исследователя требует определенной ментальной закалки»

«Моя задача как научного руководителя — передавать знания студентам так, чтобы они в итоге росли, могли самостоятельно писать научные статьи и ставить эксперименты. Мы растим новое поколение ученых в своей области».
В каком направлении развить исследование, как найти проблему, которая будет интересна научному и бизнес-сообществу, и, наконец, какие потенциальные применения алгоритмов могут быть на практике — вот некоторые вопросы, которыми задаются исследователи ИИ.

Владислав также курирует научную работу в лаборатории и помогает молодым ученым находить ответы:
«95% гипотез исследователя не сработают. Тут нужна определенная ментальная закалка, чтобы не грустить от этого. Важно помнить: 6−7 идей не сработают, а восьмая выстрелит. Ученому нужно быть устойчивым к провалам. Как научный руководитель я психологически поддерживаю своих студентов. Я говорю: „Если что-то не работает — это ок. Это не твоя вина. Просто наука так устроена“», — объясняет Владислав.
На вопрос, кто может стать исследователем в области RL, а кто нет, Владислав ответил, что профильное образование — не главное. Принципиально, чтобы были знания в нужной области ИИ и понимание, как внедрять технологии в реальные системы.

Однако самый главный компонент успеха — мотивация.
Владислав Куренков из Tinkoff Research
Stable-Baselines3 (Стэйбл-Бэйслайнс3), CleanRL (КлинЭрЭл), JaxRL (ДжаксЭрЭл), CORL (КОРЛ) — библиотеки с открытым исходным кодом.

GitHub (ГитХаб) GitLab (ГитЛаб) и Launchpad (Лаунчпад) — репозитории для совместной работы над проектами.