Сергей Колесников из Tinkoff Research

Будущее ИИ: Сергей Колесников об индустриальной науке

В сентябре 2023 года Adobe представила генеративный сервис GenStudio, который запускает маркетинговые кампании. В феврале 2024-го вышла Sora — нейросеть от компании OpenAI, которая способна генерировать реалистичные видеоролики по текстовому запросу пользователя. Не прошло и месяца, как DeepMind показала ИИ-агента SIMA, который умеет играть в большие 3D-игры как человек.
«Медицинские услуги мы точно будем получать по-другому, потому что у нас будут персонализированные чат-боты. А рекомендательные системы научатся генерировать высококачественный контент под конкретного пользователя — вам выдадут персонализированную рекламу, а потом предложат нажать кнопку „купить“».
В будущем сложно будет найти такую сферу жизни человека, которую бы не изменил ИИ.
Как искусственный интеллект будет развиваться в обозримом будущем

ИИ всегда под рукой
Появятся персонализированные чат-боты, которые будут работать на смартфонах без доступа к интернету.

Еще больше контента
Развитие ИИ приведет к расцвету генеративного контента и улучшению его качества при снижении затрат на создание.

Более качественные рекомендации
Будут развиваться рекомендательные системы на основе ИИ — они станут более адаптивными и качественными.

Борьба с фейками
Распространение искусственного интеллекта ведет к увеличению объема дезинформации и фейков. Будет развиваться AI-кибербезопасность, которая поможет бороться с дипфейками.

Правовое ИИ-регулирование
Появятся новые правила по маркировке контента, созданного искусственным интеллектом, и авторскому праву, включая ИИ-этику.
Сергей Колесников, руководитель научно-исследовательской лаборатории Tinkoff Research
Сергей Колесников из Tinkoff Research

«Когда ты сталкиваешься с алгоритмом и не понимаешь, как его создать, появляется большое желание разобраться»

Путь Сергея в исследованиях ИИ был извилистым. Сначала будущий ученый поступил на факультет аэромеханики и летательной техники МФТИ, но, изучая самолеты, быстро понял, что не хочет долгие годы ждать, пока его изобретение пройдет все тестирования.
«В исследованиях самолетов есть нюанс. Я хотел дожить до результатов исследований, поэтому решил выбрать более динамичную область».
Этот курс так увлек Сергея, что он решил поступить в магистратуру с уклоном в машинное обучение (ML) на факультет инноваций и высоких технологий МФТИ. Так он оказался в IT, но вместо популярного программирования выбрал исследования.
Впервые с искусственным интеллектом Сергей столкнулся в МФТИ, когда участвовал в студенческом проекте по созданию авиасимуляторов.
«О проложении маршрутов самолетов я не знал ничего, поэтому разбирался со всем сам. Мне нужно было решить задачу поиска по графу. И тогда я наткнулся на занятный курс Калифорнийского университета в Беркли „Введение в искусственный интеллект“ (Introduction to AI). Его преподавал Питер Аббель, один из известнейших ученых в области ИИ».
«Компьютерные науки очень приятны скоростью итераций. Вам не надо ждать 20 лет, пока построится самолет. Но при этом здесь есть фундаментальная наука, теоремы тоже надо знать».

«Когда ты сталкиваешься с алгоритмом и не понимаешь, как его создать, обостряется любопытство и появляется большое желание разобраться. Думаю, именно это и завело меня в машинное обучение», — говорит Сергей.

«Догонять новые разработки в ИИ с каждым годом становится все сложнее»

R&D-отделы (исследования и разработки) развивают многие компании. Например, Google, Microsoft, Amazon и IBM, которые разрабатывают и внедряют передовые ИИ-решения в различных сферах. Может показаться, что бизнесу невыгодно инвестировать в то, что не гарантирует выручку здесь и сейчас. Тогда зачем коммерческим компаниям заниматься наукой?

Сергей считает, что сегодня крупным компаниям важно проводить свои научные исследования, потому что именно ученые могут предсказать будущее.
«Некоторые вопросы еще не важны индустрии, но уже значимы в академии. Можно предсказать тренды и направить разработки в нужное русло. Догонять новые разработки в ИИ с каждым годом становится чуть-чуть сложнее, надо работать на опережение. Поэтому важны исследования», — говорит ученый.
В 2020 году, когда в Тинькофф открывался Центр технологий искусственного интеллекта, Сергей предложил заниматься научно-исследовательской работой внутри компании. Так появилась лаборатория Tinkoff Research, цель которой — научные открытия и новые разработки в области ИИ.
«Продуктовая компания, конечно, хочет использовать наработки ученых. Но в исследовательской команде мы подобным не занимаемся. Для этого в лаборатории есть отдельные R&D-команды, которые работают на стыке исследований и продукта — адаптируют разные исследовательские наработки под технологические фреймворки (инструменты)», — рассказывает Сергей.
Машинное обучение (Machine Learning, ML)  — наука о том, как научить ИИ решать задачи на уровне, близком к человеческому. Благодаря ML искусственный интеллект может учиться, улучшать свои способности, делать выводы и принимать решения на основе предоставленных ему данных.
ИИ-словарь

«Ученый хочет, чтобы его работа повлияла на большее количество людей»

«Если ты просто выпустишь публикацию, которую никто не будет читать и использовать, то какой в ней смысл? Любая научная статья забирает много сил и времени, и логично, что ученый хочет, чтобы его работа повлияла на большее количество людей, а иначе зачем это все. Для этого нужны фактурные темы, значимые результаты и легкость воспроизведения», — говорит Сергей.
Воспроизводимость исследований обеспечивают как раз библиотеки с открытым исходным кодом.
Принцип открытого исходного кода (open-source) играет значимую роль в исследованиях в сфере искусственного интеллекта. Ученые все чаще делятся своими наработками с коллегами по цеху. Общими усилиями проще улучшать исходный код, и это способствует прогрессу.
«Меня несколько смущают научные статьи, где есть сильные заявления, но закрытая реализация, — говорит ученый. —Любая ML-задача — это огромное количество разных параметров, от архитектур моделей до способов агрегации метрик. Это некоторые предположения, которые ты закладываешь в свое исследование. А научная публикация — это 8−9 страниц, в которые нужно уместить идею, высказать все предположения, которые ты заключил в своем исследовании. Это сложно. Нюансы, о которых не говорилось в статье, могут быть очень значимы».
Открытый исходный код (open-source) — децентрализованный подход к разработке, при котором исходный код доступен для любого пользователя.
ИИ-словарь

«Мы не можем ориентироваться на дедлайны по конференциям»

Обучение с подкреплением (RL) — метод машинного обучения, при котором агент учится принимать последовательные решения в среде, чтобы максимизировать награду.

Обработка естественного языка (NLP) — направление в машинном обучении, благодаря которому компьютеры могут распознавать, обрабатывать и генерировать устную и письменную речь.

Рекомендательные системы (RecSys) — это комплекс алгоритмов, программ или сервисов, которые на основе персональных предпочтений человека рекомендуют ему контент, товары или услуги.
ИИ-словарь
  • Направление NLP с акцентом на поиск альтернативы архитектуре трансформеров.
  • RL в рекомендательных системах. Технология поможет побороть проблему «пузыря» в социальных сетях, основанного на прошлых предпочтениях пользователя, и дать ему пространство для исследования нового контента.
Актуальные направления исследований в области ИИ
  • Выравнивание языковой модели (alignment). Делает ИИ более человекоподобным, чтобы его поведение не противоречило этическим нормам, ценностям и предпочтениям человека.
  • Офлайн-обучение с подкреплением в RL. Широко используется в области обучения роботов и позволяет эффективно улучшить их навыки и стратегии на основе данных, собранных из предыдущих опытов без необходимости постоянного взаимодействия робота с окружающей средой.
  • Предсказания следующей корзины (next-basket-prediction). Благодаря этой разработке ИИ знает, какие товары вам порекомендовать в том или ином сервисе на основе ваших предпочтений.
  • Детекция аномалий в области компьютерного зрения. Технология позволяет обнаружить подозрительные объекты и события и может широко применяться в области безопасности, медицины, производства.
Искусственный интеллект развивается быстро, а исследования в области ИИ — еще быстрее.
«Мы не можем ориентироваться на дедлайны по конференциям — нам нужно действовать быстрее. Если мы достигаем какого-то результата, если мы получаем значимый результат, мы не ждем. Мы выкладываем их в открытый доступ и пишем в соцсетях о своих исследованиях. Надеяться и верить в ученых мужей с конференций, конечно, можно, но кажется, лучше действовать проактивно, ориентироваться на свои собственные дедлайны и не ждать конференций, потому что, например в NLP-исследованиях, сейчас очень большая конкуренция, а ждать — это очень долго».
Сейчас в лаборатории три основных группы, которые занимаются исследованиями в областях обучения с подкреплением, обработки естественного языка и компьютерного зрения. Также исследователи изучают рекомендательные системы и генеративный ИИ.

Штат команды — порядка 12 человек. Если учитывать студентов, то количество возрастает до 20.
Среди самых престижных конференций по ИИ и машинному обучению в мире — конференции уровня А: Neural Information Processing Systems (NeurIPS), International Conference on Machine Learning (ICML), ACM RecSys (Conference on Recommender Systems) и другие. За два года на них было принято более 20 научных работ лаборатории.
«Мы очень любим студентов. У нас есть наша любимая Tinkoff Lab (студенческая исследовательская лаборатория) на базе МФТИ. В нее мы берем ребят не только из МФТИ. У нас есть студенты из СПбГУ, МИСИС, ВШЭ, Иннополиса и даже из-за рубежа, например из Белоруссии и Казахстана. Если мы чувствуем синергию с ребятами, то всегда готовы сотрудничать», — рассказывает Сергей.
Конференции уровня А — одна из методик расчета показателей федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Neural Information Processing Systems (NeurIPS)  конференция и семинар по нейронным системам обработки информации.

International Conference on Machine Learning (ICML) — международная конференция по машинному обучению.

ACM RecSys (Conference on Recommender Systems) — международная конференция, на которой эксперты в области рекомендательных систем делятся своими наработками и исследованиями.
Сергей Колесников из Tinkoff Research
ChatGPT (ЧатДжиПиТи) — универсальный чат-бот от компании OpenAI, который может вести диалог, генерировать тексты разной сложности, искать ошибки в коде и даже сочинять стихи.

Sora (Сора) — нейросеть от компании OpenAI, которая способна генерировать реалистичные видеоролики по текстовому запросу пользователя.
SIMA (Scalable Instructable Multiworld Agent — масштабируемый, обучаемый, мультимировой агент) — нейросеть от Google, которая может научиться играть в любую нелинейную видеоигру.

GenStudio (ДженСтудио) — платформа с генеративными нейросетями, которая помогает запускать маркетинговые кампании.

«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»

«Надо просто не бояться, — говорит Сергей. — Пробовать, интересоваться и продолжать делать то, что нравится».
Как начать путь в исследованиях искусственного интеллекта? Не так сложно, как может показаться.
«Думаю, понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело. Есть такой занятный факт: я знаю довольно много примеров, когда аспирант защитился с серьезной темой, придумал новые модели архитектуры. И спустя два года подобные же задачи с его архитектурами давали уже школьникам для курсов по машинному обучению. Прошло всего два года, а как далеко продвинулся ИИ. А аспирантура и получение докторской занимают 3−6 лет».
«Тут редко что-то работает с первого раза, и надо быть готовым менять направления быстро, потому что другие исследовательские группы ждать тебя не будут, а исследования надо делать. Если ты работаешь в области с очень большой неопределенностью, то бесполезно заниматься чем-то, что тебя не вдохновляет».
Без интереса к своему делу — никак, ведь исследования в области искусственного интеллекта — сфера, в которой много неопределенного, говорит ученый.
При этом, чтобы заниматься научными исследованиями в лаборатории, научная степень не обязательна.