Даниил Гаврилов из Tinkoff Research

Как ИИ учится понимать человеческую речь: исследования ученых в области NLP

Поисковые системы Google и Яндекс‎, виртуальные ассистенты Siri и «Алиса», чат-боты и нейросети — все эти технологии понимают человеческую речь и могут отвечать на наши запросы. Их работа была бы невозможна без машинного обучения в области обработки естественного языка (Natural Language Processing, NLP).
Что такое обработка естественного языка

Обработка естественного языка, или NLP — это направление в машинном обучении (ML) на стыке компьютерных наук и лингвистики. NLP позволяет компьютерам распознавать, обрабатывать и генерировать устную и письменную речь.

Как работает технология
Принцип обработки естественного языка можно сравнить с тем, как ребенок учится говорить. Для начала ему нужно понять обращенную к нему речь. Чем больше на этом этапе с ним будут общаться, тем лучше. Постепенно у ребенка формируется словарный запас. Так же обучается NLP-модель: в нее загружают большие данные в виде последовательности токенов, которые она постепенно учится понимать и анализировать.

Токены — слова, символы, числа или другие элементы текста, которые модель использует для анализа и обработки информации.
ИИ-словарь
Даниил Гаврилов, научный руководитель команды обработки естественного языка в Tinkoff Research

«Даже поиск информации может быть автоматизирован»

Уже сейчас обработка естественного языка помогает анализировать отзывы клиентов, финансовые отчеты и другие тексты с большим объемом данных. Благодаря NLP роботы понимают речь (вплоть до интонации говорящего) и генерируют ответы. В обозримом будущем инноваций станет еще больше.
«Когда не было ChatGPT и существовал Google, если нам нужно было найти информацию, мы просто вбивали наш запрос в поисковую строку и ходили какое-то время по страницам в Сети. Оказалось, что даже процесс хождения по интернету и поиск информации могут быть автоматизированы. Мы можем написать запрос человеческим языком и получить короткую выжимку из сотен интернет-страниц. Нам больше не нужно самостоятельно искать информацию. В будущем поиск будет устроен иначе».
NLP уже изменил и продолжит менять процесс поиска информации.

«Я понимал, что могу прийти в компанию и начать заниматься исследованиями с гораздо большей свободой, не тратя годы на получение регалий»

Даниил Гаврилов заинтересовался машинным обучением еще на первом курсе факультета прикладной математики — процессов управления Санкт-Петербургского государственного университета.
«В то время я писал мобильные приложения, а мои знакомые занимались машинным обучением. В 2015 году глубокое обучение (Deep Learning, DL) было на очень большом подъеме. Мне понравилось, что это новая сложная область и при этом очень наукоемкая — там развивались исследования. Я для себя очень быстро понял, что хочу заниматься разработкой новых методов машинного обучения, которых раньше не было, — рассказывает Даниил. — Когда я позже устроился на работу ML-инженером и у меня появилась возможность работать со студентами и писать свои первые научные статьи, я убедился в том, что это правда очень интересное занятие».
После окончания университета Даниил мог бы выбрать более распространенную траекторию для ученого: пойти работать в научную лабораторию при университете. Но вместо этого он устроился в исследовательский отдел коммерческой компании.
«На старте очень непонятно, как начать заниматься исследованиями в области искусственного интеллекта. Кажется, что для этого обязательно нужно получить степень доктора наук — умудриться учиться и при этом как-то себя содержать. Классический путь — очень непонятный и непростой. Я понимал, что могу прийти в компанию и начать заниматься исследованиями с гораздо большей свободой, не тратя годы на получение регалий», — говорит ученый.
Трансформер — это вид нейросетевой архитектуры, который хорошо подходит для обработки последовательностей данных, например текста.

Как это работает
Представьте, что вы попросили искусственный интеллект продолжить предложение. Как ИИ предскажет следующее слово? Он может последовательно проанализировать все слова в предложении и, получив представление о смысле одного слова, предсказать следующее. Так работают рекуррентные нейронные сети.
Нейросеть-трансформер устроена иначе: она смотрит на контекст, на то, как связаны по смыслу все слова со всеми словами, и на основе этих связей подбирает следующее слово в предложении. Поэтому нейросети на основе трансформеров лучше понимают подтекст и генерируют более глубокий и связный текст.

Обучение с подкреплением
(Reinforcement Learning, RL) — метод машинного обучения, при котором агент учится принимать последовательные решения в среде, чтобы максимизировать награду.
ИИ-словарь

«Обработка естественного языка стала фронтиром глубокого обучения»

Революцию в области глубокого обучения совершили ученые. Сфера сильно изменилась, когда были придуманы новые методы анализа и обработки естественного языка. Так, в 2017 году исследователи из Google Brain разработали архитектуру трансформер (transformer), которая пришла на смену рекуррентным нейронным сетям (RNN). В результате искусственный интеллект стал более производительным: он научился обрабатывать входные данные параллельно, а не последовательно. Благодаря этому научному открытию сегодня у нас есть GPT-4 от OpenAI, Gemini от Google и другие большие языковые модели.
«Успехи в NLP очень явно меняют жизнь людей к лучшему. С выходом ChatGPT все поняли, насколько большой пласт задач может быть выражен и решен в текстовом формате. Эта безумная практичность в свое время привела в NLP много разработчиков и исследователей, а сама обработка естественного языка стала фронтиром глубокого обучения — все те разработки, которые продвинули ее вперед в 2016−2018 годах, сейчас доходят до других областей. Можно сказать, что сам по себе текст в NLP не так важен, как методы работы с ним — улучшения в NLP либо очень сильно продвинут нас в понимании всего глубокого обучения искусственного интеллекта прямо сейчас, либо сделают это в обозримом будущем», — говорит Даниил.
Сегодня на обработке естественного языка сосредоточены самые крупные мировые компании и лаборатории. Большая часть статей на ведущих конференциях по машинному обучению, таких как NeurIPS, посвящена NLP.
Появление ChatGPT еще раз всколыхнуло и без того бурно развивающуюся сферу. Стало очевидно: прорывы в области машинной обработки естественного языка напрямую влияют на то, как мы работаем с информацией.
Большие языковые модели (Large Language Model, LLM) обучаются на огромных объемах данных. Они основаны на трансформере — нейронной сети, которая извлекает информацию из последовательности текста и понимает связи между отдельными словами и фразами.
ИИ-словарь
«Конкуренция между лабораториями зашкаливает, над одной темой одновременно могут работать многие исследовательские группы. С огромной долей вероятности вы однажды проснетесь утром и увидите, как вашу идею опубликовал кто-то другой. В будущем будет появляться еще больше игроков в этой гонке», — объясняет ученый.
Работа с данными

  • Сбор данных. Данные могут быть собраны из открытых источников или закрытых (например, обезличенные данные о пользователях какого-то сервиса). ChatGPT тоже обучался на большом массиве текстов из Сети.
  • Предварительная обработка данных. Данные очищают от лишних символов и приводят к единообразию. Текст токенизируют, то есть разделяют на отдельные единицы (токены). Токеном может быть как целое слово, так и его часть.
  • Разметка данных. Каждому фрагменту текста или слову (токену) присваивается метка, которая его характеризует. Например, если цель обучить модель понимать тональность повествования, то фрагментам текста присваиваются метки, описывающие тон как «положительный», «отрицательный» или «нейтральный».
  • Перевод данных в числа. Чтобы языковая модель поняла человеческую речь, токены переводят в числа. После этого модель можно обучать.
Как создать NLP-модель
Обучение модели

Заключительный этап работы в NLP — обучение модели на полученных данных с помощью специальных алгоритмов. Их пишут с нуля или используют готовые из библиотеки Hugging Face Transformers. Алгоритмы распознают данные, обрабатывают их и делают выводы.
Работу над моделью по обработке естественного языка можно разделить на два этапа. На первом — собирают и подготавливают данные (например, корпус текстов). На втором — обучают модель на собранных данных с помощью специальных алгоритмов.
Говоря про конкуренцию между крупными и небольшими исследовательскими группами, Даниил отметил, что исследовательских вопросов много — главное выбрать неочевидный ракурс:
«Мы стараемся выбирать неочевидные направления, в которые, возможно, копает чуть меньше групп, но которые, как нам кажется, могут быть намного перспективнее. Так мы можем обойти большие лаборатории на повороте. Высокая конкуренция, вызванная вниманием к области, значит, что реальные достижения обязательно будут замечены. Есть реальная возможность сделать интересные исследования, и их увидят все».
NeurIPS (The Conference and Workshop on Neural Information Processing Systems) — конференция и семинар по нейронным системам обработки информации.
Даниил Гаврилов из Tinkoff Research

«Лаборатории и компании побежали пытаться повторить результат OpenAI»

Самые большие прорывы в области NLP последних лет сделаны компанией, которая не показывает исходный код. OpenAI не раскрывает подробности, как именно устроена модель ChatGPT и другие разработки из соображений коммерческой безопасности.
«Я верю, что наука — это только про открытые и воспроизводимые исследования. Все остальное — это что угодно, но не наука. С другой стороны, делает ли это закрытые исследования менее важными? Как минимум, все остальные лаборатории и компании побежали пытаться повторить результат OpenAI», — говорит ученый.
По словам Даниила, закрытость исследований и сосредоточенность OpenAI на прибыли позволяют привлечь большие инвестиции, которые расширяют границы дозволенного в NLP. То, что они показали со своими моделями, убедило, что мы еще даже не рядом с нашим пределом, огромное число людей, которые думали, что мы достигли всего чего могли. Это, в свою очередь, конечно, принесло больше ресурсов и в открытую науку, что не может не радовать.

«Видеокарты не бесконечны»

«Старые языковые модели могли обработать несколько тысяч токенов (токен — чуть меньше одного слова). 2 тысячи токенов — не очень длинный текст. ChatGPT показал, что можно обрабатывать десятки тысяч таких токенов. Современные модели могут обрабатывать еще больше токенов, вплоть до миллиона», — говорит ученый.
При этом обучить языковую модель уровня GPT-5 может не любая исследовательская группа — для этого нужны большие вычислительные мощности.
Вместе с ChatGPT появился тренд на ИИ, который умеет обрабатывать длинные тексты.
«Можно предположить с большой долей уверенности, что у исследовательской команды в тысячу сотрудников просто очень много видеокарт. Это главное отличие крупных лабораторий от небольших исследовательских групп, — рассказывает Даниил. — Поэтому один из наших важнейших исследовательских треков — повышение эффективности работы моделей. Видеокарты не бесконечны. Нам приходится думать, как проводить исследования при ограниченном объеме вычислительных ресурсов».
Ученые из лаборатории Tinkoff Research опубликовали статью, в которой показали, как научить языковую модель работать с длинными контекстами и при этом обучаться — черпать новые знания и информацию из контекста и учиться на небольшом количестве примеров (методом few-shot learning).
«Сейчас много интересных работ, которые исследуют поведение моделей, — рассказывает Даниил. — Ученые пытаются понять, какие процессы происходят внутри моделей. Есть подозрение, что few-shot learning, который происходит в ChatGPT, на самом деле можно применять не только в области генерации текстов, но и во многих других областях, в том же RL или RecSys».
Обучение на нескольких примерах (Few-Shot Lеarning, FSL) — подход в машинном обучении, при котором ИИ обучается на небольшом количестве данных, быстрее и с меньшими затратами.
ИИ-словарь

«Чтобы не произошло восстание машин, нужен alignment»

«Это область, в которой исследователи пытаются сделать так, чтобы модели вели себя этично по отношению к людям. Грубо говоря, чтобы искусственный интеллект вел себя хорошо, чтобы не произошло восстание машин. Исследователи занимаются этой областью, потому что понимают: нельзя выпускать в мир модели, которые никак не ограничены в том, что они делают. Мы понимаем, что это небезопасно. Ведь модель может как угодно ответить человеку. Это очень горячая область, она очень молодая и в ней непаханое поле работы. В этой сфере подкупает то, что она практичная — улучшение методов alignment напрямую влияет на то, насколько будет удобно пользоваться моделями. Многие исследователи смотрят в эту сторону, и мы в лаборатории тоже», — объясняет Даниил.
После выхода ChatGPT крупные компании, которые разрабатывают подобные нейросети, осознали важность их выравнивания. Так, в 2023 году OpenAI запустила программу Superalignment. Ее цель — найти новый технологичный способ контролировать системы ИИ, которые уже в этом десятилетии станут гораздо умнее человека. 20% вычислительных мощностей OpenAI направлены на решение проблемы выравнивания искусственного интеллекта к 2027 году.
Что если искусственный интеллект выйдет из-под контроля и начнет сам принимать решения? Механизм сдерживания сверхумного ИИ на языке исследователей называется выравнивание языковой модели, или alignment.
Выравнивание языковых моделей (AI аlignment) — приведение систем ИИ в соответствие с человеческой этикой, целями и ценностями.
ИИ-словарь

«Многие студенты, которые хотят заниматься исследованиями, сдаются после того, как пробуют написать свою первую статью»

«Исследования — странная штука. У этой сферы есть романтический флер, ведь вы постоянно что-то придумываете. На самом деле иногда это безумно скучная, нудная деятельность — нужно долго и методично ставить много экспериментов. Только 10% времени вы придумываете идеи. Большую часть времени вы проводите эксперименты и пишете. И постоянно боретесь с тем, что что-то не работает. Это тяжело. Многие студенты, которые хотят заниматься исследованиями в машинном обучении, сдаются после того, как пробуют написать свою первую статью. Поэтому для меня важно, чтобы ребята были заряженными: мотивация решает очень многие проблемы».
Исследованиями может заниматься каждый, самое главное для ученого — это желание, считает Даниил.
При отборе студентов в лабораторию Даниил не смотрит на образование и кандидатскую степень в резюме: «Для меня самое главное, чтобы ребята были бодрыми, чтобы они хотели проводить исследования и умели это делать».
Даниил Гаврилов из Tinkoff Research
Hugging Face Transformers (Хагин Фэйс Трансформерс) — открытая библиотека предобученных моделей.