Трансформер — это вид нейросетевой архитектуры, который хорошо подходит для обработки последовательностей данных, например текста.
Как это работает
Представьте, что вы попросили искусственный интеллект продолжить предложение. Как ИИ предскажет следующее слово? Он может последовательно проанализировать все слова в предложении и, получив представление о смысле одного слова, предсказать следующее. Так работают рекуррентные нейронные сети.
Нейросеть-трансформер устроена иначе: она смотрит на контекст, на то, как связаны по смыслу все слова со всеми словами, и на основе этих связей подбирает следующее слово в предложении. Поэтому нейросети на основе трансформеров лучше понимают подтекст и генерируют более глубокий и связный текст.
Обучение с подкреплением
(Reinforcement Learning, RL) — метод машинного обучения, при котором агент учится принимать последовательные решения в среде, чтобы максимизировать награду.
«Обработка естественного языка стала фронтиром глубокого обучения»
Революцию в области глубокого обучения совершили ученые. Сфера сильно изменилась, когда были придуманы новые методы анализа и обработки естественного языка. Так, в 2017 году исследователи из Google Brain разработали архитектуру трансформер (transformer), которая пришла на смену рекуррентным нейронным сетям (RNN). В результате искусственный интеллект стал более производительным: он научился обрабатывать входные данные параллельно, а не последовательно. Благодаря этому научному открытию сегодня у нас есть GPT-4 от OpenAI, Gemini от Google и другие большие языковые модели.
«Успехи в NLP очень явно меняют жизнь людей к лучшему. С выходом ChatGPT все поняли, насколько большой пласт задач может быть выражен и решен в текстовом формате. Эта безумная практичность в свое время привела в NLP много разработчиков и исследователей, а сама обработка естественного языка стала фронтиром глубокого обучения — все те разработки, которые продвинули ее вперед в 2016−2018 годах, сейчас доходят до других областей. Можно сказать, что сам по себе текст в NLP не так важен, как методы работы с ним — улучшения в NLP либо очень сильно продвинут нас в понимании всего глубокого обучения искусственного интеллекта прямо сейчас, либо сделают это в обозримом будущем», — говорит Даниил.
Сегодня на обработке естественного языка сосредоточены самые крупные мировые компании и лаборатории. Большая часть статей на ведущих конференциях по машинному обучению, таких как NeurIPS, посвящена NLP.
Появление ChatGPT еще раз всколыхнуло и без того бурно развивающуюся сферу. Стало очевидно: прорывы в области машинной обработки естественного языка напрямую влияют на то, как мы работаем с информацией.
Большие языковые модели (Large Language Model, LLM) обучаются на огромных объемах данных. Они основаны на трансформере — нейронной сети, которая извлекает информацию из последовательности текста и понимает связи между отдельными словами и фразами.
«Конкуренция между лабораториями зашкаливает, над одной темой одновременно могут работать многие исследовательские группы. С огромной долей вероятности вы однажды проснетесь утром и увидите, как вашу идею опубликовал кто-то другой. В будущем будет появляться еще больше игроков в этой гонке», — объясняет ученый.
Работа с данными- Сбор данных. Данные могут быть собраны из открытых источников или закрытых (например, обезличенные данные о пользователях какого-то сервиса). ChatGPT тоже обучался на большом массиве текстов из Сети.
- Предварительная обработка данных. Данные очищают от лишних символов и приводят к единообразию. Текст токенизируют, то есть разделяют на отдельные единицы (токены). Токеном может быть как целое слово, так и его часть.
- Разметка данных. Каждому фрагменту текста или слову (токену) присваивается метка, которая его характеризует. Например, если цель обучить модель понимать тональность повествования, то фрагментам текста присваиваются метки, описывающие тон как «положительный», «отрицательный» или «нейтральный».
- Перевод данных в числа. Чтобы языковая модель поняла человеческую речь, токены переводят в числа. После этого модель можно обучать.
Обучение модели
Заключительный этап работы в NLP — обучение модели на полученных данных с помощью специальных алгоритмов. Их пишут с нуля или используют готовые из библиотеки Hugging Face Transformers. Алгоритмы распознают данные, обрабатывают их и делают выводы.
Работу над моделью по обработке естественного языка можно разделить на два этапа. На первом — собирают и подготавливают данные (например, корпус текстов). На втором — обучают модель на собранных данных с помощью специальных алгоритмов.
Говоря про конкуренцию между крупными и небольшими исследовательскими группами, Даниил отметил, что исследовательских вопросов много — главное выбрать неочевидный ракурс:
«Мы стараемся выбирать неочевидные направления, в которые, возможно, копает чуть меньше групп, но которые, как нам кажется, могут быть намного перспективнее. Так мы можем обойти большие лаборатории на повороте. Высокая конкуренция, вызванная вниманием к области, значит, что реальные достижения обязательно будут замечены. Есть реальная возможность сделать интересные исследования, и их увидят все».
NeurIPS (The Conference and Workshop on Neural Information Processing Systems) — конференция и семинар по нейронным системам обработки информации.