Как создавать ИИ-агентов: архитектура и лучшие практики

ИИ-агенты — это фундаментальный сдвиг во взаимодействии с большими языковыми моделями (LLM). Вместо того, чтобы просто отвечать на вопросы, агенты используют LLM как движки для рассуждений: они способны планировать многошаговые стратегии, вызывать внешние инструменты, поддерживать контекст на протяжении долгих взаимодействий и автономно работать над достижением сложных целей.

Чтобы создавать эффективных агентов, нужно понимать как архитектурные паттерны, которые обеспечивают их работу, так и возможные сбои, делающие их ненадежными. Данное руководство охватывает оба аспекта.

Что такое ИИ-агент?

ИИ-агент — это система, которая использует языковую модель для принятия решений о том, какие действия предпринять для достижения цели, выполняет эти действия, наблюдает за результатами и повторяет цикл до завершения задачи. Ключевое отличие от простого приложения на базе LLM — это автономность: модель сама решает, что делать дальше, а не следует заданному алгоритму.

Большинство агентов имеют четыре основных компонента:

Движок рассуждений: LLM, которая интерпретирует задачи, формулирует планы и решает, какие действия предпринять. Это «мозг» агента.
Набор инструментов: Коллекция функций, которые агент может вызывать, например, поиск в вебе, выполнение кода, запросы к базам данных, вызовы API или операции с файлами.
Память: Механизмы для поддержания контекста в рамках сессии (краткосрочная) и между сессиями (долгосрочная), позволяющие агенту учиться на прошлых взаимодействиях.
Логика оркестрации: Поток управления, который организует цикл «рассуждение — действие — наблюдение» и принятие решений о дальнейших шагах.

Основные архитектурные паттерны

ReAct: Рассуждение и Действие

Паттерн ReAct, предложенный Яо и др. в 2022 году, является основой для многих архитектур агентов. Агент чередует шаги рассуждений (обдумывание, что делать) и шаги действий (выполнение с помощью инструментов), используя наблюдения от действий для корректировки последующих рассуждений.

Типичный цикл ReAct выглядит так:

Мысль (Thought): Агент анализирует текущее состояние и решает, какое действие было бы наиболее полезным.
Действие (Action): Агент выбирает и вызывает инструмент с конкретными параметрами.
Наблюдение (Observation): Инструмент возвращает результат, который агент добавляет в свой контекст.
Повтор (Repeat): Агент рассуждает на основе наблюдения и решает, завершена ли задача или требуется другое действие.

Этот паттерн прост, понятен и эффективен для многих задач. Его основной недостаток — он рассуждает по одному шагу за раз, без явного долгосрочного планирования.

Планирование и Исполнение (Plan-and-Execute)

Для сложных задач архитектура «планирование и исполнение» разделяет эти фазы. Планирующая LLM декомпозирует задачу на подзадачи, а исполняющая LLM выполняет каждую из них. План может быть пересмотрен на основе промежуточных результатов, что позволяет агенту адаптироваться к неожиданным находкам.

Такое разделение улучшает производительность на многошаговых задачах, поскольку фаза планирования может учитывать всю задачу перед тем, как приступать к конкретным действиям, избегая близорукого пошагового подхода, свойственного базовому ReAct.

Мультиагентные системы

Сложные рабочие процессы можно распределить между несколькими специализированными агентами, каждый со своим набором инструментов, инструкциями и областями экспертизы. Агент-супервизор делегирует подзадачи специализированным агентам и синтезирует их результаты.

Например, агент-исследователь может координировать работу между агентом поиска в вебе, агентом анализа документов и агентом написания текстов для подготовки исчерпывающего отчёта. Каждый агент оптимизирован для своей роли, а супервизор управляет общим рабочим процессом.

Разработка и интеграция инструментов

Инструменты — это то, что позволяет агентам взаимодействовать с внешним миром. Хорошо разработанные инструменты критически важны для производительности агента.

Принципы хорошего дизайна инструментов

Чёткие описания: Каждый инструмент должен иметь точное описание на естественном языке о том, что он делает, какие входные данные ожидает и какие выходные данные возвращает. LLM использует эти описания для принятия решений о том, когда и как использовать каждый инструмент.
Атомарные операции: Инструменты должны выполнять одиночные, чётко определённые операции, а не сложные многошаговые процедуры. Это даёт агенту более тонкий контроль и упрощает отладку.
Корректная обработка ошибок: Инструменты должны возвращать информативные сообщения об ошибках, а не завершаться без объяснений или аварийно. Агенту нужно понимать, что пошло не так, чтобы попробовать альтернативные подходы.
Ограниченная область действия: Ограничивайте возможности инструментов. Инструмент для работы с файловой системой не должен иметь неограниченный доступ на запись. Инструмент для работы с базами данных должен использовать соединения только для чтения, если доступ на запись явно не требуется.

Общие категории инструментов

Большинство агентов в продакшене используют инструменты из этих категорий:

Поиск информации: Поиск в вебе, получение данных из документов, запросы к базам данных, вызовы API к источникам знаний.
Выполнение кода: Интерпретаторы Python, команды оболочки, изолированные вычислительные среды.
Коммуникация: Отправка электронной почты, публикация сообщений, системы уведомлений.
Манипуляция данными: Чтение и запись файлов, трансформация данных, конвертация форматов.

Системы памяти

Эффективная память — то, что отличает полезного агента от системы вызова инструментов без состояния (stateless).

Краткосрочная память

Краткосрочная память обычно реализуется как история диалога или «черновик», поддерживаемый в рамках одной сессии агента. Основная проблема — управление контекстным окном: по мере того, как агент выполняет больше действий, накопленный контекст может превысить лимит контекстного окна LLM.

Стратегии управления краткосрочной памятью включают суммирование предыдущих взаимодействий, выборочное сохранение наиболее релевантных наблюдений и использование подходов с «скользящим окном», которые отбрасывают старый контекст. Некоторые фреймворки реализуют отдельный шаг суммирования, который сжимает историю агента через регулярные интервалы.

Долгосрочная память

Долгосрочная память сохраняется между сессиями, позволяя агентам вспоминать прошлые взаимодействия, усвоенные предпочтения и накопленные знания. Общие реализации включают:

Векторные хранилища, которые эмбеддируют и индексируют прошлые взаимодействия для семантического поиска.
Структурированные базы данных, которые хранят явные факты, пользовательские предпочтения и результаты задач.
Системы эпизодической памяти, которые записывают сводки полных эпизодов взаимодействия для последующего обращения.

Обработка ошибок и надёжность

Агенты часто сбоят. Создание надёжных агентов означает предусмотреть и корректно обрабатывать сбои.

Типичные сценарии сбоев

Бесконечные циклы: Агент повторяет одно и то же действие, не добиваясь прогресса. Реализуйте лимиты шагов и обнаружение циклов.
Некорректное использование инструментов: Агент вызывает инструменты с неправильными параметрами или в неподходящих контекстах. Предоставляйте чёткую документацию и валидируйте входные данные.
«Уход» от цели: Агент фокусируется на подзадаче и теряет из виду исходную цель. Периодически «возвращайте» агента к исходной цели.
Галлюцинации действий: Агент пытается использовать несуществующие инструменты или вызывает API с вымышленными конечными точками. Ограничивайте выбор инструментов определённым набором.

Внедрение ограничений (Guardrails)

Установите максимальное количество шагов и лимиты времени для всех запусков агентов.
Реализуйте контрольные точки «человек в контуре» (human-in-the-loop) для принятия критически важных решений.
Логируйте все действия агента и шаги рассуждений для отладки и аудита.
Используйте фреймворки оценки для непрерывного тестирования производительности агента на типовых задачах.
Реализуйте контроль затрат, чтобы предотвратить неконтролируемое использование API.

Фреймворки и инструментарий

Несколько фреймворков упрощают разработку агентов:

LangChain и LangGraph предоставляют абстракции для создания рабочих процессов агентов с интеграцией инструментов, памятью и многошаговой оркестрацией.
API использования инструментов от Anthropic позволяет Claude нативно вызывать функции, с обработкой структурированных входных и выходных данных.
Function Calling от OpenAI предлагает аналогичные нативные возможности использования инструментов для моделей GPT.
AutoGen специализируется на паттернах многоагентных диалогов для сложных совместных задач.

Производственные аспекты

Перевод агентов из прототипов в продакшн требует внимания к ряду дополнительных вопросов: мониторинг и наблюдаемость для отслеживания поведения агентов в масштабе, управление затратами, поскольку циклы агентов могут потреблять много вызовов LLM на задачу, оптимизация задержки, так как многошаговые рассуждения по своей природе медленнее однократных вызовов, и усиление безопасности для предотвращения внедрения промптов (prompt injection) и несанкционированного использования инструментов.

Область ИИ-агентов быстро развивается. Успешными в продакшене окажутся не самые автономно способные агенты, а наиболее надёжно полезные: они эффективно обрабатывают распространённые случаи, корректно выходят из строя при пограничных ситуациях и сохраняют человеческий надзор там, где это наиболее важно.

Как создавать ИИ-агентов: архитектура и лучшие практики

Key Takeaways

Что такое ИИ-агент?