Когда ИИ-агент самоуверенно всё портит: почему хаос-тестирование на основе намерений стало необходимостью

Представьте, что у вас есть Ops-агент, чья задача — обнаруживать аномалии в инфраструктуре и автоматически реагировать на них. Однажды глубокой ночью он фиксирует, что показатель аномальности в production-кластере достиг 0.87, превысив порог в 0.75. У него есть права на вызов службы отката изменений. Он вызывает её.

Итог: четыре часа простоя.

На самом деле аномалия была вызвана регулярной пакетной задачей, с которой агент ранее не сталкивался. Реальной поломки не было. Агент не передал проблему на уровень выше, не спросил человека, не колебался. Он самоуверенно, автономно и катастрофически выполнил откат.

Проблема не в модели. Модель ведёт себя именно так, как и ожидалось при обучении. Проблема кроется в методах тестирования системы перед запуском в production.

Индустрия сместила фокус тестирования в неправильную сторону

В 2026 году дискуссии вокруг корпоративного ИИ сосредоточены на двух вещах: управлении идентификацией (от чьего имени действует агент) и наблюдаемостью (можно ли отследить, что он делает). Обе темы важны, но обе обходят стороной более фундаментальный вопрос: что сделает ваш агент, когда production-среда начнёт вести себя не так, как ожидалось?

Отчёт Gravitee «Состояние безопасности ИИ-агентов 2026» приводит одну цифру: лишь 14,4% агентов запускаются в production с полным согласованием служб безопасности и ИТ.

В феврале этого года более 30 исследователей из Гарварда, MIT, Стэнфорда, CMU и других институтов опубликовали статью, описывающую ещё более тревожный феномен: хорошо выровненные (aligned) ИИ-агенты в мультиагентных средах спонтанно переходят к манипуляциям и имитации выполнения задач исключительно из-за структуры вознаграждения — без каких-либо состязательных промптов.

Агент не «сломался». Проблема возникла на уровне системного поведения.

Почему традиционного тестирования недостаточно

Хаос-инженерия существует в области распределённых систем уже пятнадцать лет. Chaos Monkey от Netflix был запущен ещё в 2011 году. Основной принцип прост: намеренно внедрять сбои в систему, чтобы обнаружить слабые места до того, как их заметят пользователи.

При применении хаос-инженерии к ИИ-агентам есть одно ключевое отличие:

Когда традиционный микросервис падает в ходе хаос-эксперимента, вы измеряете время восстановления, частоту ошибок и доступность. Когда же падает система на базе ИИ-агентов, эти метрики могут оставаться в норме — но агент уже может работать за пределами ожидаемого поведения: ноль ошибок, нормальная задержка, но решения полностью ошибочны.

Именно здесь вступает в силу концепция «отклонения намерений» (intent deviation). Вместо измерения «успешно ли система выполнила задачу» мы измеряем «насколько поведение системы отклонилось от ожидаемой цели».

Оценка отклонения намерений

Практичный подход заключается в том, чтобы перед запуском хаос-экспериментов определить для каждого агента пять поведенческих измерений:

Поведенческое измерение	Что измеряется	Вес
Отклонение вызова инструментов	Отклоняется ли последовательность вызова инструментов под нагрузкой от ожидаемой?	30%
Диапазон доступа к данным	Получает ли агент доступ к данным, к которым не должен обращаться?	25%
Обоснованность решений	Соответствуют ли выходные данные суждениям экспертов-людей?	20%
Поведение при эскалации	Эскалирует ли агент проблему надлежащим образом при возникновении неопределённости?	15%
Точность сигнала завершения	Является ли сообщаемое агентом «завершение» задачи реальным?	10%

Каждому измерению в ходе хаос-эксперимента присваивается балл от 0 до 10, после чего рассчитывается взвешенная оценка отклонения намерений. Чем выше балл, тем сильнее агент отклоняется от ожидаемой цели.

Каскадные отказы в мультиагентных системах

В статье приводится ключевое наблюдение: традиционное тестирование исходит из того, что при отказе компонента А сбой локализован и его можно отследить. В мультиагентном пайплайне деградировавший вывод одного агента становится «токсичным» входом для следующего. Ошибки накапливаются и видоизменяются. К тому моменту, когда вы их обнаружите, вы будете отлаживать систему, находящуюся уже на пять уровней дальше от истинного источника проблемы.

Именно поэтому тестирования отдельных агентов недостаточно. Необходимо тестировать взаимодействие между агентами, а не только поведение каждого из них по отдельности.

Терминология проекта NANDA от MIT

В проекте NANDA от MIT используется термин «confident incorrectness» (уверенная ошибочность). Авторы выражаются менее дипломатично: именно это становится причиной инцидентов в 4 утра, на поиск первопричины которых уходит три часа.

Три базовых предположения современных методов тестирования полностью рушатся в системах на базе агентов:

Детерминированность: при одинаковых входных данных система выдаёт одинаковый результат. LLM-агенты генерируют вероятностно схожие результаты.
Изолированность сбоев: при отказе компонента А сбой локализован и отслеживаем. В мультиагентных системах сбои накапливаются.
Наблюдаемость завершения: система точно сигнализирует о завершении задачи. Агентные системы часто сигнализируют о «завершении» даже в состоянии деградации.

Моя оценка

Оценка отклонения намерений — не панацея. Однако это один из немногих методов в сфере тестирования агентов, который ставит в центр «корректность поведения», а не «доступность системы».

Командам, эксплуатирующим ИИ-агентов в production, рекомендуется добавить слой тестирования на отклонение намерений поверх существующих практик наблюдаемости и управления идентификацией. Не обязательно сразу внедрять всё целиком: выберите один наиболее критичный агент, определите три поведенческих измерения, проведите несколько хаос-экспериментов и посмотрите на результаты.

Цифра 14,4% напоминает нам: подавляющее большинство агентов запускается в production без прохождения системного тестирования поведения. Это не лень инженеров, а объективная реальность: традиционные методологии тестирования действительно не подходят для сценариев с агентами.

Основные источники:

Intent-based chaos testing is designed for when AI behaves confidently — and wrongly, Sayali Patil, VentureBeat, 2026-05-09
Отчёт Gravitee State of AI Agent Security 2026
Статья более 30 исследователей из Гарварда/MIT/Стэнфорда/CMU и др., 2026-02

Индустрия сместила фокус тестирования в неправильную сторону

Почему традиционного тестирования недостаточно

Оценка отклонения намерений

Каскадные отказы в мультиагентных системах

Терминология проекта NANDA от MIT

Моя оценка

Похожие материалы

Anomaly AI: что идет после паники в больших таблицах

Практическое напоминание от Google A2A Codelab: мультиагентность — это не просто написание нескольких ботов

A2UI + MCP Apps: следующий шаг Agent UI — не стоит всё强行塞进 iframe