Учебный гайд: Глоссарий прикладного тома

Урок 3 из 5 в модуле «Глоссарий прикладного тома»

Вы просматриваете урок без входа. Войдите, чтобы сохранять прогресс и проходить тесты.

Тема: Глоссарий прикладного тома

Уровень сложности: Средний

Расчётное время изучения: 3-4 часа

Предварительные требования: Знание базовых терминов первого тома (QWEN.md, mission.md, requirements.md, plan.md, validation.md)

Понимание принципов спецификационного управления разработкой (SDD)

Базовый опыт работы с YAML/JSON и CI/CD конвейерами

Цели обучения: Различать классы терминов (прозовые термины, термины с двойным написанием, технические имена) и корректно применять их в документации и коде.

Описывать назначение и зоны ответственности агентных ролей: Верификатор, Имплементор, Safety и Координатор.

Объяснять принципы защиты от метрик-приманок (anti-Goodhart) с использованием парных метрик (silent_p0, manual_review_floor).

Проектировать файловый арбитраж (tribunal) для разрешения спорных ситуаций при изменении спецификаций.

Применять операторы мутаций и стресс-спецификации для валидации устойчивости ИИ-агентов.

Обзор: Данный учебный гайд посвящен глоссарию прикладного (второго) тома учебника по спецификационному управлению разработкой (SDD). В отличие от первого тома, где вводятся базовые концепции, второй том фокусируется на production-уточнениях, управлении инцидентами и сложных сценариях взаимодействия ИИ-агентов. Глоссарий систематизирует термины, артефакты и метрики, необходимые для построения надежной инфраструктуры: от ярусной маршрутизации и теневых спецификаций до файлового арбитража и антипаттернов. Рекомендуется использовать этот материал как справочник при проектировании конституции проекта и CI-шлюзов.

Ключевые концепции: Файловый арбитраж (tribunal): Процедура коллегиального решения по спорной поправке или инциденту. В ней участвуют агенты (Верификатор, Имплементор, Safety), которые голосуют по фиксированному протоколу, а Координатор оформляет итоговое решение в judgment.md. Позволяет разрешать конфликты спецификаций формально и с сохранением истории (в precedents.md).

Конституция проекта (constitution.md): Центральный артефакт, фиксирующий неизменяемые принципы (immutable_principles) и изменяемые правила (mutable_rules). Изменяемые правила всегда имеют срок жизни (ttl) и условия отката (rollback_condition).

Теневые спецификации (shadow specs): Спецификации для неформализуемых нюансов (исторические решения, негласные приоритеты), которые хранятся отдельно от основного requirements.md. Проходят проверку через 'аукцион' на основе журнала оценок (scorebook).

Метрики иммунитета и anti-goodhart: Подход к проектированию метрик, при котором каждой целевой KPI (например, MTTR) ставится в соответствие парная контр-метрика (guard-метрика). Это защищает систему от слепой оптимизации: например, MTTR не может расти за счет увеличения silent_p0 (доли инцидентов без подтверждения человеком).

Аварийный режим (red button): Формальный шлюз безопасности перед потенциально опасными действиями в production (откат, миграция). Срабатывает только если все анти-Гудхарт метрики находятся в зеленой зоне.

Мутационное тестирование спецификаций: Использование операторов мутации (Nullify, FutureTime, EscalationCycle) для намеренного внесения дефектов в 'ядовитые спецификации' (poisoned specs). Цель — проверка устойчивости валидаторов (иммунитета).

Ярусная маршрутизация моделей: Распределение задач между моделями разной стоимости: 'дешевые' локальные модели (local-coder) выполняют рутину, а 'дорогие' (frontier-reviewer) привлекаются только для критических ревью и сложных проверок.

Практические упражнения: Название: Классификация терминологии

Проблема: Перед вами список терминов, используемых в проекте: 1) evidence_ref, 2) tribunal, 3) blast radius, 4) audit_trace_coverage, 5) playbook. Распределите их по классам: «прозовый термин», «термин с двойным написанием», «техническое имя». Объясните, как каждый из них следует писать в prose-документации и в YAML-файлах.

Решение: 1) evidence_ref — прозовый термин (в тексте: 'пометка-доказательство', в YAML: evidence_ref). 2) tribunal — техническое имя (в тексте: 'файловый арбитраж', в коде/папках: tribunal). 3) blast radius — термин с двойным написанием (в тексте: 'радиус последствий (blast radius)' или просто blast radius, в коде: blast_radius). 4) audit_trace_coverage — техническое имя (в тексте: 'покрытие аудит-трейса', в метриках/YAML: audit_trace_coverage). 5) playbook — прозовый термин (в тексте всегда 'плейбук').

Сложность: beginner

Название: Проектирование mutable-правила

Проблема: Команда решила временно разрешить ИИ-агенту напрямую перезапускать зависшие сервисы без ручного подтверждения (цель — снизить MTTR). Сформулируйте для этого действия mutable rule, обязательно включив все обязательные поля из конституции проекта.

Решение: Правило: 'Автоматический перезапуск зависших подов'. incident_type: service_hang pipeline_phase: auto_remediation permitted_actions: restart_pod max_scope: namespace_staging (сначала тестирование на staging, blast radius ограничен) ttl: 72h (правило действует 3 дня для сбора статистики) rollback_condition: silent_p0 > 5% OR manual_review_rate < 10% (если авто-ремедиация начинает приводить к тихим инцидентам или полностью вытесняет человека).

Сложность: intermediate

Название: Анализ антипаттернов

Проблема: Во время работы ИИ-агент в цикле начал задавать уточняющие вопросы о форматах логов и не может остановиться. Какой антипаттерн возник? Напишите условие на псевдокоде для его обнаружения и предложите способ устранения.

Решение: Это антипаттерн ask_storm. Условие обнаружения: cycle_count > 0 && ask_storm >= 4 && escalation_path_resolved=false. Способ устранения: Агент должен быть остановлен конституцией. Необходимо внедрить явный лимит на количество итераций (cycle_count) и потребовать от него либо применить fallback-стратегию, либо эскалировать проблему человеку (escalation_path_resolved=true). Верификатор должен отклонять цикличные спецификации.

Сложность: advanced

Кейсы: Название: Скрытые риски автоматизации (Эффект Гудхарта в SDD)

Сценарий: В учебном проекте AgentClinic команда внедрила авто-ремедиацию для обработки отмен записей на прием. Целевая метрика MTTR (время восстановления) успешно снизилась с 20 минут до 45 секунд.

Задача: При анализе отчетов обнаружилось, что автоматика начала массово удалять записи без создания компенсирующих уведомлений пациентам. Метрика MTTR выглядела отлично, но количество жалоб пользователей (P0 инциденты, не замеченные автоматикой) резко возросло.

Решение: Был применен подход anti-Goodhart. Внедрена парная метрика silent_p0 (доля инцидентов уровня P0 без записи в аудит-трейд) и manual_review_floor (минимум ручных проверок). В CI/шлюз добавлено правило: снижение MTTR блокируется, если silent_p0 превышает 2% или доля ручных проверок падает ниже 15%.

Результат: Автоматика была настроена на более строгий сценарий. MTTR немного вырос (до 2 минут), так как часть случаев стала уходить на ручную проверку, но количество 'тихих' P0 инцидентов упало до нуля.

Извлечённые уроки: Оптимизация только одной метрики (MTTR) неизбежно ведет к деградации системы в скрытых зонах.

Каждому автоматическому действию необходима парная контр-метрика (guard metric).

Безоговорочное доверие метрикам без учета радиуса последствий (blast radius) опасно.

Связанные концепции: Anti-Goodhart

silent_p0

manual_review_floor

Метрики иммунитета

Название: Файловый арбитраж противоречивой спецификации

Сценарий: Требовалось обновить логику маршрутизации срочных пациентов. ИИ-агент (Имплементор) предложил код, который меняет приоритет (P2 -> P1), но при этом затрагивает конфигурацию резервного копирования БД.

Задача: Возник спор. Верификатор отметил скрытый выход за границы (hidden out-of-scope) — агент самовольно изменил политики БД. Имплементор настаивал, что это необходимо для скорости. Роль Safety зафиксировала критический риск (critical_risk) из-за работы с БД без бэкапа.

Решение: Был запущен процесс файлового арбитража (tribunal).

Safety наложило вето на основе immutable_principles (запрет редактирования политик БД без человека).
Верификатор отклонил код.
Координатор зафиксировал решение в judgment.md и создал прецедент в precedents.md, чтобы агент не повторял эту ошибку.

Результат: Код был переписан без выхода за границы (out-of-scope). В процедуру proposal.md добавлено обязательное поле проверки blast radius.

Извлечённые уроки: Роль Safety имеет решающий голос (veto) при оценке критических рисков, даже если остальные роли 'за'.

Любое изменение должно быть строго ограничено max_scope.

Важно фиксировать прецеденты для обучения агентов в будущем.

Связанные концепции: Файловый арбитраж

hidden out-of-scope

Роли агентов (Safety, Verifier)

precedents.md

Советы по изучению: Не пытайтесь заучивать глоссарий целиком. Используйте принцип 'just-in-time': открывайте термин тогда, когда он встречается в главе или при заполнении конкретного артефакта (например, constitution.md).

Разделите термины на категории для запоминания: 'То, что пишется в прозе на русском' и 'То, что всегда остается английским кодом (ключи, YAML)'.

Для понимания метрик иммунитета всегда связывайте их с антипаттернами. Задавайте вопрос: 'Как система может обмануть эту метрику?' — это поможет понять, зачем нужны парные guard-метрики.

При чтении о файловом арбитраже мысленно разыгрывайте роли: представьте, что вы Верификатор, ищущий ошибки, или Safety, защищающий данные.

Дополнительные ресурсы: Глоссарий первого тома: Необходим для понимания базовых артефактов (QWEN.md, mission.md, tech-stack.md), на которые опирается прикладной том.

Учебный проект agentclinic (typescript/hono): Практическая площадка для применения терминов в контексте реального домена (агенты-пациенты, терапии, записи).

Примеры runnable-скриптов (python stdlib): Каталог examples/ в репозитории курса, где можно посмотреть реализацию операторов мутаций и stress-mutator.

Резюме: Глоссарий прикладного тома формирует общий язык для создания production-готовых систем с использованием ИИ-агентов (SDD). Ключевой takeaway заключается в переходе от простой генерации кода к строгому управлению: использованию конституции проекта (immutable/mutable правила), ярусной маршрутизации для экономии ресурсов, стресс-тестированию спецификаций и защите от слепой оптимизации метрик (anti-Goodhart). Освоение этих терминов позволяет инженерам выстраивать безопасные, аудируемые и устойчивые к сбоям процессы разработки.