Учебный гайд: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях

Урок 3 из 5 в модуле «Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях»

Вы просматриваете урок без входа. Войдите, чтобы сохранять прогресс и проходить тесты.

Тема: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях

Уровень сложности: Средний

Расчётное время изучения: 3-4 часа

Предварительные требования: Базовое понимание JSON Schema и форматов валидации данных

Знакомство с подходом BDD (Behavior-Driven Development) и синтаксисом Given/When/Then

Опыт работы с REST API, вебхуками и системами мониторинга (например, Prometheus, Grafana, PagerDuty)

Понимание принципов автоматического масштабирования (autoscaling) и управления инцидентами

Цели обучения: Описать роли Верификатора и Имплементора в процессе состязательной валидации (LLM-дуэли).

Научиться формулировать минимальные контрпримеры для проверки эксплуатационных границ спецификации.

Освоить практику расширения JSON Schema за счет включения эксплуатационных лимитов (квоты, blast-radius).

Внедрить протокол ведения журнала validation.md для фиксации прецедентов и новых правил (next_guard).

Настроить локальный конвейер CI для автоматической проверки спецификаций через run_duel.py.

Обзор: Данный модуль посвящен методике состязательной валидации формальных спецификаций с использованием LLM — так называемой «LLM-дуэли». В реальных системах автоматического разрешения инцидентов входящие данные (например, вебхуки) могут быть формально корректными, но приводить к катастрофическим последствиям из-за нарушения эксплуатационных границ. В этом курсе мы рассматриваем архитектуру, в которой одна языковая модель (Верификатор) пытается найти минимальный разрушительный контрпример, а вторая (Имплементор) чинит правила и JSON Schema так, чтобы система устойчиво отклоняла опасные действия. На примере кейса autoscale_200pct вы узнаете, как перевести проверку из чисто логической плоскости в эксплуатационную.

Ключевые концепции: Llm-дуэль: Методика состязательной валидации, где роли распределены между двумя LLM: Верификатор ищет уязвимости (контрпримеры), а Имплементор исправляет спецификацию и код.

Минимальный контрпример: Входные данные, которые содержат ровно те поля и значения, без которых нарушение исчезает. Он валиден по JSON Schema, но нарушает утвержденное правило Then. Использование минимального контрпримера позволяет избежать регрессий и точно локализовать проблему.

Эксплуатационные границы: Ограничения реальной инфраструктуры (квота, rate-limit, радиус последствий, дедупликация), которые должны быть формализованы в спецификации наравне с типами данных.

Given/when/then: Строгий формат записи поведенческого контракта. Given (начальное состояние), When (входящее воздействие, напр. вебхук), Then (ожидаемый результат или защита).

Validation.md: Файл-журнал, где хранится история дуэлей. Содержит duel_id, assertion_id, контрпример, вердикт и сгенерированный next_guard.

Next guard: Новое правило безопасности, сформулированное после успешного контрпримера, которое система обязана проверять при всех последующих запусках.

Координатор (coordinator): Арбитр в процессе LLM-дуэли, который подключается, если Верификатор и Имплементор не могут прийти к согласию за заданное число раундов, и переводит инцидент в статус DEFERRED.

Практические упражнения: Название: Запуск учебного прогона LLM-дуэли

Проблема: Вам нужно проверить спецификацию autoscale_spec.yaml на устойчивость к атаке с запросом увеличения реплик на 200%. Запустите локальный скрипт дуэли и проанализируйте базовый вердикт.

Решение: 1. Откройте терминал и перейдите в каталог примера: cd book2/examples/tribunal. 2. Выполните команду: python3 scripts/run_duel.py --spec specs/autoscale_spec.yaml --cases cases/ --out out/duel.json. 3. Откройте сгенерированный файл out/duel.json. Найдите случай autoscale_counter_200pct и убедитесь, что вердикт изменился на PASS (или проанализируйте FAIL, если спецификация еще не пропатчена).

Сложность: beginner

Название: Формулировка минимального контрпримера

Проблема: В систему пришел вебхук на перезапуск пода с параметрами: readiness=24/25, stateful=true, backup_verified=false. Сформулируйте минимальный контрпример в формате JSON, который доказывает, что dry-run должен быть заблокирован.

Решение: Для минимального контрпримера нужно оставить только те поля, которые напрямую влияют на логику безопасности. { "readiness": 24, "stateful": true, "backup_verified": false }. Мы исключили namespace, pod_id и другие метаданные, так как без них нарушение логики (попытка dry-run без бэкапа stateful-пода) никуда не исчезает, но анализ становится точечным.

Сложность: intermediate

Название: Интеграция next_guard в validation.md

Проблема: Имплементор успешно защитил спецификацию от повторного срабатывания вебхука (дедупликация). Запишите результат дуэли в validation.md в формате Given/When/Then, используя принципы, описанные в уроке.

Решение: Добавьте в validation.md следующую запись:

assertion_id: DEDUP-SCALE-01 counterexample: "два вебхука с scale_up_percent=100 приходят с интервалом в 1 секунду" verdict: PASS next_guard: "Given окно дедупликации 2 секунды When получен дублирующий вебхук с масштабированием Then executed_delta не увеличивается повторно и возвращается диагностический код DUPLICATE_WEBHOOK_IGNORED".

Сложность: advanced

Кейсы: Название: Критический инцидент в AgentClinic-production: Autoscale 200%

Сценарий: В кластере запущен сервис appointments-api. Текущая загрузка CPU составляет 98%, работает 12 реплик. Квота позволяет добавить еще 3 (лимит кластера — 15 реплик). В этот момент система автоматизации отправляет вебхук: «увеличьте количество реплик на 200%».

Задача: Формально входные данные абсолютно корректны — поле scale_up_percent заполнено верно, типы совпадают. Однако выполнение этой команды запросит создание 24 дополнительных реплик, что приведет к исчерпанию квоты, нарушению лимитов и падению сервиса посередине операции масштабирования.

Решение: Использование техники LLM-дуэли. Верификатор сгенерировал минимальный контрпример: { current_replicas: 12, remaining_quota: 3, scale_up_percent: 200 }. Имплементор добавил эксплуатационные границы в JSON Schema и логику: ввел формулу allowed_delta = min(requested_delta, floor(remaining_quota / pod_cpu), max_replicas - current_replicas) и политику clamp_policy со значениями hard_block / soft_clamp.

Результат: Автоскейлер перестал ломаться при невалидных с точки зрения инфраструктуры (но формально правильных) запросах. При поступлении запроса на 200% система безопасно ограничила шаг до +3 реплик (soft_clamp) и записала в аудит-след диагностический код QUOTA_EXCEEDED_AFTER_CLAMP.

Извлечённые уроки: Формальной проверки схемы недостаточно для безопасной автоматики; квоты и лимиты должны быть частью спецификации.

Минимальный контрпример позволяет_testing системе на устойчивость к конкретным классам сбоев без зашумления данных.

Результат дуэли должен автоматически становиться новым правилом (next_guard) для CI-конвейера.

Связанные концепции: Минимальный контрпример

Эксплуатационные границы

JSON Schema

Состязательная валидация

Советы по изучению: Не пытайтесь сразу внедрить внешний Координатор (Coordinator) — начните с ручного офлайн-прогона для понимания механики дуэли.

При создании контрпримеров всегда спрашивайте себя: «Что будет, если убрать это поле?». Если нарушение остается — поле не минимально и его следует удалить.

Фокусируйтесь на формате validation.md. В реальной работе этот файл — ваша правовая база (прецеденты) для авто-блокировки регрессий.

Разделяйте понятия: «ядовитая спецификация» (дефект требований), «мутанты» (класс дефектов) и «контрпример дуэли» (конкретный вход, ломающий Then).

Дополнительные ресурсы: Github spec kit: https://github.com/github/spec-kit — для изучения подхода specification-first.

Википедия: formal specification: https://en.wikipedia.org/wiki/Formal_specification — теоретическая база по формальным спецификациям.

Офлайн-пример tribunal: book2/examples/tribunal/ — исходный код скрипта и примеры JSON для локального запуска.

Резюме: LLM-дуэль (Верификатор против Имплементора) превращает формальные спецификации в надежный механизм защиты инцидентного управления. Вместо того чтобы проверять лишь корректность типов данных, система переходит к проверке эксплуатационных границ (квот, лимитов последствий). Минимальные контрпримеры позволяют изолировать уязвимости, а все изменения и отказы фиксируются в validation.md, превращая каждую ошибку в регрессионный тест (next_guard) для будущего CI.

0 / 10000

Заметки сохраняются в этом браузере. На другом устройстве они не появятся.

Курс

Использование SDD в разработке для Qwen Code CLI. Прикладной курс

Прогресс 0 / 95

○ Материал: Прикладная часть 0. Лаборатория AgentClinic-production 🔒 Диаграмма: Прикладная часть 0. Лаборатория AgentClinic-production 🔒 Учебный гайд: Прикладная часть 0. Лаборатория AgentClinic-production 🔒 Тест: Прикладная часть 0. Лаборатория AgentClinic-production 🔒 Карточки: Прикладная часть 0. Лаборатория AgentClinic-production

🔒 Материал: Прикладная часть 1. Восстановление спецификаций из legacy 🔒 Диаграмма: Прикладная часть 1. Восстановление спецификаций из legacy 🔒 Учебный гайд: Прикладная часть 1. Восстановление спецификаций из legacy 🔒 Тест: Прикладная часть 1. Восстановление спецификаций из legacy 🔒 Карточки: Прикладная часть 1. Восстановление спецификаций из legacy

🔒 Материал: Прикладная часть 2. Диагностика дефектов спецификации 🔒 Диаграмма: Прикладная часть 2. Диагностика дефектов спецификации 🔒 Учебный гайд: Прикладная часть 2. Диагностика дефектов спецификации 🔒 Тест: Прикладная часть 2. Диагностика дефектов спецификации 🔒 Карточки: Прикладная часть 2. Диагностика дефектов спецификации

🔒 Материал: Прикладная часть 3. Конституция проекта: первый референдум правил 🔒 Диаграмма: Прикладная часть 3. Конституция проекта: первый референдум правил 🔒 Учебный гайд: Прикладная часть 3. Конституция проекта: первый референдум правил 🔒 Тест: Прикладная часть 3. Конституция проекта: первый референдум правил 🔒 Карточки: Прикладная часть 3. Конституция проекта: первый референдум правил

🔒 Материал: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях 🔒 Диаграмма: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях ▸ Учебный гайд: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях 🔒 Тест: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях 🔒 Карточки: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях

🔒 Материал: Прикладная часть 5. Мутационное тестирование спецификаций 🔒 Диаграмма: Прикладная часть 5. Мутационное тестирование спецификаций 🔒 Учебный гайд: Прикладная часть 5. Мутационное тестирование спецификаций 🔒 Тест: Прикладная часть 5. Мутационное тестирование спецификаций 🔒 Карточки: Прикладная часть 5. Мутационное тестирование спецификаций

🔒 Материал: Прикладная часть 6. Отбор теневых спецификаций 🔒 Диаграмма: Прикладная часть 6. Отбор теневых спецификаций 🔒 Учебный гайд: Прикладная часть 6. Отбор теневых спецификаций 🔒 Тест: Прикладная часть 6. Отбор теневых спецификаций 🔒 Карточки: Прикладная часть 6. Отбор теневых спецификаций

🔒 Материал: Прикладная часть 7. Specification CI: спецификация как исполняемый артефакт 🔒 Диаграмма: Прикладная часть 7. Specification CI: спецификация как исполняемый артефакт 🔒 Учебный гайд: Прикладная часть 7. Specification CI: спецификация как исполняемый артефакт 🔒 Тест: Прикладная часть 7. Specification CI: спецификация как исполняемый артефакт 🔒 Карточки: Прикладная часть 7. Specification CI: спецификация как исполняемый артефакт

🔒 Материал: Прикладная часть 8. Файловый арбитраж спорного изменения: роли, вердикты и прецеденты 🔒 Диаграмма: Прикладная часть 8. Файловый арбитраж спорного изменения: роли, вердикты и прецеденты 🔒 Учебный гайд: Прикладная часть 8. Файловый арбитраж спорного изменения: роли, вердикты и прецеденты 🔒 Тест: Прикладная часть 8. Файловый арбитраж спорного изменения: роли, вердикты и прецеденты 🔒 Карточки: Прикладная часть 8. Файловый арбитраж спорного изменения: роли, вердикты и прецеденты

🔒 Материал: Прикладная часть 9. Маршрутизация моделей и бюджет токенов 🔒 Диаграмма: Прикладная часть 9. Маршрутизация моделей и бюджет токенов 🔒 Учебный гайд: Прикладная часть 9. Маршрутизация моделей и бюджет токенов 🔒 Тест: Прикладная часть 9. Маршрутизация моделей и бюджет токенов 🔒 Карточки: Прикладная часть 9. Маршрутизация моделей и бюджет токенов

🔒 Материал: Прикладная часть 10. Защита метрик от Гудхарта: сторожевые метрики и аварийный режим 🔒 Диаграмма: Прикладная часть 10. Защита метрик от Гудхарта: сторожевые метрики и аварийный режим 🔒 Учебный гайд: Прикладная часть 10. Защита метрик от Гудхарта: сторожевые метрики и аварийный режим 🔒 Тест: Прикладная часть 10. Защита метрик от Гудхарта: сторожевые метрики и аварийный режим 🔒 Карточки: Прикладная часть 10. Защита метрик от Гудхарта: сторожевые метрики и аварийный режим

🔒 Материал: Прикладная часть 11. Интеграция с реальным API: от спецификации до деплоя 🔒 Диаграмма: Прикладная часть 11. Интеграция с реальным API: от спецификации до деплоя 🔒 Учебный гайд: Прикладная часть 11. Интеграция с реальным API: от спецификации до деплоя 🔒 Тест: Прикладная часть 11. Интеграция с реальным API: от спецификации до деплоя 🔒 Карточки: Прикладная часть 11. Интеграция с реальным API: от спецификации до деплоя

🔒 Материал: Прикладная часть 12. Антипаттерны production SDD: диагностическая карта прикладного цикла 🔒 Диаграмма: Прикладная часть 12. Антипаттерны production SDD: диагностическая карта прикладного цикла 🔒 Учебный гайд: Прикладная часть 12. Антипаттерны production SDD: диагностическая карта прикладного цикла 🔒 Тест: Прикладная часть 12. Антипаттерны production SDD: диагностическая карта прикладного цикла 🔒 Карточки: Прикладная часть 12. Антипаттерны production SDD: диагностическая карта прикладного цикла

🔒 Материал: Прикладная часть 13. Практический зачёт: собрать production SDD-контур 🔒 Диаграмма: Прикладная часть 13. Практический зачёт: собрать production SDD-контур 🔒 Учебный гайд: Прикладная часть 13. Практический зачёт: собрать production SDD-контур 🔒 Тест: Прикладная часть 13. Практический зачёт: собрать production SDD-контур 🔒 Карточки: Прикладная часть 13. Практический зачёт: собрать production SDD-контур

🔒 Материал: Приложение A. Мосты к первому тому 🔒 Диаграмма: Приложение A. Мосты к первому тому 🔒 Учебный гайд: Приложение A. Мосты к первому тому 🔒 Тест: Приложение A. Мосты к первому тому 🔒 Карточки: Приложение A. Мосты к первому тому

🔒 Материал: Приложение B. Совместимость с Qwen Code 🔒 Диаграмма: Приложение B. Совместимость с Qwen Code 🔒 Учебный гайд: Приложение B. Совместимость с Qwen Code 🔒 Тест: Приложение B. Совместимость с Qwen Code 🔒 Карточки: Приложение B. Совместимость с Qwen Code

🔒 Материал: Приложение C. Чек-листы прикладного SDD 🔒 Диаграмма: Приложение C. Чек-листы прикладного SDD 🔒 Учебный гайд: Приложение C. Чек-листы прикладного SDD 🔒 Тест: Приложение C. Чек-листы прикладного SDD 🔒 Карточки: Приложение C. Чек-листы прикладного SDD

🔒 Материал: Приложение D. Калибровка порогов 🔒 Диаграмма: Приложение D. Калибровка порогов 🔒 Учебный гайд: Приложение D. Калибровка порогов 🔒 Тест: Приложение D. Калибровка порогов 🔒 Карточки: Приложение D. Калибровка порогов

🔒 Материал: Глоссарий прикладного тома 🔒 Диаграмма: Глоссарий прикладного тома 🔒 Учебный гайд: Глоссарий прикладного тома 🔒 Тест: Глоссарий прикладного тома 🔒 Карточки: Глоссарий прикладного тома

Учебный гайд: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях

Мои заметки

Меню курса

Курс

Учебный гайд: Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях

Мои заметки

Меню курса

Курс

1. Прикладная часть 0. Лаборатория AgentClinic-production 0 / 5

2. Прикладная часть 1. Восстановление спецификаций из legacy 0 / 5

3. Прикладная часть 2. Диагностика дефектов спецификации 0 / 5

4. Прикладная часть 3. Конституция проекта: первый референдум правил 0 / 5

5. Прикладная часть 4. LLM-дуэль: Верификатор против Имплементора в формальных утверждениях 0 / 5

6. Прикладная часть 5. Мутационное тестирование спецификаций 0 / 5

7. Прикладная часть 6. Отбор теневых спецификаций 0 / 5

8. Прикладная часть 7. Specification CI: спецификация как исполняемый артефакт 0 / 5

9. Прикладная часть 8. Файловый арбитраж спорного изменения: роли, вердикты и прецеденты 0 / 5

10. Прикладная часть 9. Маршрутизация моделей и бюджет токенов 0 / 5

11. Прикладная часть 10. Защита метрик от Гудхарта: сторожевые метрики и аварийный режим 0 / 5

12. Прикладная часть 11. Интеграция с реальным API: от спецификации до деплоя 0 / 5

13. Прикладная часть 12. Антипаттерны production SDD: диагностическая карта прикладного цикла 0 / 5

14. Прикладная часть 13. Практический зачёт: собрать production SDD-контур 0 / 5

15. Приложение A. Мосты к первому тому 0 / 5

16. Приложение B. Совместимость с Qwen Code 0 / 5

17. Приложение C. Чек-листы прикладного SDD 0 / 5

18. Приложение D. Калибровка порогов 0 / 5

19. Глоссарий прикладного тома 0 / 5