[태그:] SLO관리

AI 에이전트 운영 런북: 장애 대응과 비용 안정화까지
AI 에이전트 운영 런북: 장애 대응과 비용 안정화까지

AI 에이전트는 프로덕션에서 매일 수천 번의 결정을 내린다. 이때 운영팀이 기대하는 것은 “대충 잘 돌아가는 시스템”이 아니라, 예측 가능한 품질과 비용의 균형이다. 운영 런북은 그 균형을 유지하는 실무 도구다. This runbook is not theory; it is a decision system for daily operations. 글의 목적은 런북을 문서화하는 방법이 아니라, 장애 대응과 비용 안정화를 동시에 달성하는 실행 구조를 만드는 것이다.

오늘 다룰 내용은 다음과 같다. First, we define what a runbook should contain in AI operations. Then we build incident response flows, cost guardrails, and learning loops. 이 흐름을 그대로 적용하면 팀의 대응 속도와 품질의 일관성이 올라간다.

목차
- 1. 런북의 정의: AI 운영에서 무엇을 고정해야 하는가
- 2. 장애 대응 구조: 탐지, 분류, 격리, 복구
- 3. 비용 안정화 전략: 예산, 라우팅, 사용량 제어
- 4. 품질 보호 장치: 회귀 감지와 안전한 롤백
- 5. 운영 리듬: 주간·월간 점검과 학습 루프
- 6. 실전 예시: 한 번의 장애를 끝까지 처리하는 시나리오
1. 런북의 정의: AI 운영에서 무엇을 고정해야 하는가

런북은 “문제 발생 시 누가 무엇을 언제 어떻게 할지”를 고정하는 문서다. 하지만 AI 에이전트 운영에서는 그것만으로 부족하다. 운영자가 무엇을 판단 기준으로 삼는지까지 포함해야 한다. That means thresholds, escalation paths, and the logic behind them. 예를 들어 “응답 지연이 2배 증가하면 알림”이라는 규칙만 적으면, 알림은 울리지만 행동이 연결되지 않는다. 런북은 행동을 자동화하거나 최소한 결정을 단순화하는 구조여야 한다.

또한 AI 시스템은 비결정적이다. 같은 입력에서도 결과가 달라질 수 있다. Therefore a runbook must include probabilistic thinking and tolerance ranges. “평균 응답 품질이 0.82 이하로 떨어졌을 때”처럼 확률 기반 기준을 두어야 한다. 이때 기준의 목적은 완벽한 정답이 아니라 안정된 운영 리듬이다. 운영은 정확성보다 예측 가능성을 우선한다.

런북의 핵심 구성은 세 가지다. (1) 신호 기준, (2) 대응 절차, (3) 사후 학습. The runbook should be short enough to execute under stress. 너무 긴 문서는 위기 상황에서 읽히지 않는다. 구조는 간결하고 반복 가능해야 한다.

2. 장애 대응 구조: 탐지, 분류, 격리, 복구

AI 운영 장애는 일반 소프트웨어 장애와 다르다. 모델이 틀린 답을 내더라도 시스템은 정상으로 보일 수 있다. This is the silent failure problem. 그래서 탐지는 단순한 서버 지표가 아니라 품질 지표까지 포함해야 한다. 예: user re-query rate, fallback trigger rate, tool failure rate. 이 지표들이 기준치를 넘으면 즉시 장애 흐름에 들어가야 한다.

장애 대응은 네 단계로 나누는 것이 실무적으로 가장 안정적이다. First, detect. Second, classify. Third, isolate. Fourth, recover. 탐지는 자동이어야 하고, 분류는 사람이 해야 하며, 격리와 복구는 반자동으로 설계하는 것이 이상적이다. 예를 들어 hallucination rate가 급증했을 때는 “고위험 상태”로 분류하고, 특정 라우팅 정책을 차단하거나 낮은 온도로 내려 실수 확률을 줄인다.

격리는 장애의 확산을 막는 단계다. This is where feature flags and routing rules matter. 특정 유저 세그먼트에서만 문제라면 전체 시스템을 멈추지 않고 해당 구간만 격리할 수 있어야 한다. 격리의 목표는 서비스 중단이 아니라 “문제 범위의 축소”다.

복구는 원상 복귀가 아니라 안정 상태로의 복귀다. It is okay to be slower if you become stable. 예를 들어 높은 품질 모델이 비용을 급격히 올려 장애를 유발했다면, 일시적으로 저비용 모델로 전환해 지표를 안정화시키는 것이 더 낫다. 복구는 기술적 문제 해결과 운영 리듬 회복을 동시에 의미한다.

3. 비용 안정화 전략: 예산, 라우팅, 사용량 제어

AI 에이전트 운영에서 비용은 성능과 함께 움직인다. 비용 안정화는 비용을 줄이는 것이 아니라 예측 가능하게 만드는 것이다. Cost stability is a product requirement, not a finance request. 안정화 전략의 첫 단계는 단위 비용 정의다. 예: “요청 1건당 평균 비용”, “유효 응답 1건당 비용” 같은 단위로 측정해야 한다. 이렇게 해야 비용 급등이 어떤 품질 변화와 연결되는지 보인다.

두 번째는 라우팅 정책이다. Not every request deserves the same model. 요청의 난이도, 위험도, 가치에 따라 모델을 다르게 배치해야 한다. 런북에는 라우팅 계층과 기준이 반드시 포함되어야 한다. “High-risk intent → high-tier model” 같은 간단한 규칙이 비용 폭주를 막는 첫 방어선이다.

세 번째는 사용량 제어다. Usage caps prevent slow bleeding. 하루 예산의 80%를 넘으면 자동으로 토큰 한도를 줄이거나 컨텍스트 길이를 제한하는 정책이 필요하다. 예산 한도는 단순한 비용 절약이 아니라 장애 예방 장치다. 과도한 사용량은 결국 품질 저하와 운영 피로를 만든다.

비용 안정화는 관측성과도 연결된다. If you do not observe cost spikes in real time, you are already late. 런북에 “비용 급등 감지 → 라우팅 다운시프트 → 모니터링 강화”라는 흐름을 넣어야 한다. 이 흐름이 있으면 비용 급등이 곧바로 장애로 이어지는 것을 막을 수 있다.

4. 품질 보호 장치: 회귀 감지와 안전한 롤백

모델 업데이트는 항상 품질 회귀 위험을 동반한다. AI 운영에서 롤백은 배포 전략이 아니라 생존 전략이다. Rollback should be a first-class operation. 이를 위해 런북에는 회귀 감지 기준이 있어야 한다. 예: 특정 세그먼트에서 응답 유효성 점수가 0.1 이상 하락하면 롤백 후보로 자동 등록한다.

품질 보호 장치는 자동 평가와 샘플링 평가를 병행해야 한다. Automated eval gives scale, human review gives depth. 런북에는 “자동 평가 지표 + 수동 샘플링 결과”가 동시에 포함되어야 한다. 한쪽만 있으면 왜곡이 생긴다. 자동 평가는 빠르지만 편향 가능성이 있고, 수동 평가는 정확하지만 느리다. 두 신호를 교차 검증하면 안정성이 올라간다.

롤백의 기준은 기술 지표만으로 정하지 않는다. 운영 팀의 피로도와 고객 불만 수준도 포함되어야 한다. For example, if support tickets spike even with stable latency, rollback is still valid. 이처럼 런북은 기술과 운영을 동시에 고려하는 문서여야 한다.

5. 운영 리듬: 주간·월간 점검과 학습 루프

운영은 이벤트가 아니라 리듬이다. 주간 점검은 작은 이상을 발견하는 데, 월간 점검은 구조적인 문제를 발견하는 데 초점이 있어야 한다. Weekly review is about signals; monthly review is about systems. 런북에는 반드시 점검 루틴이 포함되어야 한다. 그렇지 않으면 장애 대응은 매번 임기응변이 된다.

주간 점검에서 보는 지표는 간단해야 한다. 예: 평균 단위 비용, 재시도율, fallback 비율, 사용자 재질문율. 이 지표들은 “작게 시작하는 문제”를 알려준다. Monthly review에서는 더 깊은 분석이 필요하다. 예: 모델별 비용-품질 곡선, 세그먼트별 품질 분포, 정책 변경 후 효과. 이러한 분석은 런북의 개선으로 이어져야 한다.

학습 루프는 사후 분석을 운영 개선으로 연결하는 단계다. Postmortem is not a report; it is a change request. 장애가 발생하면 원인 분석뿐 아니라 “다음에는 무엇을 자동화할 것인가”를 반드시 정의해야 한다. 그렇지 않으면 장애는 반복된다. 런북은 고정된 문서가 아니라 반복적으로 업데이트되는 운영 시스템이다.

6. 실전 예시: 한 번의 장애를 끝까지 처리하는 시나리오

상황: 평일 오후 3시, 고객 지원 에이전트에서 응답 정확도가 급락했다. 자동 평가 지표에서 유효성 점수가 0.82에서 0.68로 떨어졌고, 재질문율이 2배 증가했다. The system is still up, but quality is collapsing. 이는 전형적인 “보이지 않는 장애”다.

1단계 탐지: 품질 지표 하락으로 경보가 발생한다. 런북에 따라 “품질 회귀”로 분류된다. 2단계 분류: 원인 후보는 두 가지다. (A) 최근 프롬프트 업데이트, (B) 검색 결과 품질 저하. 운영자는 런북의 진단 순서에 따라 먼저 retrieval 상태를 확인한다. Retrieval hit rate가 정상이라면 프롬프트 변경이 원인일 가능성이 높다.

3단계 격리: 신규 프롬프트를 적용한 세그먼트만 임시로 이전 버전으로 되돌린다. This is a partial rollback. 전체 시스템을 멈추지 않고, 영향 범위를 좁힌다. 4단계 복구: 라우팅 정책을 일시적으로 상향해 고위험 요청만 상위 모델로 보낸다. 비용은 증가하지만 품질을 안정화한다. 런북에 따르면 이 조치는 2시간 동안만 유지한다.

사후 학습: Postmortem에서 프롬프트 변경이 어떤 의도였고, 어떤 실패를 만들었는지 기록한다. 다음 주간 점검에서 프롬프트 변경 전후의 지표 차이를 분석한다. 그 결과, “프롬프트 변경은 실험 환경에서만 실행하고 프로덕션에는 단계적으로 적용한다”는 새로운 규칙이 런북에 추가된다. This is how a runbook evolves through experience.

런북은 문서가 아니다. 운영의 행동 언어다. A good runbook reduces panic and increases repeatability. 장애 대응과 비용 안정화는 서로 다른 목표처럼 보이지만, 런북이라는 구조 안에서 동시에 해결될 수 있다. 오늘 제시한 구조를 적용하면 운영팀은 더 빠르게 대응하고, 더 안정적으로 비용을 제어하며, 더 안전하게 품질을 유지할 수 있다.

7. 역할과 책임: 누가 무엇을 소유하는가

런북이 작동하려면 “누가 결정권을 갖는가”가 명확해야 한다. This is the ownership layer. AI 운영에서는 제품 팀, 모델 팀, 인프라 팀, 운영 팀이 동시에 움직인다. 그래서 소유권이 모호하면 판단이 늦어진다. 런북에는 반드시 의사결정 권한과 대체 권한을 명시해야 한다. 예를 들어 모델 라우팅 변경은 운영 리더가 승인하고, 긴급 상황에서는 온콜 엔지니어가 임시로 실행할 수 있도록 규칙을 둔다.

또한 책임은 지표와 연결되어야 한다. KPI without ownership is noise. 예를 들어 “재질문율”은 고객 경험 책임자, “비용 급등”은 운영 리더, “도구 실패율”은 인프라 책임자가 소유한다. 이렇게 나누면 장애가 발생했을 때 책임이 분산되지 않고, 대응 속도가 빨라진다. 런북은 역할 정의를 통해 대응 시간을 줄이는 도구다.

역할 구조는 고정이 아니라 현실에 맞게 조정되어야 한다. If the team is small, one person can own multiple metrics. 중요한 것은 이름이 아니라 “결정이 어디에서 나오는지”를 명확하게 만드는 것이다. 운영이 복잡해질수록 책임 구조는 더 선명해져야 한다.

8. 정책과 데이터: 운영을 지배하는 규칙

AI 운영은 데이터와 정책의 결합이다. Policy defines what is allowed; data defines what is happening. 런북에는 반드시 정책 변경의 절차가 들어가야 한다. 예를 들어 안전 정책을 강화했을 때 false positive가 늘어날 수 있다. 이때 정책 변경은 실험 환경에서 검증 후 배포해야 하며, 배포 후 일정 기간 동안 지표를 집중 모니터링해야 한다.

데이터 품질은 런북의 기반이다. If your telemetry is wrong, your runbook will be wrong. 로그 스키마가 일관되지 않으면 장애 원인을 재현할 수 없다. 따라서 런북에는 “데이터 스키마 변경 시 점검 항목”이 포함되어야 한다. 스키마 변경 후에는 주요 지표의 분포가 크게 변했는지 확인하고, 필요하면 롤백한다. 이 과정은 운영 리스크를 줄인다.

정책과 데이터는 함께 움직인다. 정책이 강화되면 새로운 지표가 필요하고, 데이터가 바뀌면 정책을 다시 검증해야 한다. This loop is the governance core. 런북은 이 루프를 문서로 고정하는 것이 아니라, 자동화로 연결해야 한다.

9. 비용과 품질의 교환 비율을 설계하라

AI 에이전트 운영에서 가장 흔한 함정은 “품질을 올리기 위해 비용을 무제한으로 늘리는 것”이다. Quality without budget is not production-ready. 런북에는 비용-품질 교환 비율을 정의해야 한다. 예: “품질 점수 0.01 상승당 비용 증가율은 5% 이하로 유지한다.” 이런 규칙은 경영진과 운영팀 모두가 이해하기 쉽다.

또한 런북에는 트래픽 유형별 기준이 들어가야 한다. Enterprise users can justify higher cost, but free users cannot. 세그먼트별로 비용 한도와 품질 목표를 다르게 두면, 전체 시스템의 비용 안정성이 올라간다. 이는 단순한 비용 절감이 아니라 전략적 배분이다.

비용과 품질의 교환 비율은 고정된 숫자가 아니다. It evolves with model changes and product goals. 그래서 런북에는 “교환 비율 재평가 주기”가 포함되어야 한다. 월간 점검에서 비용-품질 곡선을 다시 그리고, 그 결과로 정책을 업데이트한다. 이 과정이 없으면 비용은 천천히 누적되며, 나중에 급격한 구조조정이 필요해진다.

10. 운영 자동화: 사람이 아니라 시스템이 먼저 움직여야 한다

런북이 실행될 때 사람이 모든 단계를 수행하는 것은 비효율적이다. Automation reduces response time and removes hesitation. 런북에는 자동화 가능한 단계를 명시해야 한다. 예를 들어 비용 급등 감지 시 자동으로 라우팅을 다운시프트하고, 일정 시간이 지나도 회복되지 않으면 온콜에게 알리는 구조를 만들 수 있다.

자동화의 핵심은 안전성이다. You should never automate a step you cannot revert. 그래서 런북에는 자동화된 행동의 롤백 절차가 반드시 포함되어야 한다. 자동화가 실패했을 때는 즉시 사람에게 전환되어야 하며, 그 지점이 명확해야 한다. 이것이 하이브리드 운영의 기본이다.

운영 자동화는 작은 것부터 시작하는 것이 좋다. First automate alerts, then routing, then recovery. 단계적으로 확장하면 팀이 자동화를 신뢰하게 되고, 결과적으로 운영 부하가 줄어든다. 런북은 자동화의 순서를 제안하는 전략 문서이기도 하다.

마무리: 런북은 운영의 제품이다

런북은 한 번 쓰고 끝나는 문서가 아니다. It is a product that evolves with the system. 장애가 발생할 때마다 런북은 업데이트되어야 하고, 비용 구조가 바뀌면 런북도 다시 설계되어야 한다. 운영팀이 런북을 “업무 문서”가 아니라 “운영 제품”으로 인식할 때, AI 시스템은 안정적으로 성장한다.

운영은 결국 반복이다. Repeatability beats heroics. 이번 글의 구조를 기반으로 런북을 만들면, 개인의 경험이 아니라 시스템의 지식으로 운영할 수 있다. 그 결과 장애 대응 속도는 빨라지고, 비용 안정성은 강화되며, 품질은 예측 가능해진다. 이것이 AI 에이전트 운영 런북의 본질이다.

추가로 강조하고 싶은 점은 “런북의 유지 비용”이다. A runbook that nobody updates is worse than no runbook. 운영팀은 분기마다 런북을 점검하고, 실제 장애 기록과 비교해 차이를 줄여야 한다. 이 작업이 누적되면 런북은 살아있는 운영 시스템이 된다.

또한 런북은 커뮤니케이션 도구다. It aligns executives and engineers around the same operating reality. 경영진에게는 위험과 비용을 설명할 수 있는 근거가 되고, 엔지니어에게는 행동의 기준이 된다. 이런 공통 언어가 생기면 운영은 더 빨라지고, 논쟁은 줄어든다.

마지막으로, 런북은 완벽을 목표로 하지 않는다. It targets stability, not perfection. 완벽한 품질보다 예측 가능한 품질이 중요하며, 완전한 비용 최적화보다 통제 가능한 비용이 중요하다. 이 균형이 유지될 때 AI 에이전트는 실제 비즈니스에서 지속적으로 활용될 수 있다.

운영 지표의 선택도 런북의 일부다. You cannot manage what you do not measure. 지표는 많을수록 좋은 것이 아니라, 행동으로 이어질수록 가치가 있다. 예를 들어 “응답 길이 분포”는 비용과 품질을 동시에 설명할 수 있는 지표다. 평균 길이가 늘면 비용이 상승할 가능성이 높고, 동시에 품질이 개선되는지 여부를 확인해야 한다. 이런 관점에서 지표를 묶어 설명하면, 운영팀은 지표를 단순 숫자가 아니라 결정 근거로 사용하게 된다.

또 하나의 중요한 지표는 “회복 시간”이다. Mean time to recovery is an operational truth serum. 장애 자체는 완전히 제거할 수 없지만, 회복 시간을 줄이면 사용자 피해는 크게 감소한다. 런북에 “복구 목표 시간”을 명시하면 팀의 행동이 빨라지고, 자동화 우선순위도 명확해진다. 이처럼 런북은 지표를 통해 팀의 행동을 정렬하는 장치다.

마지막으로, 운영팀은 런북을 읽는 것이 아니라 실행하는 것이어야 한다. A runbook should feel like a script, not a manifesto. 그래서 문장은 짧고, 결정 기준은 명확하며, 실행 경로는 단순해야 한다. 이렇게 설계된 런북은 신입도 빠르게 따라 할 수 있고, 베테랑도 실수를 줄일 수 있다. 결국 런북은 팀의 속도와 안정성을 동시에 올리는 가장 현실적인 도구다.

이 글의 모든 원칙은 하나의 결론으로 모인다. When ambiguity is removed, operations become predictable. 예측 가능성은 신뢰를 만들고, 신뢰는 장기 운영의 기반이 된다. 런북이 그 기반을 만드는 가장 실용적인 방법이다. 운영은 결국 신뢰의 축적이며, 런북은 그 축적을 가속하는 장치다.

Tags: 런북설계,장애대응,비용안정화,SRE,incident-response,운영자동화,관측성,fallback-strategy,SLO관리,postmortem
2026년 03월 11일
LLM 운영 플레이북: SLO 중심 인시던트 대응과 자동 리커버리 설계
LLM 운영 플레이북: SLO 중심 인시던트 대응과 자동 리커버리 설계

LLM 기반 제품이 커질수록 운영팀이 받는 질문은 단순해집니다. “지금 이 모델은 정상인가?” “어떤 행동을 지금 바로 해야 하는가?” 하지만 답을 만드는 과정은 점점 복잡해집니다. 데이터 파이프라인, prompt 변경, 모델 버전, 캐시 계층, 외부 API 비용, 사용자 세그먼트까지 모두 얽혀 있기 때문이죠. 이 글은 LLM 운영 플레이북의 핵심을 SLO 중심으로 재정의하고, 인시던트 대응을 자동 리커버리까지 확장하는 방법을 정리합니다.

운영은 절차가 아니라 설계입니다. SLO 정의, 신호 분류, 정책 엔진, 자동화된 대응, 그리고 사후 학습까지 하나의 루프를 이루어야 합니다. This is not just “monitoring.” It is an execution system that decides, acts, and learns. 아래에서 그 구조를 단계별로 해부합니다.

목차
1. 운영 관점에서의 SLO 재정의
2. Signal → Decision → Action 흐름 만들기
3. 에러 버짓과 리스크 예산의 균형
4. 인시던트 분류 체계와 대응 스택
5. Runbook 자동화 구조
6. 실시간 관측성과 로그 컨텍스트
7. 복구 전략: Rollback, Shadow, Fallback
8. Postmortem을 학습 루프로 연결하기
9. 비용과 성능을 동시에 추적하는 방법
10. 정책 변경과 버전 관리
11. Human-in-the-loop 설계
12. 테스트와 시뮬레이션 체계
13. 데이터 신선도와 컨텍스트 갱신
14. 보안·컴플라이언스 레이어
15. KPI 매핑과 커뮤니케이션
16. 조직 운영 리듬과 의사결정 체계
17. 마무리: 운영은 설계다
1) 운영 관점에서의 SLO 재정의

전통적인 서비스 운영에서 SLO는 latency, error rate, availability 같은 지표로 정의됩니다. LLM 서비스에서는 여기에 response quality가 추가됩니다. 즉, “정확하고 도움되는 답변을 지정된 시간 안에 제공하는가”가 핵심입니다. 여기에 “프롬프트 안정성(prompt stability)”과 “모델 drift 위험”까지 포함하면 LLM SLO는 최소 4개의 축을 갖게 됩니다. Quality, Latency, Cost, Safety가 그것입니다.

예를 들어, 고객센터용 챗봇이라면 Safety와 Quality의 가중치를 높이고, 실시간 추천이라면 Latency가 최우선일 수 있습니다. 따라서 SLO는 서비스의 목적과 비즈니스 리스크에 맞추어 설계해야 합니다. Defining SLO is a product decision, not a pure engineering task.

2) Signal → Decision → Action 흐름 만들기

운영 신호는 많지만, 실제 의사결정으로 연결되는 것은 소수입니다. Signal은 raw, Decision은 normalized, Action은 executable 입니다. 즉, 관측 로그를 바로 보고 대응하는 것은 오류를 키웁니다. 먼저 신호를 구조화해야 합니다.
- Signal: latency spike, invalid output ratio, retry storm, token surge
- Decision: risk tiering, severity level, owner assignment
- Action: rollback, routing shift, cache flush, model fallback
이 흐름이 자동화되면 운영 대응 속도가 크게 줄어듭니다. 특히 실시간 alert가 많을수록, decision logic을 명문화한 정책 엔진이 중요합니다. The best systems minimize human interpretation at the moment of crisis.

3) 에러 버짓과 리스크 예산의 균형

SLO는 선언만으로 움직이지 않습니다. 팀은 SLO를 위반해도 괜찮은 범위를 알아야 하며, 이를 에러 버짓으로 정의합니다. LLM 서비스에서 에러 버짓은 다음과 같이 확장됩니다.
- Error Budget: 일정 기간 내 허용되는 실패 비율
- Risk Budget: 안전성 가드레일 우회 허용 범위
- Cost Budget: 평균 토큰 비용의 상한선
이 세 예산은 트레이드오프 관계입니다. 예를 들어, cost를 줄이기 위해 작은 모델을 쓰면 quality budget을 소진할 수 있습니다. 따라서 운영 플레이북은 “어떤 상황에서 어떤 예산을 희생할 것인가”를 명시해야 합니다. A clear escalation matrix prevents panic-driven decisions.

4) 인시던트 분류 체계와 대응 스택

LLM 인시던트는 단순 서버 장애가 아닙니다. 출력 품질이 떨어지거나, 특정 사용자 그룹에서만 오류가 증가하는 경우가 많습니다. 그래서 분류는 다음처럼 세분화됩니다.
- Reliability Incident: outage, timeout, failover 필요
- Quality Incident: hallucination surge, unsafe output 증가
- Cost Incident: token usage spike, unexpected bill shock
- Data Incident: stale context, corrupt knowledge base, retrieval mismatch
운영팀은 각 인시던트 유형마다 primary action을 정의해야 합니다. Reliability는 fallback routing, Quality는 prompt patch, Cost는 rate limit과 compression 전략이 핵심입니다. Data incident는 재색인, cache purge, or partial freeze가 필요합니다.

5) Runbook 자동화 구조

Runbook은 사람이 읽는 문서가 아니라, 시스템이 실행할 수 있는 action grammar로 바뀌어야 합니다. 좋은 runbook 자동화는 다음 구조를 가집니다.
1. Trigger: 특정 이벤트 조건
2. Guardrail: 실행 전 검증 규칙
3. Action: 실제 호출/변경 스텝
4. Verify: 실행 이후 상태 확인
5. Escalate: 실패 시 fallback
예를 들어, “token usage spike > 30%”가 Trigger가 되면, Guardrail에서 특정 고객 그룹 제외 여부를 확인하고, Action으로 모델 라우팅 변경, Verify로 비용 확인, 실패 시 human escalation으로 넘기는 구조가 됩니다. The runbook should be executable, not just readable.

6) 실시간 관측성과 로그 컨텍스트

LLM 운영에서 가장 중요한 것은 context입니다. 단순 로그가 아닌 “행동의 이유”가 필요합니다. 이를 위해 다음을 권장합니다.
- Prompt hash, model version, data snapshot ID 기록
- 사용자 segment, region, plan metadata 연결
- 실행된 policy rule과 decision trace 로깅
- 동일 세션에서의 chain-of-thought 요약값 저장
이렇게 기록하면 postmortem에서 “왜 그런 판단이 내려졌는지”를 재현할 수 있습니다. The point is observability is not just metrics; it is decision traceability. 데이터와 운영의 책임이 분리되어 있으면, 이런 traceability는 더 중요해집니다.

7) 복구 전략: Rollback, Shadow, Fallback

복구 전략은 최소 3단계가 필요합니다. Rollback은 가장 빠른 복구이지만, 이전 버전의 안전성을 확보해야 합니다. Shadow deploy는 품질 검증에 유리하지만, 비용이 증가합니다. Fallback routing은 시스템 장애에 강하지만, 품질 저하를 감수해야 합니다.

이 세 전략은 “SLO 손실을 최소화하는 순서”로 배치해야 합니다. 예를 들어, latency incident는 fallback이 우선일 수 있고, quality incident는 rollback이 우선일 수 있습니다. In a multi-model architecture, you can mix rollback and routing at the same time.

8) Postmortem을 학습 루프로 연결하기

Postmortem은 문서로 끝나면 의미가 없습니다. 운영 지식은 반드시 시스템에 반영되어야 합니다. 예를 들어 다음을 자동화할 수 있습니다.
- 새로운 detection rule 생성
- runbook 단계 추가
- 모델 라우팅 정책 업데이트
- 훈련/평가 데이터셋 수정
즉, postmortem은 “지식 업데이트”이며, LLM 운영은 그것을 즉시 반영할 수 있는 구조를 갖추어야 합니다. Treat postmortems like a data pipeline, not a PDF archive.

9) 비용과 성능을 동시에 추적하는 방법

LLM 운영에서 가장 어려운 부분은 cost와 performance의 동시 최적화입니다. Tokens saved는 비용을 줄이지만, context window를 줄이면 quality가 떨어집니다. 이를 해결하려면 아래 3단계를 고려하세요.
- Token Budget을 사용자 세그먼트별로 정의
- Latency Budget을 워크플로 단계별로 정의
- Quality Budget을 KPI와 직접 연결
이 3개의 budget은 하나의 dashboard에서 추적되어야 하며, any drift should trigger an automated workflow. 비용이 급등하면 자동으로 sampling rate를 낮추거나, low-risk queries를 경량 모델로 보낼 수 있어야 합니다.

10) 정책 변경과 버전 관리

운영 플레이북은 코드와 같습니다. 따라서 versioning이 필수입니다. 정책 변경은 반드시 “누가, 언제, 왜”를 기록해야 하며, 변경 전후 비교가 가능해야 합니다. 예를 들어, routing rule을 수정했을 때 어떤 사용자 그룹에 영향을 주었는지 추적할 수 있어야 합니다.

실무에서는 GitOps 스타일의 policy management가 효과적입니다. Policy file을 코드 리뷰와 CI에 포함시키고, 변경 시마다 validation test를 돌립니다. This reduces accidental regressions and makes audits possible.

11) Human-in-the-loop 설계

모든 상황을 자동화할 수는 없습니다. 특히 안전성과 법적 책임이 걸린 경우에는 human approval이 필요합니다. 하지만 사람의 개입도 일종의 리소스입니다. 따라서 human-in-the-loop는 “최소 개입 원칙”을 따라야 합니다.

예를 들어, 승인 기준을 “severity level 4 이상”으로 정의하고, 그 외는 자동 처리하도록 설정합니다. 중요한 것은 사람이 “승인할 가치가 있는 정보”만 받도록 하는 것입니다. Too many alerts create alert fatigue and slow down response.

12) 테스트와 시뮬레이션 체계

운영 플레이북은 실제 인시던트가 없을 때 검증해야 합니다. Chaos testing, load simulation, prompt injection 테스트를 주기적으로 실행해야 합니다. 특히 LLM의 응답 품질은 일반적인 테스트 케이스로는 검증이 어렵습니다. 그래서 sample-based evaluation, adversarial scenario, and golden set 비교가 필요합니다.

실전에서는 다음과 같은 시뮬레이션이 유용합니다.
- 대량 사용자 요청 폭주 시나리오
- 외부 API 장애 시나리오
- 모델 버전 급격한 성능 저하 시나리오
이 테스트 결과는 SLO와 직접 연결되어야 하며, failure threshold를 넘으면 자동으로 배포를 중단하도록 설계해야 합니다. Testing is the only way to trust automation.

13) 데이터 신선도와 컨텍스트 갱신

LLM 응답 품질은 지식의 최신성과 직결됩니다. 데이터가 오래되면 hallucination보다 더 위험한 “정확하지만 구식인 답변”이 발생합니다. 따라서 데이터 신선도는 LLM 운영의 핵심 SLO로 다뤄져야 합니다.

실무에서는 다음 방식이 자주 사용됩니다. 첫째, 데이터 소스별 update SLA를 설정하고, 지연이 발생하면 search 결과에 경고 플래그를 추가합니다. 둘째, retrieval layer에서 freshness scoring을 적용해 최신 문서에 가중치를 부여합니다. Third, context cache should be invalidated by event triggers, not just TTL. 이 구조가 없으면 운영팀은 인시던트가 발생할 때 원인을 찾지 못합니다.

14) 보안·컴플라이언스 레이어

LLM은 민감한 데이터를 다루는 경우가 많습니다. 따라서 운영 플레이북에는 보안 레이어가 포함되어야 합니다. 접근 제어, PII masking, audit trail, 그리고 규정 준수 체크가 모두 연결되어야 합니다. 특히 모델이 외부 API를 호출하는 경우, outbound data governance가 필요합니다.

예를 들어, 금융 또는 의료 도메인에서는 “explainability log”를 별도로 보관하고, 특정 요청은 반드시 human review 후 처리하도록 설계합니다. Security is not a feature; it is a default operational constraint.

15) KPI 매핑과 커뮤니케이션

운영팀은 기술 지표를 비즈니스 KPI와 연결해야 합니다. 예를 들어, “사용자 만족도 5점 만점 평균 4.3 유지”라는 KPI는 SLO로 번역될 때 “응답 정확도 95% 이상, P95 latency 2.5초 이하” 같은 형태로 변환됩니다. 이 매핑이 명확하지 않으면 운영팀은 어떤 알림이 중요한지 판단하지 못합니다.

또한 인시던트 발생 시 커뮤니케이션 프로토콜이 필요합니다. 고객 커뮤니케이션, 내부 리더십 보고, 그리고 엔지니어링 대응이 서로 다른 속도로 움직이기 때문입니다. The playbook should include message templates, escalation paths, and a clear timeline for updates. 이런 구조가 있으면 불필요한 혼선을 줄이고, 팀의 신뢰를 지킬 수 있습니다.

추가로, KPI는 제품 팀과 운영 팀이 공유하는 언어여야 합니다. If leadership only sees a spike in “token cost,” they might make a decision that damages long-term quality. 반대로 운영 팀이 품질 신호만 강조하면, 비즈니스 목표와 분리될 수 있습니다. 그래서 KPI 매핑은 단순 변환이 아니라, 조직의 우선순위를 합의하는 과정입니다.

16) 조직 운영 리듬과 의사결정 체계

운영은 기술만의 문제가 아닙니다. 결국 누가 어떤 기준으로 판단할지가 중요합니다. 운영 리듬은 다음을 포함해야 합니다.
- 주간 SLO 리뷰 회의
- 월간 인시던트 패턴 분석
- 분기별 정책 리팩토링
이 리듬은 조직의 기술 부채를 줄이고, playbook을 지속적으로 업데이트합니다. People change; the playbook must survive. 조직 내 역할과 책임이 명확하지 않으면, 플레이북도 실행되지 않습니다.

17) 마무리: 운영은 설계다

LLM 운영 플레이북은 단순한 문서가 아닙니다. 그것은 “언제 어떤 결정을 할 것인가”를 정의하는 의사결정 시스템입니다. SLO, 신호, runbook, postmortem을 일관된 구조로 묶으면 운영이 자동화되고, 팀은 더 중요한 전략적 문제에 집중할 수 있습니다. 결국 운영은 설계이며, 설계는 시스템을 바꿉니다.

마지막으로, 플레이북은 완성형이 아니라 진화형입니다. It should evolve with new models, new risks, and new business demands. 매 분기마다 검토하고 업데이트하는 습관이 생기면, 운영은 위기 대응이 아니라 경쟁력이 됩니다.

Tags: LLM운영, SLO관리, incident-response, runbook-automation, signal-routing, reliability-budget, error-budget, rollback-policy, postmortem, observability-ops
2026년 03월 07일

[태그:] SLO관리

AI 에이전트 운영 런북: 장애 대응과 비용 안정화까지

AI 에이전트 운영 런북: 장애 대응과 비용 안정화까지

목차

1. 런북의 정의: AI 운영에서 무엇을 고정해야 하는가

2. 장애 대응 구조: 탐지, 분류, 격리, 복구

3. 비용 안정화 전략: 예산, 라우팅, 사용량 제어

4. 품질 보호 장치: 회귀 감지와 안전한 롤백

5. 운영 리듬: 주간·월간 점검과 학습 루프

6. 실전 예시: 한 번의 장애를 끝까지 처리하는 시나리오

7. 역할과 책임: 누가 무엇을 소유하는가

8. 정책과 데이터: 운영을 지배하는 규칙

9. 비용과 품질의 교환 비율을 설계하라

10. 운영 자동화: 사람이 아니라 시스템이 먼저 움직여야 한다

마무리: 런북은 운영의 제품이다

LLM 운영 플레이북: SLO 중심 인시던트 대응과 자동 리커버리 설계

LLM 운영 플레이북: SLO 중심 인시던트 대응과 자동 리커버리 설계

목차

1) 운영 관점에서의 SLO 재정의

2) Signal → Decision → Action 흐름 만들기

3) 에러 버짓과 리스크 예산의 균형

4) 인시던트 분류 체계와 대응 스택

5) Runbook 자동화 구조

6) 실시간 관측성과 로그 컨텍스트

7) 복구 전략: Rollback, Shadow, Fallback

8) Postmortem을 학습 루프로 연결하기

9) 비용과 성능을 동시에 추적하는 방법

10) 정책 변경과 버전 관리

11) Human-in-the-loop 설계

12) 테스트와 시뮬레이션 체계

13) 데이터 신선도와 컨텍스트 갱신

14) 보안·컴플라이언스 레이어

15) KPI 매핑과 커뮤니케이션

16) 조직 운영 리듬과 의사결정 체계

17) 마무리: 운영은 설계다