AI 에이전트 도입 전 확인해야 할 7가지 평가 지표
AI 에이전트 평가는 챗봇 평가와 다르다
기업의 AI 도입 논의가 챗봇에서 에이전트로 이동하고 있다. 챗봇은 주로 질문에 답하고 문서를 요약하며 사용자의 판단을 보조했다. 반면 AI 에이전트는 외부 도구를 호출하고, 업무 상태를 조회하고, 문서를 만들고, 티켓을 수정하고, 승인 요청을 보내고, 경우에 따라 실제 시스템의 데이터를 바꾼다. 이 차이는 평가 방식 전체를 바꾼다. 챗봇은 “답변이 맞는가”가 핵심이었다면, 에이전트는 “업무를 끝까지, 허용된 방식으로, 추적 가능하게 수행했는가”가 핵심이다.
최근 기업용 AI 시장에서도 이 변화가 뚜렷하다. 여러 AI 에이전트가 자료 탐색, 분석, 문서 작성, 업무 실행까지 나누어 처리하는 멀티 에이전트 시스템이 확산되면서, 이를 일관된 정책과 워크플로로 묶는 오케스트레이션 역량이 중요해졌다는 진단이 나온다. 이는 단순히 더 많은 AI 도구를 붙이는 문제가 아니다. 도구가 많아질수록 권한, 로그, 승인, 비용, 책임 경계가 복잡해진다. 출처: AI 에이전트 난립에 사일로 심화…엠클라우드브리지가 제안하는 해결법은?
따라서 AI 에이전트 PoC의 첫 질문은 “어느 모델이 더 똑똑한가”가 아니다. “이 업무를 자동화 가능한 단위로 쪼갰는가”, “성공과 실패를 어떻게 판정할 것인가”, “어떤 행동은 절대 허용하지 않을 것인가”, “문제가 생겼을 때 누가 무엇을 보고 판단할 수 있는가”가 먼저다. 특히 MCP, API, SaaS 커넥터, 내부 데이터베이스, 문서 저장소를 연결하는 구조에서는 답변 품질보다 실행 품질이 더 중요해진다.
이 글은 AI 에이전트를 실제 업무에 도입하기 전 기업이 확인해야 할 7가지 평가 지표를 정리한다. 특정 프레임워크 설치법이나 모델 순위가 아니라, 경영진·전략 담당자·PM·PO·제품 리더·플랫폼 엔지니어·보안 운영 담당자가 PoC 단계에서 합의해야 할 평가 프레임워크다.
먼저 평가 대상을 정의하라: 에이전트는 모델이 아니라 업무 시스템이다
AI 에이전트를 모델 성능만으로 평가하면 반드시 오판한다. 실제 업무용 에이전트는 보통 다음 구성요소의 조합이다.
- 사용자 요청을 해석하는 언어 모델
- 업무 절차를 나누는 플래너
- API, MCP 서버, SaaS 커넥터, 데이터베이스 같은 도구 계층
- 도구 호출 결과를 검증하는 실행 계층
- 승인, 권한, 정책을 적용하는 제어 계층
- 로그, 추적, 비용 집계를 담당하는 운영 계층
- 최종 결과를 사용자나 다른 시스템에 전달하는 인터페이스
즉 “모델이 좋은 답을 냈는가”는 일부에 불과하다. 에이전트가 잘못된 도구를 골랐거나, 권한 없는 데이터를 조회했거나, 실패한 API 호출 뒤에도 성공한 것처럼 보고했거나, 승인 없이 쓰기 작업을 실행했다면 답변 문장이 아무리 자연스러워도 업무 시스템으로는 실패다.
기업용 AI 에이전트 제품이 멀티모달, 도메인 특화, RAG, 상담 자동화, 리스크 보고서 생성 같은 방향으로 확장되는 흐름도 같은 맥락에서 봐야 한다. 기능이 넓어질수록 평가는 “어떤 기능이 있는가”보다 “그 기능이 통제 가능한 업무 흐름으로 작동하는가”에 초점을 맞춰야 한다. 출처: 와이즈넛, 멀티모달 AI 에이전트 공개… LLM 라인업 확대
평가 대상도 단일 답변이 아니라 “업무 케이스”여야 한다. 예를 들어 “지난달 고객 이탈 원인을 분석해줘”라는 요청은 하나의 답변 문제가 아니다. 데이터 조회, 기간 필터링, 고객 세그먼트 구분, 이상치 처리, 시각화, 원인 후보 도출, 근거 링크 제공, 보고서 작성, 공유 권한 확인까지 이어지는 업무 흐름이다. 따라서 테스트셋도 질문 목록이 아니라 실제 업무 시나리오 묶음이어야 한다.
1. 작업 완료율: 최종 목표를 실제로 달성했는가
가장 먼저 볼 지표는 작업 완료율이다. 작업 완료율은 에이전트가 사용자의 최종 목표를 달성한 비율이다. 챗봇 평가의 정답률과 비슷해 보이지만 실제로는 더 까다롭다. 에이전트의 성공은 “그럴듯한 답변”이 아니라 “요청된 업무 상태가 올바르게 바뀌었는가”로 판단해야 하기 때문이다.
예를 들어 영업 운영팀이 “이번 주 미응답 리드 목록을 뽑고, 담당자별 후속 연락 태스크를 생성해줘”라고 요청했다고 하자. 이 업무의 성공 조건은 단순히 미응답 리드를 설명하는 문장이 아니다. CRM에서 올바른 기간과 상태값으로 리드를 조회해야 하고, 중복 리드를 제거해야 하며, 담당자별 태스크를 생성해야 하고, 생성 결과를 추적 가능한 링크로 남겨야 한다. 태스크 생성이 누락됐거나 잘못된 담당자에게 배정됐다면 작업 완료율 관점에서는 실패다.
작업 완료율은 최소 세 단계로 나눠 측정하는 것이 좋다.
| 평가 구분 | 질문 | 예시 판정 |
|---|---|---|
| 완전 성공 | 최종 업무 목표가 정확히 달성됐는가 | 올바른 리드 조회, 태스크 생성, 결과 링크 제공 |
| 부분 성공 | 일부 결과는 유효하지만 사람이 추가 수정해야 하는가 | 리드는 찾았으나 태스크 생성 실패 |
| 실패 | 목표 달성에 필요한 핵심 결과가 없는가 | 잘못된 기간 조회, 무관한 고객 목록 생성 |
작업 완료율을 높게 보이게 만드는 가장 흔한 착시는 “보고 성공”이다. 에이전트가 실제로는 도구 호출에 실패했지만 최종 응답에서 “완료했습니다”라고 말하는 경우다. 이를 막으려면 최종 응답만 채점하지 말고 시스템 상태 변화를 확인해야 한다. 티켓이 생성됐는지, 문서가 저장됐는지, 메일 초안이 올바른 수신자와 내용으로 만들어졌는지, 데이터베이스 변경이 의도한 범위 안에서 일어났는지 확인해야 한다.
PoC에서는 업무별 성공 정의를 먼저 문장으로 고정해야 한다. “보고서 작성”처럼 추상적인 목표는 평가하기 어렵다. “지정된 데이터 소스 3개를 조회해 최근 30일 기준 요약표와 리스크 목록을 생성하고, 원본 링크를 포함한 문서를 공유 폴더에 저장한다”처럼 판정 가능한 결과로 바꿔야 한다. 구체 수치가 필요한 경우에는 내부 업무 기준으로 정하면 되지만, 외부 벤치마크 숫자를 임의로 가져와 성공 기준처럼 쓰는 것은 피해야 한다.
2. 단계별 성공률: 어디서 실패했는지 알아야 개선할 수 있다
작업 완료율만 보면 전체 결과는 알 수 있지만 원인은 알기 어렵다. 에이전트는 여러 단계를 거쳐 일한다. 계획 수립, 도구 선택, 입력값 구성, 인증, 데이터 조회, 결과 해석, 사용자 승인, 쓰기 작업, 후속 알림까지 각 단계가 따로 실패할 수 있다. 따라서 두 번째 지표는 단계별 성공률이다.
업무 자동화 PoC에서 흔히 벌어지는 문제는 “전체 성공률은 낮은데 왜 낮은지 모르는 상태”다. 모델이 업무를 이해하지 못한 것인지, 도구 설명이 부족한 것인지, API 스키마가 복잡한 것인지, 권한 설정이 잘못된 것인지, 승인 흐름이 사용자 경험을 방해한 것인지 구분하지 못하면 개선도 불가능하다.
단계별 평가는 다음처럼 설계할 수 있다.
| 단계 | 평가 질문 | 실패 예시 |
|---|---|---|
| 의도 해석 | 사용자의 목표와 제약을 정확히 이해했는가 | “이번 분기”를 “최근 3개월”로 잘못 해석 |
| 계획 수립 | 필요한 하위 작업을 빠짐없이 나눴는가 | 승인 단계 없이 바로 변경 작업 계획 |
| 도구 선택 | 목적에 맞는 API/MCP 도구를 골랐는가 | 읽기 전용 조회에 쓰기 API 선택 |
| 입력 구성 | 파라미터, 필터, 날짜, ID가 정확한가 | 고객 ID 대신 고객명 문자열 전달 |
| 실행 처리 | 호출 실패, 타임아웃, 빈 결과를 제대로 다뤘는가 | API 실패 후 성공처럼 응답 |
| 결과 검증 | 결과가 요청과 일치하는지 확인했는가 | 조회 건수 불일치 미감지 |
| 승인·후속 액션 | 위험 작업 전 승인을 받았는가 | 사용자 확인 없이 문서 공유 범위 변경 |
이 지표의 핵심은 “실패를 잘게 보는 것”이다. 에이전트가 최종적으로 실패했더라도 계획은 맞았고 API 권한만 부족했다면 해결책은 모델 교체가 아니라 권한·커넥터 설정 개선이다. 반대로 API는 정상인데 잘못된 도구를 반복 선택한다면 도구 설명, 프롬프트, 라우팅 정책, 예시 개선이 필요하다.
멀티 에이전트 구조에서는 단계별 성공률이 더 중요해진다. 리서처 에이전트가 자료를 찾고, 애널리스트 에이전트가 해석하고, 라이터 에이전트가 문서를 만들고, 리뷰어 에이전트가 검토하는 구조라면 최종 문서만으로는 병목을 알 수 없다. 어떤 역할이 중복 호출을 만들었는지, 어떤 에이전트가 책임을 다른 에이전트에 떠넘겼는지, 어느 단계에서 컨텍스트가 손실됐는지 추적해야 한다. 기업 시장에서 오케스트레이션 역량이 중요해지는 이유도 여기에 있다. 출처: AI 에이전트 난립에 사일로 심화…엠클라우드브리지가 제안하는 해결법은?
3. 도구 호출 성공률: 올바른 도구를, 올바른 방식으로 호출했는가
AI 에이전트의 실무 가치는 도구 호출에서 나온다. 이메일, 캘린더, CRM, ERP, 데이터 웨어하우스, 문서 저장소, 결제 시스템, 보안 콘솔, 사내 위키와 연결되지 않은 에이전트는 대부분 고급 챗봇에 머문다. 그러나 도구를 연결하는 순간 평가 난도는 크게 올라간다. “말을 잘하는가”가 아니라 “도구를 정확히 다루는가”를 봐야 한다.
도구 호출 평가는 최소 네 가지로 나눠야 한다.
- 도구 선택 정확도: 업무 목적에 맞는 도구를 골랐는가
- 파라미터 정확도: 날짜, ID, 필터, 권한 범위, 정렬 조건을 맞게 넣었는가
- 실행 성공률: 호출이 정상 완료됐고 결과를 수신했는가
- 실패 처리 품질: 오류, 빈 결과, 권한 거부, 타임아웃에 적절히 대응했는가
MCP나 API 기반 연동에서는 특히 “도구 설명”이 평가 품질을 좌우한다. 에이전트는 도구 이름, 설명, 입력 스키마, 출력 스키마, 오류 메시지를 근거로 어떤 도구를 쓸지 판단한다. 도구 설명이 모호하면 모델이 아무리 좋아도 잘못된 호출을 한다. 예를 들어 `updateCustomer`와 `patchCustomerStatus`처럼 비슷한 도구가 있을 때, 각 도구의 쓰임새와 위험도를 명확히 구분하지 않으면 에이전트는 불필요하게 넓은 권한의 도구를 선택할 수 있다.
도구 호출 성공률을 볼 때 단순 HTTP 성공 여부만 보면 안 된다. API가 200 응답을 줬더라도 업무적으로 실패일 수 있다. 빈 목록을 반환했는데 이를 정상 결과로 오해했거나, 페이지네이션 때문에 일부 데이터만 조회했거나, 기본 정렬 때문에 오래된 데이터를 최신 데이터처럼 사용했을 수 있다. 따라서 도구 호출 로그에는 요청 파라미터, 응답 상태, 주요 결과 요약, 결과 건수, 오류 유형, 재시도 여부가 남아야 한다.
MCP처럼 내부 시스템과 외부 도구를 연결하는 방식이 확산될수록 보안 연동 방식도 평가 대상이 된다. 기업 내부 시스템과 에이전트를 연결하려면 네트워크 접근, 인증, 세션 관리, 터널링, 권한 위임 같은 문제가 따라온다. 엔터프라이즈 환경에서는 연결이 되는지보다 “어떤 권한으로, 어떤 범위까지, 어떤 기록을 남기며 연결되는지”가 더 중요하다. 출처: 앤스로픽, 기업 내부 시스템 보안 연동 강화한 MCP 터널 공개
4. 실패 복구 가능성: 실패를 숨기지 않고 안전하게 멈추는가
좋은 에이전트는 실패하지 않는 에이전트가 아니다. 실패를 감지하고, 복구 가능한 실패와 중단해야 할 실패를 구분하며, 사용자에게 필요한 판단 정보를 제공하는 에이전트다. 업무 자동화에서 실패는 피할 수 없다. API가 타임아웃될 수 있고, 권한이 만료될 수 있으며, 사용자의 요청이 모호할 수 있고, 원본 데이터가 비어 있을 수 있다. 중요한 것은 실패 이후의 행동이다.
실패 복구 평가는 다음 질문으로 시작해야 한다.
- 에이전트가 실패를 감지했는가
- 실패 원인을 분류했는가
- 재시도 가능한 오류와 중단해야 하는 오류를 구분했는가
- 재시도 횟수와 간격이 정책 안에 있는가
- 부분 완료 상태를 사용자에게 명확히 알렸는가
- 롤백 또는 보정 조치가 필요한 경우 이를 제안했는가
예를 들어 문서 요약 에이전트가 원본 파일 10개 중 8개만 읽었다면, “요약 완료”라고 말하면 안 된다. “10개 중 8개를 처리했고, 2개는 권한 오류로 제외됐다”고 보고해야 한다. 결제, 인사, 고객정보, 보안 설정처럼 위험도가 높은 업무에서는 일부 실패 후 자동으로 다음 단계를 진행하는 것이 더 위험할 수 있다. 이 경우 안전한 중단이 성공적인 행동이다.
실패 복구에서 특히 중요한 것은 재시도 정책이다. 모든 실패를 재시도하면 비용과 부하가 커지고, 쓰기 작업에서는 중복 실행 위험이 생긴다. 반대로 재시도를 전혀 하지 않으면 일시적 네트워크 오류에도 업무가 멈춘다. 따라서 재시도 가능한 오류, 재시도 금지 오류, 사용자 확인 필요 오류를 분리해야 한다. 예를 들어 조회 API 타임아웃은 제한된 횟수 안에서 재시도할 수 있지만, 권한 거부나 승인 누락은 재시도할 문제가 아니라 중단하고 보고할 문제다.
실패 복구 가능성은 멀티 에이전트 구조에서 더 까다롭다. 앞 단계 에이전트가 불완전한 산출물을 만들었는데 뒤 단계 에이전트가 이를 정상 입력으로 받아들이면 오류가 누적된다. 따라서 에이전트 간 전달물에는 상태, 신뢰도, 누락 항목, 사용한 소스, 검증 여부가 포함되어야 한다. 단순히 자연어 문단을 다음 에이전트에 넘기는 방식은 운영 단계에서 취약하다.
5. 안전성·권한·승인 준수율: 해도 되는 일만 했는가
AI 에이전트가 업무 시스템에 들어오는 순간 가장 중요한 질문은 “성능이 좋은가”가 아니라 “허용되지 않은 행동을 하지 않는가”다. 특히 읽기 작업과 쓰기 작업을 구분하지 않으면 위험하다. 데이터를 조회하는 에이전트와 고객 상태를 변경하는 에이전트, 내부 문서를 요약하는 에이전트와 외부로 공유하는 에이전트는 전혀 다른 위험 등급을 가져야 한다.
안전성·권한·승인 지표는 다음 항목을 포함해야 한다.
| 지표 | 평가 질문 |
|---|---|
| 권한 범위 준수 | 에이전트가 사용자 권한을 초과해 데이터에 접근하지 않았는가 |
| 읽기/쓰기 분리 | 조회 작업과 변경 작업이 명확히 구분됐는가 |
| 승인 준수율 | 고위험 작업 전 사용자 또는 관리자 승인을 받았는가 |
| 민감정보 보호 | 개인정보, 영업비밀, 보안정보 접근과 출력이 제한됐는가 |
| 정책 위반 차단 | 금지된 도구 호출이나 데이터 반출을 중단했는가 |
| 최소권한 원칙 | 업무에 필요한 최소 도구와 범위만 사용했는가 |
이 지표는 단순 보안 체크리스트가 아니다. 제품 설계의 중심 기준이어야 한다. 에이전트에게 처음부터 광범위한 관리자 권한을 주면 PoC는 빠르게 진행될 수 있지만 운영 전환은 어려워진다. 반대로 권한을 지나치게 좁게 주면 모든 업무가 실패한다. 실무적으로는 업무 유형별 권한 프로필을 만들고, 읽기 전용 PoC에서 시작해 제한된 쓰기 작업, 승인 기반 쓰기 작업, 자동 실행 작업 순서로 넓혀가는 방식이 현실적이다.
마이크로소프트가 AI 에이전트 행동 평가와 실행 통제를 표준화하는 흐름을 공개한 것도 같은 문제의식에서 볼 수 있다. 자연어 행동 요구사항을 실행 가능한 평가로 바꾸고, 런타임에서 무엇을 해도 되고 무엇을 해서는 안 되는지 통제하려는 접근은 기업용 에이전트 운영의 핵심 방향이다. 이 글에서 특정 프레임워크 자체를 튜토리얼로 다루지는 않지만, 정책 위반을 사후 리뷰가 아니라 실행 단계에서 차단해야 한다는 방향성은 중요하다. 출처: MS, AI 에이전트 검증·통제 기준 제시…”정책 위반 차단”
승인 설계도 정교해야 한다. 모든 작업에 승인을 요구하면 자동화의 장점이 사라진다. 그러나 고위험 작업을 자동 실행하면 사고 가능성이 커진다. 따라서 승인 정책은 작업 위험도별로 나눠야 한다.
| 위험도 | 예시 | 권장 처리 |
|---|---|---|
| 낮음 | 공개 문서 검색, 내부 위키 조회, 초안 작성 | 자동 실행 가능 |
| 중간 | 고객 목록 추출, 내부 보고서 생성, 캘린더 초안 작성 | 로그 기록, 필요 시 확인 |
| 높음 | 외부 발송, 권한 변경, 고객 상태 변경, 비용 발생 작업 | 사전 승인 필수 |
| 매우 높음 | 결제 실행, 대량 삭제, 보안 정책 변경 | 다중 승인 또는 자동화 제외 |
보안팀과 IT 운영팀은 “에이전트가 좋은 답을 내는가”보다 “권한 위반 시 어떻게 멈추는가”를 봐야 한다. 허용되지 않은 요청을 받았을 때 에이전트가 다른 경로로 우회하지 않는지, 민감정보를 요약이라는 명목으로 노출하지 않는지, 승인 거부 후 재시도하거나 표현만 바꿔 같은 작업을 실행하지 않는지 평가해야 한다.
6. 감사 로그와 재현 가능성: 나중에 설명할 수 있는가
기업 환경에서 AI 에이전트의 결과는 사후 설명 가능해야 한다. “왜 이 결론이 나왔는가”, “어떤 데이터를 봤는가”, “누가 승인했는가”, “어떤 도구를 호출했는가”, “실패는 어디서 났는가”, “결과를 재현할 수 있는가”에 답하지 못하면 운영 시스템으로 보기 어렵다.
감사 로그는 단순 대화 기록이 아니다. 대화 기록만으로는 실제 실행을 설명할 수 없다. 최소한 다음 정보가 구조화되어 남아야 한다.
- 요청 ID와 사용자 ID
- 사용자의 원문 요청
- 에이전트가 세운 계획
- 호출한 도구와 각 호출의 입력 파라미터
- 도구 응답 상태와 핵심 결과 요약
- 사용한 데이터 소스와 문서 링크
- 승인 요청과 승인자, 승인 시각
- 정책 검사 결과
- 최종 산출물과 저장 위치
- 오류, 재시도, 중단 사유
- 토큰, API, 외부 서비스 비용 추정치
이 로그는 세 부서가 각각 다른 목적으로 사용한다. 제품·운영 리더는 실패율과 병목을 본다. 엔지니어는 오류 원인과 재현 조건을 본다. 보안·감사 담당자는 권한 위반과 민감정보 접근을 본다. 따라서 로그는 사람이 읽는 텍스트와 기계가 집계할 수 있는 구조화 데이터가 함께 있어야 한다.
재현 가능성은 특히 중요하다. 같은 요청을 다시 실행했을 때 동일한 결과가 항상 나와야 한다는 뜻은 아니다. AI 모델과 외부 데이터는 변할 수 있다. 그러나 최소한 당시의 입력, 도구 버전, 데이터 소스, 실행 순서, 주요 판단 근거를 따라가면 왜 그런 결과가 나왔는지 설명할 수 있어야 한다. “모델이 그렇게 답했다”는 기업 운영에서 충분한 설명이 아니다.
AI 코딩 에이전트 영역에서도 병목은 코드 생성 자체보다 리뷰, 보안, 거버넌스, 배포로 이동하고 있다는 지적이 나온다. 이는 일반 업무 에이전트에도 그대로 적용된다. 에이전트가 산출물을 만드는 능력보다, 그 산출물을 검토하고 통제하고 운영에 올리는 체계가 더 큰 병목이 된다. 출처: GitHub recognized as a Leader in the Gartner® Magic Quadrant™ for Enterprise AI Coding Agents for the third year in a row
감사 로그 설계에서 피해야 할 함정도 있다. 첫째, 모든 프롬프트와 응답을 무작정 저장하면 민감정보 저장소가 하나 더 생긴다. 로그에도 마스킹, 보존 기간, 접근 권한이 필요하다. 둘째, 로그가 너무 상세하지만 검색과 집계가 불가능하면 운영 가치가 낮다. 셋째, 비용 문제로 로그를 지나치게 줄이면 사고 조사 때 아무것도 설명하지 못한다. 로그는 보안 리스크이면서 동시에 운영 안전장치다.
7. 비용·지연시간·운영 안정성: 끝낼 수 있어도 운영할 수 있는가
AI 에이전트는 업무를 끝낼 수 있어도 운영에 적합하지 않을 수 있다. 처리 시간이 너무 길거나, 외부 API 호출이 과도하거나, 토큰 사용량이 불안정하거나, 실패할 때마다 재시도로 비용이 급증하면 실제 서비스에 넣기 어렵다. 따라서 마지막 핵심 지표는 비용·지연시간·운영 안정성이다.
평가해야 할 항목은 다음과 같다.
| 지표 | 의미 |
|---|---|
| 업무 1건당 비용 | 모델 호출, 도구 호출, 외부 API, 검색, 저장 비용의 합 |
| 평균 처리 시간 | 사용자가 기다려야 하는 전체 시간 |
| 단계별 지연시간 | 계획, 검색, 도구 호출, 생성, 검증 중 병목 위치 |
| 재시도 비용 | 실패 복구 과정에서 추가로 발생한 비용 |
| 피크 부하 안정성 | 동시에 여러 요청이 들어왔을 때 실패율 증가 여부 |
| 외부 의존성 안정성 | SaaS API, 검색 API, 내부 시스템 장애에 대한 영향 |
운영 비용은 단순 토큰 비용만 보면 안 된다. 에이전트는 검색, 파일 처리, 벡터 DB 조회, SaaS API 호출, 문서 생성, 알림 발송 등 여러 비용 항목을 만든다. 특히 멀티 에이전트 구조에서는 같은 데이터를 여러 에이전트가 반복 조회하거나, 검토 에이전트가 긴 문서를 다시 읽거나, 실패 복구 과정에서 도구 호출이 반복되면서 비용이 커질 수 있다.
지연시간도 업무 성격별로 다르게 평가해야 한다. 사용자가 화면 앞에서 기다리는 고객지원 보조 에이전트라면 짧은 응답 시간이 중요하다. 반면 야간에 보고서를 생성하는 백오피스 에이전트라면 몇 분의 지연보다 정확성, 로그, 승인 준수가 더 중요할 수 있다. 모든 에이전트에 같은 응답시간 기준을 적용하면 잘못된 설계가 나온다.
운영 안정성 관점에서는 “성공률 평균”보다 “실패 양상”을 봐야 한다. 일부 어려운 요청에서만 실패하는지, 특정 SaaS API 장애 때 전체 워크플로가 멈추는지, 권한 만료 시 사용자에게 명확히 안내하는지, 동시 요청이 늘면 큐가 쌓이는지 확인해야 한다. API와 마이크로서비스처럼 에이전트를 운영하려는 컨트롤 플레인 접근이 주목받는 이유도 관측성, 라우팅, 정책, 배포, 상태 관리가 필요하기 때문이다. 출처: AgentField: AI 에이전트를 API와 마이크로서비스처럼 운영하기 위한 오픈소스 컨트롤 플레인
PoC 단계에서는 비용을 너무 정밀하게 예측하려 하기보다 업무 단위 비용 구조를 드러내는 것이 우선이다. 어떤 단계가 비용을 많이 쓰는지, 어떤 요청 유형이 긴 컨텍스트를 요구하는지, 어떤 도구 호출이 반복되는지, 실패 시 비용이 얼마나 커지는지 확인해야 한다. 운영 전환 판단은 “가능하다”가 아니라 “예측 가능하고 통제 가능하다”에 가까워야 한다.
심화: 멀티 에이전트 오케스트레이션은 개별 성능보다 전체 흐름을 평가해야 한다
멀티 에이전트 구조는 복잡한 업무를 나누는 데 유용하다. 리서치, 분석, 작성, 검토, 실행, 감사 같은 역할을 분리하면 각 에이전트의 프롬프트와 도구 권한을 좁힐 수 있다. 하지만 역할이 늘어날수록 평가 기준도 바뀐다. 개별 에이전트가 잘해도 전체 워크플로가 실패할 수 있다.
멀티 에이전트 평가는 다음 항목을 추가로 봐야 한다.
- 역할 경계: 각 에이전트가 맡은 책임을 넘지 않는가
- 중복 호출: 같은 도구나 같은 데이터를 불필요하게 반복 조회하지 않는가
- 컨텍스트 전달: 앞 단계의 근거와 제약이 뒤 단계로 정확히 전달되는가
- 충돌 해결: 에이전트 간 판단이 다를 때 우선순위가 있는가
- 전체 완료율: 개별 단계 성공이 최종 업무 성공으로 이어지는가
- 책임 추적: 최종 오류가 어느 역할에서 시작됐는지 알 수 있는가
예를 들어 고객 불만 분석 에이전트 시스템을 생각해보자. 수집 에이전트는 VOC 데이터를 가져오고, 분류 에이전트는 이슈 유형을 나누고, 분석 에이전트는 원인을 추론하고, 실행 에이전트는 담당팀에 티켓을 만든다. 이때 분류 에이전트가 “배송 지연”과 “환불 지연”을 혼동하면 뒤 단계가 모두 그럴듯하지만 잘못된 결론을 낼 수 있다. 따라서 최종 티켓 품질만 보지 말고 중간 산출물의 정확성과 전달 구조를 봐야 한다.
멀티 에이전트 시스템이 확산되면 사일로 문제도 생긴다. 부서별로 서로 다른 에이전트를 만들고, 각자 다른 도구와 권한을 붙이고, 로그 형식도 다르면 운영 통제가 어렵다. 기업용 소프트웨어 시장에서 여러 AI 도구와 모델을 일관된 정책과 워크플로로 묶는 오케스트레이션이 핵심 경쟁력으로 부상한다는 분석은 이 문제를 잘 보여준다. 출처: AI 에이전트 난립에 사일로 심화…엠클라우드브리지가 제안하는 해결법은?
멀티 에이전트 PoC에서는 처음부터 모든 역할을 자동화하지 않는 편이 낫다. 우선 단일 워크플로에서 평가 가능한 병목을 찾고, 사람 승인 지점을 명확히 둔 뒤, 반복성과 위험도가 낮은 역할부터 분리하는 방식이 현실적이다. “에이전트 수가 많다”는 것은 성숙도의 지표가 아니다. 오히려 책임 경계가 모호한 에이전트가 많으면 실패 원인을 찾기 어려워진다.
실사용 시나리오 1: 영업 운영 자동화 평가
상황: 영업팀이 CRM에서 이번 주 미응답 리드를 찾아 담당자별 후속 태스크를 만들고 싶다.
입력: “이번 주 신규 리드 중 48시간 이상 응답 없는 건을 찾아 담당자별 후속 연락 태스크를 만들어줘.”
실행 흐름: 에이전트는 CRM 조회 도구를 선택하고, 기간과 상태 조건을 구성하고, 미응답 기준을 적용한다. 이후 담당자별 태스크 생성 초안을 만들고, 중복 리드와 VIP 고객 여부를 확인한 뒤, 쓰기 작업 전 사용자 승인을 요청한다. 승인 후 태스크를 생성하고 결과 링크를 제공한다.
출력: 담당자별 태스크 생성 결과, 제외된 리드 목록, 생성 실패 항목, CRM 링크, 실행 로그 요약.
주의점: 이 업무의 평가는 “리드 목록을 잘 설명했는가”가 아니다. 올바른 리드를 찾았는지, 중복 태스크를 만들지 않았는지, 담당자 배정이 맞는지, 승인 후에만 쓰기 작업을 했는지, 실패 항목을 숨기지 않았는지 봐야 한다. 핵심 지표는 작업 완료율, 도구 호출 성공률, 승인 준수율이다.
실사용 시나리오 2: 월간 경영 보고서 초안 생성 평가
상황: 전략팀이 여러 내부 데이터와 문서를 바탕으로 월간 경영 보고서 초안을 만들고 싶다.
입력: “지난달 매출, 고객 이탈, 주요 리스크를 요약해 임원 회의용 보고서 초안을 만들어줘.”
실행 흐름: 에이전트는 데이터 웨어하우스, CRM, 고객지원 시스템, 기존 보고서 저장소를 조회한다. 지표 정의를 확인하고, 기간 기준을 맞추고, 이상치를 표시하고, 근거 링크를 포함해 문서를 작성한다. 외부 공유가 아니라 내부 초안 저장만 수행한다.
출력: 보고서 초안, 사용한 데이터 소스 목록, 지표 정의, 주요 리스크, 확인 필요 항목.
주의점: 이 업무는 숫자를 임의로 생성하면 치명적이다. 확인되지 않은 수치는 쓰지 않아야 하고, 데이터 출처가 불명확하면 “확인 필요”로 표시해야 한다. 평가 지표는 단계별 성공률, 감사 로그, 재현 가능성, 비용·지연시간이다. 보고서 문장이 매끄러워도 출처가 없으면 실패로 봐야 한다.
실사용 시나리오 3: IT 운영 티켓 처리 평가
상황: IT 운영팀이 반복적인 권한 요청 티켓을 에이전트로 분류하고 일부 처리를 자동화하려 한다.
입력: “신규 입사자 권한 요청 티켓을 검토하고 표준 권한이면 처리해줘.”
실행 흐름: 에이전트는 티켓 내용을 읽고, 사용자 부서와 직무를 확인하고, 표준 권한 매트릭스와 비교한다. 표준 범위 안이면 승인 요청을 생성하고, 비표준 권한이면 보안팀 검토로 라우팅한다. 권한 변경은 승인 후에만 실행한다.
출력: 자동 처리 가능 티켓, 보안 검토 필요 티켓, 승인 대기 목록, 권한 변경 로그.
주의점: 권한 업무에서는 자동화율보다 권한 위반 방지가 중요하다. 표준 권한을 벗어난 요청을 자동 처리하지 않는지, 승인 없이 권한을 부여하지 않는지, 권한 변경 내역이 감사 가능하게 남는지 평가해야 한다. 핵심 지표는 권한 범위 준수, 승인 준수율, 정책 위반 차단, 감사 로그다.
실사용 시나리오 4: 고객지원 답변·후속 처리 평가
상황: 고객지원팀이 문의 내용을 분석해 답변 초안을 만들고, 필요한 경우 환불 또는 기술지원 티켓을 생성하려 한다.
입력: “이 고객 문의를 처리해줘. 환불 대상이면 절차를 진행하고, 기술 문제면 담당팀 티켓을 만들어줘.”
실행 흐름: 에이전트는 문의 내용을 분류하고, 고객 계약과 환불 정책을 조회하고, 과거 이력을 확인한다. 환불 가능성이 있으면 승인 요청을 만들고, 기술 이슈면 담당팀 티켓 초안을 생성한다. 고객에게 발송되는 문장은 사람이 검토할 수 있도록 초안 상태로 둔다.
출력: 문의 유형, 근거 정책, 답변 초안, 환불 승인 요청 또는 기술지원 티켓 초안.
주의점: 고객지원 자동화는 답변 품질만 평가하면 부족하다. 정책 적용이 정확한지, 고객 개인정보를 불필요하게 노출하지 않는지, 외부 발송 전 승인을 받는지, 환불 같은 비용 발생 작업을 자동 실행하지 않는지 확인해야 한다. 핵심 지표는 작업 완료율, 민감정보 보호, 승인 준수율, 실패 복구 가능성이다.
PoC 평가 설계: 테스트셋보다 먼저 실패 기준을 정하라
AI 에이전트 PoC에서 가장 흔한 실수는 성공 사례 데모만 모으는 것이다. 데모는 설득에는 유용하지만 도입 판단에는 부족하다. 실제 평가는 실패 기준을 먼저 정해야 한다.
PoC 설계 순서는 다음이 적절하다.
- 자동화할 업무를 3~5개 대표 시나리오로 제한한다.
- 각 시나리오의 성공 조건과 실패 조건을 문장으로 정의한다.
- 읽기 작업, 쓰기 작업, 외부 발송, 권한 변경 등 위험 등급을 나눈다.
- 각 단계의 로그 필드를 정한다.
- 테스트 케이스에 정상 요청, 모호한 요청, 권한 부족, 데이터 없음, API 실패, 승인 거부를 포함한다.
- 결과를 작업 완료율, 단계별 성공률, 도구 호출 성공률, 승인 준수율, 감사 가능성, 비용·지연시간으로 집계한다.
- 운영 전환 기준과 자동화 제외 기준을 함께 정한다.
중요한 것은 “좋은 결과가 나온 비율”뿐 아니라 “절대 나오면 안 되는 결과가 나왔는가”다. 예를 들어 고객 개인정보를 권한 없는 사용자에게 보여준 사례가 한 번이라도 있다면 평균 점수가 높아도 운영 투입은 어렵다. 승인 없이 비용 발생 작업을 실행한 사례도 마찬가지다. 기업용 에이전트 평가는 평균 성능과 금지 위반을 분리해서 봐야 한다.
MS의 ASSERT/ACS 같은 흐름은 이 맥락에서 참고할 만하다. 자연어 정책을 평가 가능한 요구사항으로 바꾸고, 런타임에서 정책 위반을 차단하려는 방향은 기업이 자체 평가 체계를 만들 때도 유용한 관점이다. 다만 PoC 단계에서 특정 프레임워크 도입 자체가 목적이 되어서는 안 된다. 먼저 조직의 업무 위험, 승인 정책, 로그 요구사항을 명확히 해야 한다. 출처: MS, AI 에이전트 검증·통제 기준 제시…”정책 위반 차단”
평가 체크리스트: 도입 전 반드시 묻는 20문항
아래 질문에 답하지 못하면 아직 운영 도입 단계가 아니다.
| 영역 | 질문 |
|---|---|
| 업무 정의 | 이 에이전트가 끝내야 할 업무의 성공 조건이 명확한가 |
| 업무 정의 | 부분 성공과 실패를 구분하는 기준이 있는가 |
| 단계 추적 | 계획, 도구 선택, 실행, 승인, 후속 액션별 로그가 남는가 |
| 도구 호출 | 잘못된 도구 선택을 탐지할 수 있는가 |
| 도구 호출 | API 실패, 빈 결과, 권한 오류를 구분하는가 |
| 권한 | 사용자 권한을 초과한 데이터 접근을 막는가 |
| 권한 | 읽기 도구와 쓰기 도구가 분리되어 있는가 |
| 승인 | 고위험 작업 전 승인 절차가 강제되는가 |
| 승인 | 승인 거부 후 에이전트가 우회 실행하지 않는가 |
| 민감정보 | 개인정보와 기밀정보가 로그와 응답에서 보호되는가 |
| 실패 복구 | 재시도 가능한 오류와 중단해야 할 오류를 구분하는가 |
| 실패 복구 | 부분 완료 상태를 사용자에게 명확히 알리는가 |
| 감사 | 어떤 데이터와 도구를 사용했는지 추적 가능한가 |
| 감사 | 실행 결과를 사후 재현 또는 설명할 수 있는가 |
| 비용 | 업무 1건당 비용을 집계할 수 있는가 |
| 지연시간 | 사용자 대기 시간과 백그라운드 처리 시간을 구분하는가 |
| 안정성 | 외부 SaaS 장애 시 안전하게 중단하거나 대체 경로를 쓰는가 |
| 멀티 에이전트 | 역할 경계와 책임 소재가 명확한가 |
| 운영 | 실패율과 정책 위반을 대시보드로 볼 수 있는가 |
| 도입 판단 | 자동화 제외 업무와 사람 승인 필수 업무가 정의되어 있는가 |
이 체크리스트는 기술팀만의 문서가 아니다. 경영진은 자동화 효과와 운영 리스크를 판단해야 하고, PM·PO는 업무 범위와 사용자 경험을 설계해야 하며, 엔지니어는 도구 호출과 로그 구조를 만들어야 하고, 보안·IT 운영팀은 권한과 감사 기준을 확정해야 한다. AI 에이전트 도입은 모델 구매가 아니라 업무 시스템 설계다.
결론: 말을 잘하는 AI가 아니라 책임 있게 일하는 AI를 평가하라
AI 에이전트의 가능성은 분명하다. 자료를 찾고, 시스템을 조회하고, 문서를 만들고, 반복 업무를 줄이는 능력은 이미 여러 기업용 제품과 PoC에서 확인되고 있다. 하지만 가능성이 곧 운영 적합성을 뜻하지는 않는다. 업무 시스템에 들어오는 순간 에이전트는 정확성뿐 아니라 권한, 승인, 로그, 비용, 지연시간, 실패 복구까지 평가받아야 한다.
따라서 AI 에이전트 도입 전 확인해야 할 7가지 지표는 다음으로 요약된다.
- 작업 완료율: 최종 업무 목표를 실제로 달성했는가
- 단계별 성공률: 어디서 실패했는지 추적 가능한가
- 도구 호출 성공률: 올바른 도구를 올바른 방식으로 썼는가
- 실패 복구 가능성: 실패를 숨기지 않고 안전하게 멈추거나 복구하는가
- 안전성·권한·승인 준수율: 해도 되는 일만 했는가
- 감사 로그와 재현 가능성: 나중에 설명할 수 있는가
- 비용·지연시간·운영 안정성: 실제 운영 조건에서 지속 가능한가
AI 에이전트 평가는 “답변이 그럴듯한가”에서 끝나면 안 된다. 기업이 물어야 할 질문은 더 엄격하다. 이 에이전트는 권한 안에서 일했는가. 필요한 승인을 받았는가. 실패를 감지했는가. 비용과 지연시간이 예측 가능한가. 문제가 생겼을 때 로그로 설명할 수 있는가. 그리고 무엇보다, 사용자가 맡긴 일을 책임 있게 끝냈는가.
이 기준을 통과하지 못한 에이전트는 아직 업무 자동화 시스템이 아니다. 잘 말하는 인터페이스일 뿐이다.
참고 출처
- 와이즈넛, 멀티모달 AI 에이전트 공개… LLM 라인업 확대
- AI 에이전트 난립에 사일로 심화…엠클라우드브리지가 제안하는 해결법은?
- MS, AI 에이전트 검증·통제 기준 제시…”정책 위반 차단”
- 앤스로픽, 기업 내부 시스템 보안 연동 강화한 MCP 터널 공개
- GitHub recognized as a Leader in the Gartner® Magic Quadrant™ for Enterprise AI Coding Agents for the third year in a row
- AgentField: AI 에이전트를 API와 마이크로서비스처럼 운영하기 위한 오픈소스 컨트롤 플레인
