Skip to main content

AI 에이전트 "24시간 직원"의 실체: 과장과 현실 사이에서 배운 것

크론 6개를 3주간 안정화하면서 알게 된 것들. 업계 30+ 사례와 우리 실전 경험의 교차 검증.


"24시간 일하는 AI 직원"이란 무엇인가

이 표현은 마케팅 수사가 아니라 구체적인 소프트웨어 아키텍처를 가리킨다.

기술적으로 "24시간"은 세 가지의 결합이다: 항상 켜져 있는 채널(Telegram, Slack, WhatsApp), 항상 감시하는 트리거(크론 스케줄러, 웹훅, 메시지 큐), 항상 접근 가능한 도구(이메일 API, 캘린더 API, 브라우저, Git, 데이터베이스). AI가 인간처럼 쉬지 않고 사유하는 것이 아니라, 이벤트가 들어오면 즉시 반응하고 도구를 호출하는 인프라 구조다.

사람들이 이걸 "직원"이라고 느끼는 결정적 요인은 선제적 통신이다. 일반 소프트웨어는 사용자가 열어야 작동하지만, 이 구조의 에이전트는 새벽에 모니터링을 돌리다가 이상 징후를 발견하면 사용자의 Telegram으로 먼저 메시지를 보낸다. 이 경험이 "능동적인 동료"라는 심리적 의인화를 만든다.


실제로 무엇이 자동화되고 있는가

3개의 독립적인 딥리서치(30+ 사례 분석)와 우리 자체 운영 경험을 교차 검증한 결과, "24시간 직원"이 실제로 잘 작동하는 영역과 과장된 영역이 명확하게 나뉜다.

잘 작동하는 영역 (검증된 정량 수치 존재)

고객지원/티켓 처리: 가장 성숙한 분야다. Salesforce 자체 Help 사이트에서 100만 건 이상의 대화를 처리했고, Intercom Fin은 65% 자율 해결률을 달성했다. 1-800Accountant는 세금 시즌 동안 채팅의 70%를 에이전트가 처리했다. 이 영역이 잘 먹히는 이유는 명확하다: 입력이 정형화되어 있고(고객 질문), 출력이 검증 가능하며(해결 여부), 실패해도 복구 가능하다(사람에게 에스컬레이션).

코딩 및 리팩토링: Rakuten은 7시간 연속 자율 코딩으로 출시 기간을 79% 단축했다. Devin AI는 대규모 파일 마이그레이션에서 67% PR 머지율을 기록했다. Cursor 사용 조직은 PR을 39% 더 많이 머지한다. 다만 주의: METR 연구에 따르면 숙련 개발자는 익숙한 코드베이스에서 AI 도구 사용 시 오히려 19% 느려졌다. AI 코딩은 반복적이고 병렬화 가능한 작업(마이그레이션, 테스트 생성, 보일러플레이트)에서 강하고, 아키텍처 결정이나 새로운 문제 해결에서는 아직 약하다.

리서치 및 모니터링: 이건 우리가 직접 운영 중인 영역이다. Vodafone UK는 n8n 기반 사이버보안 SOAR로 220만 파운드 비용을 절감했다. 개인 운영자들은 OpenClaw 크론으로 경쟁사 모니터링, 뉴스 트래킹, 시장 조사를 자동화한다. 이 영역은 "읽기 전용"(리스크 낮음), "스케줄 기반"(비용 예측 가능), "요약 후 사람이 검토"(품질 통제 가능)라서 가장 안전한 진입점이다.

과장된 영역 (주의 필요)

"AI가 회사 전략을 짜준다": 공식 사례 기준으로 이런 수준의 자율성은 존재하지 않는다. 가장 성공적인 배포도 특정 작업의 60~85%만 자동 해결한다. 나머지는 사람이 필요하다.

"한 번 세팅하면 알아서 돌아간다": 우리 경험으로 단언한다 — 크론 6개를 안정화하는 데 3주 이상이 걸렸다. 타임아웃, 컨텍스트 포화, 조건 분기 오류, 모델 과금 사고까지 전부 겪었다. McKinsey도 에이전트 온보딩은 "소프트웨어 배포"가 아니라 "신입 사원 교육"에 더 가깝다고 표현한다.

"완전 자동화가 목표다": Klarna는 AI로 700명분의 고객지원을 대체했다가, 품질 저하로 2025년에 사람을 재고용했다. 최적은 항상 하이브리드다.


성공하는 구조의 공통 패턴

30+ 사례와 우리 자체 운영에서 반복적으로 확인되는 패턴이 있다.

패턴 1: 좁은 범위에 집중하라

모든 성공 배포는 하나의 명확한 문제를 자동화한다. "회사를 성장시켜 줘" 같은 모호한 지시는 실패한다. "수신된 영수증 이미지를 회계 스프레드시트 양식에 맞춰 입력해"처럼 역할과 도구가 극도로 제한된 마이크로 에이전트가 잘 작동한다.

우리 경험: Berry의 7트랙 리서치를 단일 크론으로 돌리려 했을 때 컨텍스트 초과로 실패했다(input_tokens 32,168). T1T3과 T4T5로 분리한 후에야 안정화됐다. 넓게 한 번에 하려는 유혹을 이기는 것이 첫 번째 관문이다.

패턴 2: 역할을 분리하라

Microsoft의 "Ask Microsoft" 웹 에이전트는 백그라운드에서 여러 특화 서브에이전트를 오케스트레이션한다. GitLab도 기획/코딩/보안/배포용 전문 에이전트를 분리한다. 하나의 거대 에이전트는 붕괴하기 쉽다.

우리 경험: 수집 에이전트(kuwen, qwen3:14b 로컬)와 합성 에이전트(berry, Haiku API)를 분리하고, 워크스페이스도 나눴다. SOUL.md가 오염되는 걸 막기 위해서다. "역할 분리는 코드뿐 아니라 파일시스템에서도 적용해야 한다"는 교훈은 직접 겪어보지 않으면 알기 어렵다.

패턴 3: 비용은 모델 라우팅으로 제어하라

업계에서 가장 많이 인용되는 비용 제어 방법은 모델 라우팅이다. 단순 작업(분류, 스크래핑) → 저가 모델, 복잡한 판단(분석, 합성) → 고가 모델. 이것만으로 60~80% 절감 가능하다.

우리 경험: kuwen(qwen3:14b, 로컬 무료)이 수집을 담당하고, berry(Haiku, API 저가)가 합성을 담당한다. 수집은 양이 많지만 판단이 단순하고, 합성은 양이 적지만 판단이 필요하다. 이 분리만으로 API 비용이 일일 수십 센트 수준에 머문다.

패턴 4: LLM의 판단에 의존하지 말아야 할 곳이 있다

LLM은 확률적이다. 필터링, 검증, 데이터 정제처럼 결정론적이어야 하는 작업을 LLM에게 맡기면 불안정하다.

우리 경험: qwen3:14b에게 "BeroAI와 직접 관련 없는 뉴스는 제외하라"고 지시했지만 3주간 한 번도 정확히 실행하지 못했다. 결국 Python 스크립트(filter.py)로 후처리하는 구조로 전환했다. 업계에서는 이걸 "결정론적 인프라 + 확률적 에이전트 분리"라고 부른다. 우리는 "LLM은 도구 호출과 텍스트 생성을 시키고, 필터링은 코드로 하라"고 요약한다.

패턴 5: 실패 원인은 모델이 아니라 운영 설계다

$47,000 무한 루프, DROP DATABASE 실행, 820+ 악성 스킬 — 업계의 유명한 실패 사례들은 전부 모델 지능이 아니라 아키텍처 문제다.

우리 경험도 같다. BUG-AR(컨텍스트 포화로 도구 호출 포기), BUG-SW(write 뒤 텍스트 출력으로 end_turn 선행), BUG-AT($(date) 리터럴 미치환) — 전부 프롬프트 구조와 실행 순서의 문제였지, 모델을 바꿔서 해결된 것이 하나도 없었다.


가장 위험한 실패 패턴 5가지

1) 무한 루프 + 비용 폭증

에이전트가 API 에러를 만났을 때 같은 도구를 수백 번 반복 호출한다. 타임아웃이나 최대 반복 횟수를 제한하지 않으면 하룻밤에 수천 달러가 과금된다. LangChain 파이프라인에서 11일간 루프가 돌아 $47,000이 청구된 사례가 실제로 존재한다.

방어법: 세션당 토큰 상한, API 호출 횟수 상한, 시간 상한, 비용 상한. 이 4개를 대시보드가 아니라 실행 경로 내에서 강제해야 한다. 대시보드는 "이미 발생한 비용"을 보여줄 뿐, 에이전트를 멈추지 못한다.

2) 컨텍스트 포화 → 도구 호출 포기 → 환각

이건 우리가 직접 겪은 패턴이다. web_search를 27회 실행하면 각 결과가 8,000~10,000 토큰을 차지한다. 4회 시점에서 qwen3:14b는 컨텍스트 윈도우 임계치에 도달하고, 이후 도구 호출을 건너뛰며 가짜 데이터를 생성한다. 가짜 특허번호까지 만들어냈다.

방어법: 도구 호출 횟수를 명시적으로 제한하고, "결과 상위 2개만 사용, 각 결과에서 핵심 1문장 + URL만 추출, 원문 즉시 폐기"같은 압축 규칙을 프롬프트에 강제한다. 모델을 바꿔도 해결되지 않는다 — 이건 모델 문제가 아니라 토큰 경제학 문제다.

3) 조건 분기가 도구 호출을 삼킨다

"변동이 있으면 보고서를 작성하고, 없으면 '변동 없음'이라고 써라"같은 조건 분기 프롬프트는 LLM이 write 도구 호출 자체를 건너뛰게 만든다. 텍스트만 출력하고 도구를 호출하지 않는 것이다.

방어법: write 호출을 무조건 실행으로 설계한다. "내용과 무관하게 write 툴을 호출한다"가 올바른 프롬프트 패턴이다. 조건부 로직은 LLM이 아니라 후처리 코드에서 처리한다.

4) 공유 에이전트의 권한 오남용

서로 다른 권한 수준을 가진 사람들이 하나의 에이전트를 공유하면, 권한 없는 사람이 에이전트를 통해 민감 정보에 접근할 수 있다. OpenClaw 보안 문서도 이걸 명확히 경고한다: 별도 머신, 전용 OS 사용자, 전용 계정 경계를 권장한다.

5) 승인 없는 대외 발신

환각 상태의 에이전트가 작성한 이메일이나 소셜 포스트가 사람의 검토 없이 1,000명에게 발송되면 브랜드 훼손은 돌이킬 수 없다. 이메일 발송, 결제 승인, 인프라 변경 같은 비가역적 작업 직전에는 반드시 사람의 승인을 강제하는 구조가 필요하다.


프롬프트 엔지니어링은 5%다

3개 딥리서치와 우리 경험이 동의하는 가장 중요한 결론이다.

"AI를 잘 쓰는 사람"의 핵심 역량은 프롬프트를 잘 쓰는 것이 아니다. 95%는 운영 설계 역량이다:

  • 스코프 설계: 에이전트에게 맡길 업무의 경계를 정확히 긋는 능력
  • 모델 라우팅: 작업 복잡도에 따라 적절한 모델을 선택하는 감각
  • 검증 가능성: 에이전트의 출력을 어떻게 검증할지 미리 설계
  • 비용 제어: 토큰 예산, 호출 상한, 서킷 브레이커를 아키텍처에 내장
  • 도구 vs 스킬 분리: API 호출 같은 결정론적 로직은 코드로, 판단 로직은 자연어로
  • 인간 개입 지점: 어디에서 사람의 승인을 받을지 사전 설계
  • 모니터링: 에이전트가 무엇을 하고 있는지 추적하는 관찰 체계

우리가 Berry 6-Cron을 안정화하면서 3주간 겪은 것들 — 타임아웃, 컨텍스트 포화, 조건 분기 오류, 모델 과금 사고, SOUL.md 오염, 필터 미적용 — 은 전부 이 95%의 영역에서 발생했다. 프롬프트를 아무리 정교하게 써도 실행 순서가 틀리면 write가 호출되지 않고, 토큰 경제가 맞지 않으면 모델이 환각을 일으킨다.


지금 시작한다면

1인 또는 소규모 팀이 AI 에이전트를 실전 도입하려면:

  1. 모닝 브리핑 크론 하나로 시작하라. OpenClaw 커뮤니티에서도, 업계 사례에서도, 가장 많이 추천되는 첫 번째 자동화다. 하나를 완벽하게 만드는 데 집중하라.

  2. 한 번에 하나씩만 바꿔라. 10개 크론을 동시에 세팅하면 뭐가 깨졌는지 알 수 없다. 하나 안정화 → 다음 하나.

  3. LLM과 코드의 역할을 나눠라. LLM은 텍스트 생성과 도구 호출에 쓰고, 필터링/검증/변환은 코드로 하라.

  4. 비용 구조를 먼저 설계하라. 로컬 모델 + 저가 API 하이브리드 구조가 가장 현실적이다. 수집은 로컬, 판단은 API.

  5. "읽기"부터 시작하고, "쓰기"는 나중에. 리서치와 모니터링(읽기 전용, 리스크 낮음)을 먼저 안정화하고, 이메일 발송이나 데이터 수정(쓰기, 리스크 높음)은 승인 구조를 갖춘 후에.


버려야 할 환상

  • "좋은 프롬프트 하나면 만능 직원이 된다" → 프롬프트는 5%. 나머지는 인프라다.
  • "더 좋은 모델이 나오면 문제가 해결된다" → 우리가 겪은 실패는 전부 모델이 아니라 구조의 문제였다.
  • "에이전트를 한 번 세팅하면 알아서 돌아간다" → 크론 6개 안정화에 3주가 걸렸다. 이게 정상이다.
  • "완전 자동화가 목표다" → Klarna가 증명했듯, 최적은 항상 하이브리드다.
  • "AI가 계속 일한다 = 무감독 가능" → "계속 일한다"와 "안전하게 일한다"는 전혀 다른 말이다.

이 글은 BeroAI의 AI 에이전트 운영 실전 경험과 3개의 독립 딥리서치(30+ 사례) 합산 분석을 기반으로 작성되었다.

Nanople — AI 에이전트 지식 플랫폼 | 2026-03-22