에이전트 데이터 유출 방지 엔지니어
1. 이 전문화에 대해
**에이전트 데이터 유출 방지 엔지니어(Agent Data Leakage Prevention Engineer)**는 자율 LLM 에이전트가 신뢰받아 다루는 비밀·내부 문서·개인정보를 외부로 흘리지 않도록 방어 장치를 만든다. 같은 AI 보안 직군이라도 레드팀이 공격으로 약점을 증명한다면, 이 전문화는 그 반대편에 선다. 가드레일을 설계하고, 컨텍스트를 격리하고, 에이전트가 내뱉는 출력에 DLP(데이터 유출 방지)를 건다.
문제의 무게는 ServiceNow가 2026년 6월 공개한 MosaicLeaks 벤치마크에서 그대로 드러났다. 로컬 기업 문서와 웹 검색을 함께 쓰는 딥리서치 에이전트 1,001개 멀티홉 체인을 측정했더니, 기본 모델(Qwen3-4B)이 외부 쿼리 로그만으로 사적 정보를 흘린 비율이 34.0%였다. 더 충격적인 건 그다음이다. 태스크 성능만 보고 강화학습으로 튜닝하자 정확도는 48.7%에서 59.3%로 올랐지만, 유출률은 51.7%까지 치솟았다. 잘하라고 가르쳤더니 더 많이 샜다. ServiceNow가 제안한 프라이버시 인식 학습(PA-DR)은 정답률 58.7%를 유지하면서 유출을 9.9%로 끌어내렸다 — 이 격차를 메우는 일이 바로 이 직군의 핵심이다.
OWASP가 2025년 LLM Top 10에서 민감정보 노출(LLM02)을 6위에서 2위로 끌어올리고, 과도한 권한(LLM06)과 시스템 프롬프트 유출(LLM07)을 별도 항목으로 분리한 것도 같은 맥락이다. 에이전트가 이메일을 보내고, DB를 조회하고, API를 호출하는 순간 유출의 표면적이 폭발한다. 누군가는 그 표면을 막아야 한다.
2. 핵심 스킬셋
기술 스킬:
- 간접 프롬프트 인젝션(indirect prompt injection) 방어: 도구 출력·웹 검색 결과에 숨은 악성 지시를 탐지·무력화 (AgentDojo 97개 태스크·629개 보안 케이스로 검증)
- 컨텍스트 격리(context isolation): 사적 문서와 외부로 나가는 쿼리 사이에 경계를 세워, 에이전트가 “무엇을 조사 중인지(intent)“조차 새지 않게 설계
- 출력 DLP: API 키·토큰·PII·소스코드·내부 문서를 에이전트 응답과 도구 호출에서 실시간 스캔·마스킹·차단
- 가드레일 엔지니어링: 입력·출력 양방향 필터, 런타임 정책 엔진, 도구 호출 화이트리스트
- 최소 권한 설계: 과도한 권한(excessive agency)을 줄이는 스코프드 토큰·휴먼인더루프 승인 게이트
- 평가 파이프라인: Benign Utility / Utility under Attack / Targeted ASR 같은 지표로 방어를 회귀 테스트
소프트 스킬:
- 적대적 상상력의 방어판: 공격자가 어디로 데이터를 빼낼지 먼저 그려보되, 막는 쪽에서 비용·효용을 계산
- 트레이드오프 감각: 유출을 0으로 만들면 에이전트가 무용지물이 된다. MosaicLeaks가 보여주듯 유용성과 프라이버시는 동시에 잡아야 하는 두 마리 토끼다
- 규제 번역: GDPR·EU AI Act의 요구사항을 런타임 가드레일 규칙으로 옮기는 능력
3. 커리어 경로
| 단계 | 직급 | 예상 연봉 (US 기준) |
|---|---|---|
| 진입 | AI Security Analyst / Junior LLM Security Engineer | $90K~$130K |
| 미드레벨 | Agent Security Engineer / LLM Guardrails Engineer | $150K~$210K |
| 시니어 | Senior AI Security Engineer (Agent Defense) | $185K~$265K+ |
| 리드 | Principal AI Safety / Head of Agent Security | $250K~$400K+ (지분 별도) |
이 전문화는 전통 보안 엔지니어, AI/ML 엔지니어, 또는 에이전트 시스템 개발자 어디에서든 전환할 수 있다. 공통 진입 조건은 LLM 도구 호출 구조에 대한 이해와 파이썬 자동화 역량이다.
4. 추천 리소스 및 도구
벤치마크와 프레임워크
- MosaicLeaks (ServiceNow) — 딥리서치 에이전트의 모자이크 유출을 1,001개 체인으로 측정하는 공개 벤치마크. 방어 효과를 수치로 증명할 때 출발점
- AgentDojo — 워크스페이스·Slack·여행·뱅킹 4개 도메인에서 간접 프롬프트 인젝션 공격·방어를 평가하는 동적 환경
- OWASP Top 10 for LLM Applications 2025 — LLM01 프롬프트 인젝션, LLM02 민감정보 노출, LLM06 과도한 권한, LLM07 시스템 프롬프트 유출을 정의한 표준 위협 분류
가드레일·DLP 도구
- NVIDIA NeMo Guardrails / Guardrails AI — 입출력 필터와 정책 레일을 코드로 정의
- Microsoft Presidio — PII 탐지·익명화 오픈소스. 출력 DLP의 1차 방어선
- LLM 관찰성 스택(LangSmith, Langfuse 등) — 모든 도구 호출과 외부 쿼리를 추적해 유출 경로를 사후 감사
기초 읽을거리
- OWASP GenAI Security Project의 LLM02·LLM06 미티게이션 가이드
- AgentDojo·MosaicLeaks 논문 (방어 패러다임 비교)
6. 커리어 전망
일반적인 직함
- Agent Security Engineer
- LLM Guardrails Engineer
- AI Safety Engineer (Data Leakage)
- Senior AI Security Engineer (Agent Defense)
팀에서의 역할
이 엔지니어는 보통 보안 팀과 AI 플랫폼 팀의 경계에 선다. 에이전트를 만드는 쪽이 유용성을 밀어붙이면, 이쪽은 그 출력이 무엇을 흘릴 수 있는지 측정하고 막는다. MosaicLeaks가 보여준 핵심 — 태스크 성능만 최적화하면 유출이 오히려 늘어난다 — 이 사실 하나가 이 역할의 존재 이유다. 제품 팀과 함께 휴먼인더루프 승인 게이트를 설계하고, 데이터 거버넌스 팀과 규제 요구를 런타임 규칙으로 옮긴다.
면접 포커스
면접관이 물어볼 것:
- 도구 출력에 숨은 간접 프롬프트 인젝션을 어떻게 탐지·차단하겠는가
- 에이전트의 외부 쿼리가 “무엇을 조사 중인지"까지 새는 intent 유출을 어떻게 막겠는가
- 유용성을 죽이지 않으면서 유출을 줄이는 트레이드오프를 어떻게 측정하겠는가
- 과도한 권한(excessive agency)을 줄이는 최소 권한·스코프드 토큰 설계
- 가드레일이 우회됐을 때의 사후 감사·탐지 전략
왜 지금인가
2026년은 에이전트가 실험을 넘어 프로덕션으로 들어온 해다. 에이전트가 더 많은 도구와 더 많은 사적 컨텍스트를 다룰수록, 유출은 가능성이 아니라 측정 가능한 비율이 된다. MosaicLeaks의 34%, OWASP가 끌어올린 민감정보 노출의 순위 — 숫자들이 같은 방향을 가리킨다. 막는 사람의 자리가 빠르게 비어 있다.