智慧代理資料外洩防護工程師
1. 關於這個專業方向
**智慧代理資料外洩防護工程師(Agent Data Leakage Prevention Engineer)**負責建構防禦機制,阻止自主 LLM 代理外洩其受託管理的機密、內部文件與個人資訊。同屬 AI 安全領域,若說紅隊透過攻擊來證明弱點,那麼這個專業方向站在對立的一面。你設計護欄、隔離情境,並為代理輸出的一切加上 DLP(資料外洩防護)。
問題的嚴重程度,在 ServiceNow 於 2026 年 6 月發布的 MosaicLeaks 基準中清晰呈現。該基準測量了將本地企業文件與網頁檢索結合的深度研究代理的 1,001 條多跳推理鏈,結果發現基礎模型(Qwen3-4B)僅憑外部查詢日誌就外洩私密資訊的比例高達 34.0%。更令人震驚的是接下來的發現:僅以任務效能為目標進行強化學習微調後,準確率從 48.7% 升至 59.3%,但外洩率卻飆升至 51.7%。教它做得更好,它反而洩漏得更多。ServiceNow 提出的隱私感知訓練方法(PA-DR)在保持 58.7% 準確率的同時,將外洩降至 9.9%。填平這道鴻溝,正是這個職位存在的意義。
同樣的趨勢也體現在 OWASP 2025 年版 LLM Top 10 中:敏感資訊揭露(LLM02)從第六位躍升至第二位,過度自主權(LLM06)與系統提示詞外洩(LLM07)被拆分為獨立條目。一旦代理能夠寄送郵件、查詢資料庫、呼叫 API,外洩的攻擊面便急遽膨脹。總得有人來封堵它。
2. 核心技能
技術技能:
- 間接提示注入(indirect prompt injection)防禦:偵測並消除隱藏在工具輸出與網頁檢索結果中的惡意指令(已通過 AgentDojo 的 97 個任務與 629 個安全用例驗證)
- 情境隔離(context isolation):在私密文件與對外查詢之間設立邊界,使代理連「正在調查什麼(intent)」都不會外洩
- 輸出 DLP:即時掃描、遮罩與攔截代理回應及工具呼叫中的 API 金鑰、權杖、PII、原始碼與內部文件
- 護欄工程:雙向輸入/輸出過濾器、執行時策略引擎、工具呼叫白名單
- 最小權限設計:透過限定作用域的權杖與人機協同審批閘門,降低過度自主權(excessive agency)
- 評估流水線:以 Benign Utility / Utility under Attack / Targeted ASR 等指標對防禦進行回歸測試
軟技能:
- 對抗性想像力的防禦版:先設想攻擊者會從哪裡竊取資料,再從防守方計算成本與效用
- 權衡判斷:把外洩降到零,代理就會變得毫無用處。正如 MosaicLeaks 所示,有用性與隱私是必須同時抓住的兩隻兔子
- 法規轉譯:將 GDPR 與 EU AI Act 的要求落實為執行時護欄規則的能力
3. 職業路徑
| 階段 | 職位 | 預計薪酬(美國基準) |
|---|---|---|
| 入門 | AI Security Analyst / Junior LLM Security Engineer | $90K~$130K |
| 中階 | Agent Security Engineer / LLM Guardrails Engineer | $150K~$210K |
| 高階 | Senior AI Security Engineer (Agent Defense) | $185K~$265K+ |
| 主管 | Principal AI Safety / Head of Agent Security | $250K~$400K+(股權另計) |
進入這個專業方向,可從傳統安全工程師、AI/ML 工程師或代理系統開發者中任一路徑轉型。共同的入門門檻是對 LLM 工具呼叫機制的理解,加上 Python 自動化能力。
4. 推薦資源與工具
基準與框架
- MosaicLeaks(ServiceNow)— 以 1,001 條推理鏈測量深度研究代理馬賽克式外洩的公開基準。以數字證明防禦效果的起點
- AgentDojo — 在工作區、Slack、旅行與銀行四個領域評估間接提示注入攻擊與防禦的動態環境
- OWASP Top 10 for LLM Applications 2025 — 定義 LLM01 提示注入、LLM02 敏感資訊揭露、LLM06 過度自主權、LLM07 系統提示詞外洩的標準威脅分類
護欄與 DLP 工具
- NVIDIA NeMo Guardrails / Guardrails AI — 以程式碼定義輸入/輸出過濾器與策略護欄
- Microsoft Presidio — PII 偵測與匿名化的開源工具。輸出 DLP 的第一道防線
- LLM 可觀測性技術堆疊(LangSmith、Langfuse 等) — 追蹤每一次工具呼叫與外部查詢,對外洩路徑進行事後稽核
基礎閱讀
- OWASP GenAI Security Project 的 LLM02、LLM06 緩解指南
- AgentDojo 與 MosaicLeaks 論文(防禦範式比較)
6. 職業前景
常見職位名稱
- Agent Security Engineer
- LLM Guardrails Engineer
- AI Safety Engineer (Data Leakage)
- Senior AI Security Engineer (Agent Defense)
在團隊中的位置
這位工程師通常處於安全團隊與 AI 平台團隊的交界處。當建構代理的一方推動有用性時,這一方負責測量並阻止那些輸出可能外洩的內容。MosaicLeaks 揭示的核心——只最佳化任務效能反而會讓外洩增加——這一個事實就足以證明該角色的存在。你與產品團隊一起設計人機協同審批閘門,與資料治理團隊一起把法規要求轉化為執行時規則。
面試重點
面試官會問:
- 你將如何偵測並攔截隱藏在工具輸出中的間接提示注入
- 你將如何防止代理的外部查詢洩漏「正在調查什麼」的 intent 外洩
- 你將如何在不犧牲有用性的前提下測量降低外洩的權衡
- 用於降低過度自主權(excessive agency)的最小權限與限定作用域權杖設計
- 當護欄被繞過時的事後稽核與偵測策略
為何是現在
2026 年是代理從實驗走向生產環境的一年。代理處理的工具越多、私密情境越多,外洩就從一種可能性變為可測量的比率。MosaicLeaks 的 34%、OWASP 對敏感資訊揭露的排名提升——這些數字指向同一個方向。封堵這道鴻溝的人,其席位正在迅速空缺。