智能体数据泄露防护工程师

一个防御性 AI 安全专业方向,专注于构建护栏、上下文隔离与输出 DLP,阻止自主 LLM 智能体泄露其受托管理的机密。以 MosaicLeaks 与 AgentDojo 为基础。

📖 2 分钟阅读
📅

一句话概述

一个防御性 AI 安全专业方向,专注于构建护栏、上下文隔离与输出 DLP,阻止自主 LLM 智能体泄露其受托管理的机密。以 MosaicLeaks 与 AgentDojo 为基础。

智能体数据泄露防护工程师

1. 关于这个专业方向

**智能体数据泄露防护工程师(Agent Data Leakage Prevention Engineer)**负责构建防御机制,阻止自主 LLM 智能体泄露其受托管理的机密、内部文档与个人信息。同属 AI 安全领域,如果说红队通过攻击来证明弱点,那么这个专业方向站在对立的一面。你设计护栏、隔离上下文,并为智能体输出的一切加上 DLP(数据泄露防护)。

问题的严重程度在 ServiceNow 于 2026 年 6 月发布的 MosaicLeaks 基准中清晰呈现。该基准测量了将本地企业文档与网页检索相结合的深度研究智能体的 1,001 条多跳推理链,结果发现基础模型(Qwen3-4B)仅凭外部查询日志就泄露私密信息的比例高达 34.0%。更令人震惊的是接下来的发现:仅以任务性能为目标进行强化学习微调后,准确率从 48.7% 升至 59.3%,但泄露率却飙升至 51.7%。教它做得更好,它反而泄露得更多。ServiceNow 提出的隐私感知训练方法(PA-DR)在保持 58.7% 准确率的同时,将泄露降至 9.9%。填平这道鸿沟,正是这个岗位存在的意义。

同样的趋势也体现在 OWASP 2025 年版 LLM Top 10 中:敏感信息泄露(LLM02)从第六位跃升至第二位,过度自主权(LLM06)与系统提示词泄露(LLM07)被拆分为独立条目。一旦智能体能够发送邮件、查询数据库、调用 API,泄露的攻击面便急剧膨胀。总得有人来封堵它。

2. 核心技能

技术技能:

  • 间接提示注入(indirect prompt injection)防御:检测并消除隐藏在工具输出与网页检索结果中的恶意指令(已通过 AgentDojo 的 97 个任务与 629 个安全用例验证)
  • 上下文隔离(context isolation):在私密文档与对外查询之间设立边界,使智能体连"正在调查什么(intent)“都不会泄露
  • 输出 DLP:实时扫描、脱敏与拦截智能体响应及工具调用中的 API 密钥、令牌、PII、源代码与内部文档
  • 护栏工程:双向输入/输出过滤器、运行时策略引擎、工具调用白名单
  • 最小权限设计:通过限定作用域的令牌与人机协同审批闸门,降低过度自主权(excessive agency)
  • 评估流水线:用 Benign Utility / Utility under Attack / Targeted ASR 等指标对防御进行回归测试

软技能:

  • 对抗性想象力的防御版:先设想攻击者会从哪里窃取数据,再从防守方计算成本与效用
  • 权衡判断:把泄露降到零,智能体就会变得毫无用处。正如 MosaicLeaks 所示,有用性与隐私是必须同时抓住的两只兔子
  • 法规转译:将 GDPR 与 EU AI Act 的要求落实为运行时护栏规则的能力

3. 职业路径

阶段职位预计薪酬(美国基准)
入门AI Security Analyst / Junior LLM Security Engineer$90K~$130K
中级Agent Security Engineer / LLM Guardrails Engineer$150K~$210K
高级Senior AI Security Engineer (Agent Defense)$185K~$265K+
主管Principal AI Safety / Head of Agent Security$250K~$400K+(股权另计)

进入这个专业方向,可从传统安全工程师、AI/ML 工程师或智能体系统开发者中任一路径转型。共同的入门门槛是对 LLM 工具调用机制的理解,外加 Python 自动化能力。

4. 推荐资源与工具

基准与框架

  • MosaicLeaks(ServiceNow)— 用 1,001 条推理链测量深度研究智能体马赛克式泄露的公开基准。以数字证明防御效果的起点
  • AgentDojo — 在工作区、Slack、旅行与银行四个领域评估间接提示注入攻击与防御的动态环境
  • OWASP Top 10 for LLM Applications 2025 — 定义 LLM01 提示注入、LLM02 敏感信息泄露、LLM06 过度自主权、LLM07 系统提示词泄露的标准威胁分类

护栏与 DLP 工具

  • NVIDIA NeMo Guardrails / Guardrails AI — 以代码定义输入/输出过滤器与策略护栏
  • Microsoft Presidio — PII 检测与匿名化的开源工具。输出 DLP 的第一道防线
  • LLM 可观测性技术栈(LangSmith、Langfuse 等) — 追踪每一次工具调用与外部查询,对泄露路径进行事后审计

基础阅读

  • OWASP GenAI Security Project 的 LLM02、LLM06 缓解指南
  • AgentDojo 与 MosaicLeaks 论文(防御范式对比)

6. 职业前景

常见职位名称

  • Agent Security Engineer
  • LLM Guardrails Engineer
  • AI Safety Engineer (Data Leakage)
  • Senior AI Security Engineer (Agent Defense)

在团队中的位置

这位工程师通常处于安全团队与 AI 平台团队的交界处。当构建智能体的一方推动有用性时,这一方负责测量并阻止那些输出可能泄露的内容。MosaicLeaks 揭示的核心——只优化任务性能反而会让泄露增加——这一个事实就足以证明该角色的存在。你与产品团队一起设计人机协同审批闸门,与数据治理团队一起把法规要求转化为运行时规则。

面试重点

面试官会问:

  • 你将如何检测并拦截隐藏在工具输出中的间接提示注入
  • 你将如何防止智能体的外部查询泄露"正在调查什么"的 intent 泄露
  • 你将如何在不牺牲有用性的前提下测量降低泄露的权衡
  • 用于降低过度自主权(excessive agency)的最小权限与限定作用域令牌设计
  • 当护栏被绕过时的事后审计与检测策略

为何是现在

2026 年是智能体从实验走向生产环境的一年。智能体处理的工具越多、私密上下文越多,泄露就从一种可能性变为可测量的比率。MosaicLeaks 的 34%、OWASP 对敏感信息泄露的排名提升——这些数字指向同一个方向。封堵这道鸿沟的人,其席位正在迅速空缺。

标签

#agent-security #data-leakage #llm-security #dlp #prompt-injection #ai-safety
🌟
🚀

准备好开始了吗?

上面的那些人也和你一样从零开始。今天就选一件事开始做吧!

💪

你可以的!这里的每个人一开始也什么都不懂。

🔥

有问题吗?

Reputo为您连接专业人士。 提问费用 = 1 积分

咨询行业导师

提问费用 = 1 积分