エージェントデータ漏洩防止エンジニア

自律型LLMエージェントが託された機密や内部コンテキストを外部に漏らさないよう、ガードレール・コンテキスト分離・出力DLPを設計する防御専門分野。MosaicLeaks・AgentDojo準拠。

📖 1 分で読める
📅

一言で

自律型LLMエージェントが託された機密や内部コンテキストを外部に漏らさないよう、ガードレール・コンテキスト分離・出力DLPを設計する防御専門分野。MosaicLeaks・AgentDojo準拠。

エージェントデータ漏洩防止エンジニア

1. この専門分野について

**エージェントデータ漏洩防止エンジニア(Agent Data Leakage Prevention Engineer)**は、自律型LLMエージェントが扱う機密・内部文書・個人情報を外部に漏らさないための防御機構を構築する。同じAIセキュリティ職でも、レッドチームが攻撃で弱点を証明するのに対し、この専門分野はその反対側に立つ。ガードレールを設計し、コンテキストを分離し、エージェントが出力するすべてにDLP(データ漏洩防止)をかける。

問題の重さは、ServiceNowが2026年6月に公開したMosaicLeaksベンチマークで明確になった。ローカルの企業文書とウェブ検索を組み合わせるディープリサーチエージェントの1,001本のマルチホップ・チェーンを測定したところ、ベースモデル(Qwen3-4B)が外部クエリのログだけから私的情報を漏らした割合は34.0%だった。さらに衝撃的なのはその先である。タスク性能だけを目標に強化学習でチューニングすると、精度は48.7%から59.3%へ上がったが、漏洩率は51.7%まで跳ね上がった。上手にやれと教えたら、より多く漏れた。ServiceNowが提案したプライバシー認識学習(PA-DR)は、精度58.7%を保ちながら漏洩を9.9%まで引き下げた。まさにこのギャップを埋めることが、この職種の存在理由である。

同じ流れはOWASPの2025年版LLM Top 10にも表れている。機密情報の開示(LLM02)が6位から2位へ繰り上がり、過剰な権限(LLM06)とシステムプロンプト漏洩(LLM07)が独立項目として分離された。エージェントがメールを送り、DBを照会し、APIを呼び出した瞬間、漏洩の攻撃面は爆発的に広がる。誰かがそれを塞がなければならない。

2. 主要なスキルセット

技術スキル:

  • 間接プロンプトインジェクション(indirect prompt injection)防御:ツール出力やウェブ検索結果に潜む悪意ある指示を検知・無効化(AgentDojoの97タスク・629セキュリティケースで検証)
  • コンテキスト分離(context isolation):私的文書と外部に出ていくクエリの間に境界を設け、エージェントが「何を調査中か(intent)」さえ漏らさないように設計
  • 出力DLP:APIキー・トークン・PII・ソースコード・内部文書をエージェント応答とツール呼び出しからリアルタイムでスキャン・マスキング・遮断
  • ガードレール・エンジニアリング:入出力双方向フィルタ、ランタイムポリシーエンジン、ツール呼び出しのホワイトリスト
  • 最小権限設計:過剰な権限(excessive agency)を減らすスコープ付きトークン・ヒューマンインザループ承認ゲート
  • 評価パイプライン:Benign Utility / Utility under Attack / Targeted ASR といった指標で防御を回帰テスト

ソフトスキル:

  • 敵対的想像力の防御版:攻撃者がどこからデータを抜くかをまず描き、防ぐ側からコストと効用を計算する
  • トレードオフ感覚:漏洩をゼロにすればエージェントは役立たずになる。MosaicLeaksが示す通り、有用性とプライバシーは同時に捉えるべき二兎である
  • 規制の翻訳:GDPR・EU AI Actの要求をランタイムのガードレール規則に落とし込む力

3. キャリアパス

段階職位想定年収(米国基準)
入門AI Security Analyst / Junior LLM Security Engineer$90K~$130K
ミッドレベルAgent Security Engineer / LLM Guardrails Engineer$150K~$210K
シニアSenior AI Security Engineer (Agent Defense)$185K~$265K+
リードPrincipal AI Safety / Head of Agent Security$250K~$400K+(株式は別途)

この専門分野へは、従来型セキュリティエンジニア、AI/MLエンジニア、あるいはエージェントシステム開発者のいずれからも転向できる。共通の入門条件は、LLMのツール呼び出し構造への理解とPython自動化の力である。

4. 推奨リソースとツール

ベンチマークとフレームワーク

  • MosaicLeaks(ServiceNow)— ディープリサーチエージェントのモザイク型漏洩を1,001本のチェーンで測定する公開ベンチマーク。防御効果を数値で証明する際の出発点
  • AgentDojo — ワークスペース・Slack・旅行・銀行の4ドメインで間接プロンプトインジェクションの攻撃と防御を評価する動的環境
  • OWASP Top 10 for LLM Applications 2025 — LLM01プロンプトインジェクション、LLM02機密情報の開示、LLM06過剰な権限、LLM07システムプロンプト漏洩を定義した標準の脅威分類

ガードレール・DLPツール

  • NVIDIA NeMo Guardrails / Guardrails AI — 入出力フィルタとポリシーレールをコードで定義
  • Microsoft Presidio — PII検知・匿名化のオープンソース。出力DLPの第一防御線
  • LLM観測スタック(LangSmith、Langfuse など) — すべてのツール呼び出しと外部クエリを追跡し、漏洩経路を事後監査

基礎読書

  • OWASP GenAI Security ProjectのLLM02・LLM06緩和ガイド
  • AgentDojo・MosaicLeaksの論文(防御パラダイムの比較)

6. キャリア展望

一般的な職種名

  • Agent Security Engineer
  • LLM Guardrails Engineer
  • AI Safety Engineer (Data Leakage)
  • Senior AI Security Engineer (Agent Defense)

チームでの立ち位置

このエンジニアは通常、セキュリティチームとAIプラットフォームチームの境界に立つ。エージェントを作る側が有用性を押し進めると、こちら側はその出力が何を漏らしうるかを測定して止める。MosaicLeaksが示した核心——タスク性能だけを最適化すると漏洩はむしろ増える——というこの一点が、この役割の存在を正当化する。プロダクトチームとともにヒューマンインザループの承認ゲートを設計し、データガバナンスチームとともに規制要求をランタイム規則へ移す。

面接の焦点

面接官が問うこと:

  • ツール出力に潜む間接プロンプトインジェクションをどう検知・遮断するか
  • エージェントの外部クエリが「何を調査中か」まで漏らすintent漏洩をどう防ぐか
  • 有用性を殺さずに漏洩を減らすトレードオフをどう測定するか
  • 過剰な権限(excessive agency)を減らす最小権限・スコープ付きトークン設計
  • ガードレールが回避された際の事後監査・検知戦略

なぜ今か

2026年は、エージェントが実験を越えて本番環境に入った年である。エージェントがより多くのツールとより多くの私的コンテキストを扱うほど、漏洩は可能性ではなく測定可能な割合になる。MosaicLeaksの34%、OWASPが繰り上げた機密情報の開示の順位——数字は同じ方向を指している。ギャップを塞ぐ人の席が、急速に空いている。

タグ

#agent-security #data-leakage #llm-security #dlp #prompt-injection #ai-safety
🌟
🚀

さあ、始めよう!

上で紹介した人たちも、みんな君と同じところからスタートしたんだ。今日、一つだけやってみよう!

💪

君ならできる!ここに出てくる人たちも最初は何も知らなかった。

🔥

質問がありますか?

Reputoが専門家をつなげます。 質問費用 = 1 クレジット

現役メンターに聞こう

質問費用 = 1 クレジット