LLMサービングシステムエンジニア:GPUを速くするソフトウェアエンジニア
この分野が重要な理由
モデルを学習させる仕事と、そのモデルをユーザーへ速く安く届ける仕事は別の技術だ。後者を担うのがLLMサービングシステムエンジニアである。高価なGPUの上に同じモデルをどう配置するかで、スループットもトークン単価も数倍変わる。推論がSaaSの原価の中心に入った今、この差を埋める手がそのまま利益になる。
数字が理由を語る。UCバークレーが発表したPagedAttention論文では、従来のサービングシステムはKVキャッシュメモリの60〜80%を無駄にしていた。OSの仮想メモリのページングを真似たこの手法で無駄を4%未満まで落とすと、同じレイテンシでFasterTransformerやOrcaに対しスループットが2〜4倍に跳ねた。モデルは変えず、サービング層だけを直した結果だ。一台のGPUが二〜三倍の同時リクエストを受けるとは、その分だけGPUを買わずに済むことでもある。
必要なスキル
推論エンジンを扱えること。2026年の現場の標準はvLLM、SGLang、TensorRT-LLMの三つで、いずれも連続バッチング・プレフィックスキャッシュ・投機的デコード・量子化・分離サービングを標準で備える。vLLMはGPU占有率と同時実行性に、TensorRT-LLMはNVIDIAハードウェアの低レベル最適化に、SGLangはDeepSeekやQwenといった中国系オープンモデルとマルチターンのワークロードに強い。どのワークロードにどのエンジンを当て、どのフラグを渡すかの判断が仕事の半分だ。
低レイヤーの勘が支えになる。推論は二段階に分かれる。プロンプトのKVキャッシュを一度に計算するプリフィルは計算がボトルネック、トークンを一つずつ吐くデコードはメモリがボトルネックだ。両者を同じGPUに置くと干渉し、TTFTとTPOTが同時に悪化する。そこでプリフィルとデコードを別々のGPUプールに切り離す分離サービングが生まれた。NVIDIAがGB200で測定したTensorRT-LLMの分離サービングは、DeepSeek R1で1.4〜2.5倍、Qwen 3では入出力長に応じて最大6.11倍まで速度を押し上げた。KVキャッシュをRDMAやNVLinkで運ぶ転送最適化、並列化戦略(TP・PP)間のキャッシュレイアウト変換にまで手を入れる持ち場だ。Pythonだけでは足りず、ホットパスにはRust・C++、そしてCUDAが入ってくる。
キャリアパス
ジュニアは既存の推論エンジンを持ってきて立ち上げ、チューニングするところから始める。静的バッチングをvLLMの連続バッチングに替えてスループットを倍にし、レイテンシSLAが厳しい単一ユーザー経路に投機的デコードを足して最初のトークンまでの時間を2〜3倍縮める。ベンチマークを組み、TTFT・TPOT・goodputを読む目をまず鍛える。
シニアになるほど、エンジンを使う人から直して作る人へ移る。分離サービングのアーキテクチャを設計し、KVキャッシュの圧縮や転送を自ら実装し、マルチノード配備のスケジューリングを担う。NVIDIAやGoogleは「AI Inference Performance Engineer」や「LLM Serving and GPU Performance」といった肩書でこの能力を別枠で採用する。米国のLLMエンジニア報酬は中級で15.5万〜22.5万ドル、シニアで24.5万〜35.5万ドル、フロンティアのラボでは株式込みで48万〜75万ドルまで開く。推論エンジニアリングはAIで最も急成長する分野に挙げられる。トークン単価を削る手が、最も早く必要とされるからだ。