LLM 服务系统工程师：让 GPU 跑得更快的软件工程师

为什么这个领域重要

训练模型，和把模型又快又便宜地交到用户手上，是两种不同的技术。后者的负责人就是 LLM 服务系统工程师。在昂贵的 GPU 上如何摆放同一个模型，吞吐量和每 token 单价会差出几倍。当推理走进 SaaS 成本的正中央，填平这道差距的手就是利润本身。

数字替理由说话。在 UC 伯克利发表的 PagedAttention 论文里，传统服务系统浪费了 KV 缓存内存的 60% 至 80%。这套模仿操作系统虚拟内存分页的方法把浪费压到 4% 以下后，在同等延迟下，吞吐相比 FasterTransformer 和 Orca 跳到 2 至 4 倍。模型不动，只改服务层。一块 GPU 接住两到三倍的并发请求，也就意味着少买那么多块 GPU。

所需技能

得会用推理引擎。2026 年现场的标准分三支——vLLM、SGLang、TensorRT-LLM——三者都原生支持连续批处理、前缀缓存、推测解码、量化和分离式服务。vLLM 强在 GPU 占用率和并发，TensorRT-LLM 强在 NVIDIA 硬件的底层优化，SGLang 强在 DeepSeek、Qwen 这类中国开源模型和多轮工作负载。给哪种负载配哪个引擎、传哪些参数，这个判断占了一半的活。

底层的手感要撑得住。推理分两个阶段：一次性算出提示词 KV 缓存的预填充是计算受限，逐个吐出 token 的解码是内存受限。把两者放在同一块 GPU 上会相互干扰，让 TTFT 和 TPOT 一起变差。于是有了把预填充和解码拆到不同 GPU 池的分离式服务。NVIDIA 在 GB200 上测得的 TensorRT-LLM 分离式服务，在 DeepSeek R1 上提速 1.4 至 2.5 倍，在 Qwen 3 上随输入/输出长度最高拉到 6.11 倍。这个岗位会深入到用 RDMA、NVLink 搬运 KV 缓存的传输优化，以及并行策略（TP、PP）之间的缓存布局转换。光靠 Python 不够，热路径要请出 Rust、C++，还有 CUDA。

职业路径

初级从拿现成推理引擎、把它跑起来再调优开始。把静态批处理换成 vLLM 的连续批处理，吞吐翻倍；在延迟 SLA 吃紧的单用户路径上加推测解码，把首个 token 的时间缩短 2 至 3 倍。先练出会写基准、会读 TTFT、TPOT 和 goodput 的眼力。

越往资深走，越从用引擎的人变成改引擎、造引擎的人。设计分离式服务架构，亲手实现 KV 缓存的压缩与传输，扛起多节点部署的调度。NVIDIA 和 Google 用「AI Inference Performance Engineer」「LLM Serving and GPU Performance」这类头衔单独招这份能力。美国 LLM 工程师薪酬中级 15.5 万至 22.5 万美元，资深 24.5 万至 35.5 万美元，在前沿实验室含股权可拉到 48 万至 75 万美元。推理工程被列为 AI 里增长最快的方向。因为削减每 token 成本的手，是公司最先要的。

一句话概述

LLM 服务系统工程师：让 GPU 跑得更快的软件工程师

为什么这个领域重要

所需技能

职业路径

标签

参考资料

准备好开始了吗？

有问题吗？

探索其他职业

AI工程负责人

AI基础设施工程师专家

芯片设计与EDA工程：用软件驾驭跌破1纳米的半导体

向行业导师提问

咨询专家