LLM 服务系统工程师:让 GPU 跑得更快的软件工程师
为什么这个领域重要
训练模型,和把模型又快又便宜地交到用户手上,是两种不同的技术。后者的负责人就是 LLM 服务系统工程师。在昂贵的 GPU 上如何摆放同一个模型,吞吐量和每 token 单价会差出几倍。当推理走进 SaaS 成本的正中央,填平这道差距的手就是利润本身。
数字替理由说话。在 UC 伯克利发表的 PagedAttention 论文里,传统服务系统浪费了 KV 缓存内存的 60% 至 80%。这套模仿操作系统虚拟内存分页的方法把浪费压到 4% 以下后,在同等延迟下,吞吐相比 FasterTransformer 和 Orca 跳到 2 至 4 倍。模型不动,只改服务层。一块 GPU 接住两到三倍的并发请求,也就意味着少买那么多块 GPU。
所需技能
得会用推理引擎。2026 年现场的标准分三支——vLLM、SGLang、TensorRT-LLM——三者都原生支持连续批处理、前缀缓存、推测解码、量化和分离式服务。vLLM 强在 GPU 占用率和并发,TensorRT-LLM 强在 NVIDIA 硬件的底层优化,SGLang 强在 DeepSeek、Qwen 这类中国开源模型和多轮工作负载。给哪种负载配哪个引擎、传哪些参数,这个判断占了一半的活。
底层的手感要撑得住。推理分两个阶段:一次性算出提示词 KV 缓存的预填充是计算受限,逐个吐出 token 的解码是内存受限。把两者放在同一块 GPU 上会相互干扰,让 TTFT 和 TPOT 一起变差。于是有了把预填充和解码拆到不同 GPU 池的分离式服务。NVIDIA 在 GB200 上测得的 TensorRT-LLM 分离式服务,在 DeepSeek R1 上提速 1.4 至 2.5 倍,在 Qwen 3 上随输入/输出长度最高拉到 6.11 倍。这个岗位会深入到用 RDMA、NVLink 搬运 KV 缓存的传输优化,以及并行策略(TP、PP)之间的缓存布局转换。光靠 Python 不够,热路径要请出 Rust、C++,还有 CUDA。
职业路径
初级从拿现成推理引擎、把它跑起来再调优开始。把静态批处理换成 vLLM 的连续批处理,吞吐翻倍;在延迟 SLA 吃紧的单用户路径上加推测解码,把首个 token 的时间缩短 2 至 3 倍。先练出会写基准、会读 TTFT、TPOT 和 goodput 的眼力。
越往资深走,越从用引擎的人变成改引擎、造引擎的人。设计分离式服务架构,亲手实现 KV 缓存的压缩与传输,扛起多节点部署的调度。NVIDIA 和 Google 用「AI Inference Performance Engineer」「LLM Serving and GPU Performance」这类头衔单独招这份能力。美国 LLM 工程师薪酬中级 15.5 万至 22.5 万美元,资深 24.5 万至 35.5 万美元,在前沿实验室含股权可拉到 48 万至 75 万美元。推理工程被列为 AI 里增长最快的方向。因为削减每 token 成本的手,是公司最先要的。