LLM 服务系统工程师:让 GPU 跑得更快的软件工程师

LLM 服务系统工程师操作 vLLM、TensorRT-LLM 等推理引擎,从同一块 GPU 上压出 2 至 4 倍吞吐。以 PagedAttention、推测解码、预填充/解码分离为武器削减每 token 成本。

📖 1 分钟阅读
📅

一句话概述

LLM 服务系统工程师操作 vLLM、TensorRT-LLM 等推理引擎,从同一块 GPU 上压出 2 至 4 倍吞吐。以 PagedAttention、推测解码、预填充/解码分离为武器削减每 token 成本。

LLM 服务系统工程师:让 GPU 跑得更快的软件工程师

为什么这个领域重要

训练模型,和把模型又快又便宜地交到用户手上,是两种不同的技术。后者的负责人就是 LLM 服务系统工程师。在昂贵的 GPU 上如何摆放同一个模型,吞吐量和每 token 单价会差出几倍。当推理走进 SaaS 成本的正中央,填平这道差距的手就是利润本身。

数字替理由说话。在 UC 伯克利发表的 PagedAttention 论文里,传统服务系统浪费了 KV 缓存内存的 60% 至 80%。这套模仿操作系统虚拟内存分页的方法把浪费压到 4% 以下后,在同等延迟下,吞吐相比 FasterTransformer 和 Orca 跳到 2 至 4 倍。模型不动,只改服务层。一块 GPU 接住两到三倍的并发请求,也就意味着少买那么多块 GPU。

所需技能

得会用推理引擎。2026 年现场的标准分三支——vLLM、SGLang、TensorRT-LLM——三者都原生支持连续批处理、前缀缓存、推测解码、量化和分离式服务。vLLM 强在 GPU 占用率和并发,TensorRT-LLM 强在 NVIDIA 硬件的底层优化,SGLang 强在 DeepSeek、Qwen 这类中国开源模型和多轮工作负载。给哪种负载配哪个引擎、传哪些参数,这个判断占了一半的活。

底层的手感要撑得住。推理分两个阶段:一次性算出提示词 KV 缓存的预填充是计算受限,逐个吐出 token 的解码是内存受限。把两者放在同一块 GPU 上会相互干扰,让 TTFT 和 TPOT 一起变差。于是有了把预填充和解码拆到不同 GPU 池的分离式服务。NVIDIA 在 GB200 上测得的 TensorRT-LLM 分离式服务,在 DeepSeek R1 上提速 1.4 至 2.5 倍,在 Qwen 3 上随输入/输出长度最高拉到 6.11 倍。这个岗位会深入到用 RDMA、NVLink 搬运 KV 缓存的传输优化,以及并行策略(TP、PP)之间的缓存布局转换。光靠 Python 不够,热路径要请出 Rust、C++,还有 CUDA。

职业路径

初级从拿现成推理引擎、把它跑起来再调优开始。把静态批处理换成 vLLM 的连续批处理,吞吐翻倍;在延迟 SLA 吃紧的单用户路径上加推测解码,把首个 token 的时间缩短 2 至 3 倍。先练出会写基准、会读 TTFT、TPOT 和 goodput 的眼力。

越往资深走,越从用引擎的人变成改引擎、造引擎的人。设计分离式服务架构,亲手实现 KV 缓存的压缩与传输,扛起多节点部署的调度。NVIDIA 和 Google 用「AI Inference Performance Engineer」「LLM Serving and GPU Performance」这类头衔单独招这份能力。美国 LLM 工程师薪酬中级 15.5 万至 22.5 万美元,资深 24.5 万至 35.5 万美元,在前沿实验室含股权可拉到 48 万至 75 万美元。推理工程被列为 AI 里增长最快的方向。因为削减每 token 成本的手,是公司最先要的。

标签

#software-engineer #llm-serving #inference-engineering #gpu-optimization
🌟
🚀

准备好开始了吗?

上面的那些人也和你一样从零开始。今天就选一件事开始做吧!

💪

你可以的!这里的每个人一开始也什么都不懂。

🔥

有问题吗?

Reputo为您连接专业人士。 提问费用 = 1 积分

咨询行业导师

提问费用 = 1 积分