LLM 服務系統工程師:讓 GPU 跑得更快的軟體工程師
為什麼這個領域重要
訓練模型,和把模型又快又便宜地交到使用者手上,是兩種不同的技術。後者的負責人就是 LLM 服務系統工程師。在昂貴的 GPU 上如何擺放同一個模型,吞吐量和每 token 單價會差出好幾倍。當推論走進 SaaS 成本的正中央,填平這道差距的手就是利潤本身。
數字替理由說話。在 UC 柏克萊發表的 PagedAttention 論文裡,傳統服務系統浪費了 KV 快取記憶體的 60% 至 80%。這套模仿作業系統虛擬記憶體分頁的方法把浪費壓到 4% 以下後,在同等延遲下,吞吐相比 FasterTransformer 和 Orca 跳到 2 至 4 倍。模型不動,只改服務層。一張 GPU 接住兩到三倍的並發請求,也就意味著少買那麼多張 GPU。
所需技能
得會用推論引擎。2026 年現場的標準分三支——vLLM、SGLang、TensorRT-LLM——三者都原生支援連續批次處理、前綴快取、推測解碼、量化和分離式服務。vLLM 強在 GPU 占用率和並發,TensorRT-LLM 強在 NVIDIA 硬體的底層最佳化,SGLang 強在 DeepSeek、Qwen 這類中國開源模型和多輪工作負載。給哪種負載配哪個引擎、傳哪些參數,這個判斷占了一半的活。
底層的手感要撐得住。推論分兩個階段:一次性算出提示詞 KV 快取的預填充是計算受限,逐個吐出 token 的解碼是記憶體受限。把兩者放在同一張 GPU 上會相互干擾,讓 TTFT 和 TPOT 一起變差。於是有了把預填充和解碼拆到不同 GPU 池的分離式服務。NVIDIA 在 GB200 上測得的 TensorRT-LLM 分離式服務,在 DeepSeek R1 上提速 1.4 至 2.5 倍,在 Qwen 3 上隨輸入/輸出長度最高拉到 6.11 倍。這個職位會深入到用 RDMA、NVLink 搬運 KV 快取的傳輸最佳化,以及平行策略(TP、PP)之間的快取佈局轉換。光靠 Python 不夠,熱路徑要請出 Rust、C++,還有 CUDA。
職涯路徑
初級從拿現成推論引擎、把它跑起來再調校開始。把靜態批次處理換成 vLLM 的連續批次處理,吞吐翻倍;在延遲 SLA 吃緊的單一使用者路徑上加推測解碼,把首個 token 的時間縮短 2 至 3 倍。先練出會寫基準、會讀 TTFT、TPOT 和 goodput 的眼力。
越往資深走,越從用引擎的人變成改引擎、造引擎的人。設計分離式服務架構,親手實作 KV 快取的壓縮與傳輸,扛起多節點部署的排程。NVIDIA 和 Google 用「AI Inference Performance Engineer」「LLM Serving and GPU Performance」這類頭銜單獨招這份能力。美國 LLM 工程師薪酬中級 15.5 萬至 22.5 萬美元,資深 24.5 萬至 35.5 萬美元,在前沿實驗室含股權可拉到 48 萬至 75 萬美元。推論工程被列為 AI 裡成長最快的方向。因為削減每 token 成本的手,是公司最先要的。