LLM 服務系統工程師：讓 GPU 跑得更快的軟體工程師

為什麼這個領域重要

訓練模型，和把模型又快又便宜地交到使用者手上，是兩種不同的技術。後者的負責人就是 LLM 服務系統工程師。在昂貴的 GPU 上如何擺放同一個模型，吞吐量和每 token 單價會差出好幾倍。當推論走進 SaaS 成本的正中央，填平這道差距的手就是利潤本身。

數字替理由說話。在 UC 柏克萊發表的 PagedAttention 論文裡，傳統服務系統浪費了 KV 快取記憶體的 60% 至 80%。這套模仿作業系統虛擬記憶體分頁的方法把浪費壓到 4% 以下後，在同等延遲下，吞吐相比 FasterTransformer 和 Orca 跳到 2 至 4 倍。模型不動，只改服務層。一張 GPU 接住兩到三倍的並發請求，也就意味著少買那麼多張 GPU。

所需技能

得會用推論引擎。2026 年現場的標準分三支——vLLM、SGLang、TensorRT-LLM——三者都原生支援連續批次處理、前綴快取、推測解碼、量化和分離式服務。vLLM 強在 GPU 占用率和並發，TensorRT-LLM 強在 NVIDIA 硬體的底層最佳化，SGLang 強在 DeepSeek、Qwen 這類中國開源模型和多輪工作負載。給哪種負載配哪個引擎、傳哪些參數，這個判斷占了一半的活。

底層的手感要撐得住。推論分兩個階段：一次性算出提示詞 KV 快取的預填充是計算受限，逐個吐出 token 的解碼是記憶體受限。把兩者放在同一張 GPU 上會相互干擾，讓 TTFT 和 TPOT 一起變差。於是有了把預填充和解碼拆到不同 GPU 池的分離式服務。NVIDIA 在 GB200 上測得的 TensorRT-LLM 分離式服務，在 DeepSeek R1 上提速 1.4 至 2.5 倍，在 Qwen 3 上隨輸入/輸出長度最高拉到 6.11 倍。這個職位會深入到用 RDMA、NVLink 搬運 KV 快取的傳輸最佳化，以及平行策略（TP、PP）之間的快取佈局轉換。光靠 Python 不夠，熱路徑要請出 Rust、C++，還有 CUDA。

職涯路徑

初級從拿現成推論引擎、把它跑起來再調校開始。把靜態批次處理換成 vLLM 的連續批次處理，吞吐翻倍；在延遲 SLA 吃緊的單一使用者路徑上加推測解碼，把首個 token 的時間縮短 2 至 3 倍。先練出會寫基準、會讀 TTFT、TPOT 和 goodput 的眼力。

越往資深走，越從用引擎的人變成改引擎、造引擎的人。設計分離式服務架構，親手實作 KV 快取的壓縮與傳輸，扛起多節點部署的排程。NVIDIA 和 Google 用「AI Inference Performance Engineer」「LLM Serving and GPU Performance」這類頭銜單獨招這份能力。美國 LLM 工程師薪酬中級 15.5 萬至 22.5 萬美元，資深 24.5 萬至 35.5 萬美元，在前沿實驗室含股權可拉到 48 萬至 75 萬美元。推論工程被列為 AI 裡成長最快的方向。因為削減每 token 成本的手，是公司最先要的。

一句話概述

LLM 服務系統工程師：讓 GPU 跑得更快的軟體工程師

為什麼這個領域重要

所需技能

職涯路徑

標籤

參考資料

準備好開始了嗎？

有問題嗎？

探索其他職業

創業家 (Entrepreneur)

LLM推理評估: 軟體工程師的新疆域

資料科學家 (Data Scientist)

向行業導師提問

諮詢專家