推論晶片協同設計：連接模型與晶片之間的軟體工程師

為什麼這個領域重要

把模型在GPU上跑好，和為這個模型從零打磨一塊晶片，是兩個不同的層次。2026年6月，OpenAI公開了與博通聯手打造的首款客製化推論晶片「Jalapeño」。它只瞄準推論而非訓練，是一塊佔滿整張光罩的ASIC。公司稱從設計啟動到流片只花了九個月，號稱是高效能ASIC週期中最快的一檔。耐人尋味的是，這套設計流程本身就有OpenAI自家模型的幫忙。

這股潮流不只屬於OpenAI。Google早已自研並使用TPU，Amazon則自研Trainium。這意味著方向已經清楚：大型推論營運方不再只依賴一種通用GPU，而是親手打造貼合自身工作負載的晶片。動因很單純。推論已經走進營收的正中央，一塊能用更少電力給出同樣答案的晶片，直接就是利潤。OpenAI只說每瓦效能「明顯更好」，沒有給出硬數據，但僅憑2026年底要以吉瓦級規模鋪開的計畫，就足以看清為何能效就是生意的本質。而這樣的晶片，不會在硬體設計師和模型研究者各坐一屋時誕生。需要有人把兩邊直接接起來。那就是推論晶片協同設計工程師。

所需技能

首先要把計算機結構刻進骨子裡：對記憶體頻寬在哪裡卡住、運算單元與晶片內記憶體如何擺放才能讓資料少搬動、哪種資料流結構能高效地流過矩陣乘法的那種直覺。在台灣，這類工作落在台積電周邊的設計生態、聯發科這樣的IC設計龍頭，以及深入NPU的新創與大廠團隊裡。要站到親手寫晶片的那一側，得能駕馭HLS或RTL，至少要會用設計語言把加速器資料流表達出來。

接下來是連接模型與晶片的編譯器層。操作MLIR、TVM、XLA這類技術堆疊，把ML計算圖下降為加速器指令，是其核心。在此之上疊加一層面向硬體的數值感：把模型量化到int8或int4這樣的低精度時，準確度能守到哪裡，哪個運算子對應到哪種位元寬度，都要拿主意。最後一塊是量測。你親自剖析每瓦效能與吞吐量，找出瓶頸，重寫核心以拉高效率。工具鏈通常是模型側的Python配上高效能路徑的C++，再加上CUDA或與之等價的加速器程式設計模型。只在一根軸上深掘並不夠；這個位置的價值，來自一雙能同時遊走於模型、編譯器、硬體三種語言的手。

職業路徑

初級工程師通常從核心或編譯器的一小片入手。寫一個把特定運算子下降為加速器指令的pass，驗證量化後的核心不會破壞準確度，跑基準測試，先練出一眼讀懂每瓦效能與延遲的眼力。這是用手去摸清模型在晶片上究竟如何流動、資料在哪裡漏出的階段。

升到資深，重心從單一核心移向加速器協同設計。模型架構一變，哪種硬體資源會吃緊，你要提前讀出來，並把資料流與記憶體層次按模型重新鋪排。在模型團隊與硬體團隊之間為雙方限制做翻譯的人，就在這裡煉成。再往上是晶片-軟體架構師，在設計週期的早期就拍板：下一代晶片瞄準哪些模型，編譯器與執行階段要一起拉到多遠。正如Jalapeño所展示的，九個月流片的速度，唯有當硬體與軟體從一開始就看著同一張圖一起動時才有可能。畫出那張圖的位置，就是這條路的終點。如今客製化推論晶片已從一兩家的實驗跨入產業標準策略，能把這道縫填上的手，會最先被需要。

一句話概述

推論晶片協同設計：連接模型與晶片之間的軟體工程師

為什麼這個領域重要

所需技能

職業路徑

標籤

參考資料

準備好開始了嗎？

有問題嗎？

探索其他職業

AI工程負責人

AI招募公平性稽核：AI安全工程師的新領域

企業AI自動化工程師

向行業導師提問

諮詢專家