推論晶片協同設計:連接模型與晶片之間的軟體工程師

推論晶片協同設計工程師把ML模型架構與客製化加速器一手咬合。如同OpenAI與博通的Jalapeño ASIC,他們同時設計晶片與編譯器,把每瓦效能往上推。

📖 1 分鐘閱讀
📅

一句話概述

推論晶片協同設計工程師把ML模型架構與客製化加速器一手咬合。如同OpenAI與博通的Jalapeño ASIC,他們同時設計晶片與編譯器,把每瓦效能往上推。

推論晶片協同設計:連接模型與晶片之間的軟體工程師

為什麼這個領域重要

把模型在GPU上跑好,和為這個模型從零打磨一塊晶片,是兩個不同的層次。2026年6月,OpenAI公開了與博通聯手打造的首款客製化推論晶片「Jalapeño」。它只瞄準推論而非訓練,是一塊佔滿整張光罩的ASIC。公司稱從設計啟動到流片只花了九個月,號稱是高效能ASIC週期中最快的一檔。耐人尋味的是,這套設計流程本身就有OpenAI自家模型的幫忙。

這股潮流不只屬於OpenAI。Google早已自研並使用TPU,Amazon則自研Trainium。這意味著方向已經清楚:大型推論營運方不再只依賴一種通用GPU,而是親手打造貼合自身工作負載的晶片。動因很單純。推論已經走進營收的正中央,一塊能用更少電力給出同樣答案的晶片,直接就是利潤。OpenAI只說每瓦效能「明顯更好」,沒有給出硬數據,但僅憑2026年底要以吉瓦級規模鋪開的計畫,就足以看清為何能效就是生意的本質。而這樣的晶片,不會在硬體設計師和模型研究者各坐一屋時誕生。需要有人把兩邊直接接起來。那就是推論晶片協同設計工程師。

所需技能

首先要把計算機結構刻進骨子裡:對記憶體頻寬在哪裡卡住、運算單元與晶片內記憶體如何擺放才能讓資料少搬動、哪種資料流結構能高效地流過矩陣乘法的那種直覺。在台灣,這類工作落在台積電周邊的設計生態、聯發科這樣的IC設計龍頭,以及深入NPU的新創與大廠團隊裡。要站到親手寫晶片的那一側,得能駕馭HLS或RTL,至少要會用設計語言把加速器資料流表達出來。

接下來是連接模型與晶片的編譯器層。操作MLIR、TVM、XLA這類技術堆疊,把ML計算圖下降為加速器指令,是其核心。在此之上疊加一層面向硬體的數值感:把模型量化到int8或int4這樣的低精度時,準確度能守到哪裡,哪個運算子對應到哪種位元寬度,都要拿主意。最後一塊是量測。你親自剖析每瓦效能與吞吐量,找出瓶頸,重寫核心以拉高效率。工具鏈通常是模型側的Python配上高效能路徑的C++,再加上CUDA或與之等價的加速器程式設計模型。只在一根軸上深掘並不夠;這個位置的價值,來自一雙能同時遊走於模型、編譯器、硬體三種語言的手。

職業路徑

初級工程師通常從核心或編譯器的一小片入手。寫一個把特定運算子下降為加速器指令的pass,驗證量化後的核心不會破壞準確度,跑基準測試,先練出一眼讀懂每瓦效能與延遲的眼力。這是用手去摸清模型在晶片上究竟如何流動、資料在哪裡漏出的階段。

升到資深,重心從單一核心移向加速器協同設計。模型架構一變,哪種硬體資源會吃緊,你要提前讀出來,並把資料流與記憶體層次按模型重新鋪排。在模型團隊與硬體團隊之間為雙方限制做翻譯的人,就在這裡煉成。再往上是晶片-軟體架構師,在設計週期的早期就拍板:下一代晶片瞄準哪些模型,編譯器與執行階段要一起拉到多遠。正如Jalapeño所展示的,九個月流片的速度,唯有當硬體與軟體從一開始就看著同一張圖一起動時才有可能。畫出那張圖的位置,就是這條路的終點。如今客製化推論晶片已從一兩家的實驗跨入產業標準策略,能把這道縫填上的手,會最先被需要。

標籤

#software-engineer #custom-silicon #inference #hardware-software-codesign
🌟
🚀

準備好開始了嗎?

上面的那些人也和你一樣從零開始。今天就選一件事開始做吧!

💪

你可以的!這裡的每個人一開始也什麼都不懂。

🔥

有問題嗎?

Reputo為您連接專業人士。 提問費用 = 1 點數

諮詢行業導師

提問費用 = 1 點數