推理芯片协同设计:连接模型与芯片之间的软件工程师
为什么这个领域重要
把模型在GPU上跑好,和为这个模型从零打磨一块芯片,是两个不同的层次。2026年6月,OpenAI公开了与博通联合打造的首款定制推理芯片"Jalapeño"。它只瞄准推理而非训练,是一块占满整张光罩的ASIC。公司称从设计启动到流片只用了九个月,号称是高性能ASIC周期中最快的一档。耐人寻味的是,这套设计过程本身就有OpenAI自家模型的帮忙。
这股潮流不只属于OpenAI。谷歌早已自研并使用TPU,亚马逊则自研Trainium。这意味着方向已经清楚:大型推理运营方不再只依赖一种通用GPU,而是亲手打造贴合自身工作负载的芯片。动因很简单。推理已经走进营收的正中央,一块能用更少电力给出同样答案的芯片,直接就是利润。OpenAI只说每瓦性能"明显更好",没有给出硬数据,但仅凭2026年底要以吉瓦级规模铺开的计划,就足以看清为何能效就是生意的本质。而这样的芯片,不会在硬件设计师和模型研究者各坐一屋时诞生。需要有人把两边直接接起来。那就是推理芯片协同设计工程师。
所需技能
首先要把计算机体系结构刻进骨子里:对内存带宽在哪里卡住、运算单元与片上内存如何摆放才能让数据少搬动、哪种数据流结构能高效地流过矩阵乘法的那种直觉。在中国市场,这类工作落在BAT这样的大厂芯片团队,以及寒武纪、地平线、华为海思这样深入NPU的企业里。要站到亲手写芯片的那一侧,得能驾驭HLS或RTL,至少要会用设计语言把加速器数据流表达出来。
接下来是连接模型与芯片的编译器层。操作MLIR、TVM、XLA这类技术栈,把ML计算图下降为加速器指令,是其核心。在此之上叠加一层面向硬件的数值感:把模型量化到int8或int4这样的低精度时,准确度能守到哪里,哪个算子映射到哪种位宽,都要拿主意。最后一块是测量。你亲自剖析每瓦性能与吞吐量,找出瓶颈,重写内核以拉高效率。工具链通常是模型侧的Python配上高性能路径的C++,再加上CUDA或与之等价的加速器编程模型。只在一根轴上深挖并不够;这个位置的价值,来自一双能同时游走于模型、编译器、硬件三种语言的手。
职业路径
初级工程师通常从内核或编译器的一小片入手。写一个把特定算子下降为加速器指令的pass,验证量化后的内核不会破坏准确度,跑基准测试,先练出一眼读懂每瓦性能与延迟的眼力。这是用手去摸清模型在芯片上究竟如何流动、数据在哪里漏出的阶段。
升到资深,重心从单个内核移向加速器协同设计。模型架构一变,哪种硬件资源会吃紧,你要提前读出来,并把数据流与内存层次按模型重新铺排。在模型团队与硬件团队之间为双方约束做翻译的人,就在这里炼成。再往上是芯片-软件架构师,在设计周期的早期就拍板:下一代芯片瞄准哪些模型,编译器与运行时要一起拉到多远。正如Jalapeño所展示的,九个月流片的速度,唯有当硬件与软件从一开始就看着同一张图一起动时才有可能。画出那张图的位置,就是这条路的终点。如今定制推理芯片已从一两家的实验跨入行业标准战略,能把这道缝填上的手,会最先被需要。
标签
参考资料
- https://techcrunch.com/2026/06/24/openai-unveils-its-first-custom-chip-built-by-broadcom/
- https://www.tomshardware.com/tech-industry/artificial-intelligence/broadcom-and-openai-unveil-custom-built-jalapeno-inference-processor-openais-first-chip-is-a-massive-reticle-sized-asic-built-in-an-ultra-fast-nine-month-development-cycle