推理芯片协同设计:连接模型与芯片之间的软件工程师

推理芯片协同设计工程师把ML模型架构与定制加速器一手咬合。如同OpenAI与博通的Jalapeño ASIC,他们同时设计芯片与编译器,把每瓦性能往上推。

📖 1 分钟阅读
📅

一句话概述

推理芯片协同设计工程师把ML模型架构与定制加速器一手咬合。如同OpenAI与博通的Jalapeño ASIC,他们同时设计芯片与编译器,把每瓦性能往上推。

推理芯片协同设计:连接模型与芯片之间的软件工程师

为什么这个领域重要

把模型在GPU上跑好,和为这个模型从零打磨一块芯片,是两个不同的层次。2026年6月,OpenAI公开了与博通联合打造的首款定制推理芯片"Jalapeño"。它只瞄准推理而非训练,是一块占满整张光罩的ASIC。公司称从设计启动到流片只用了九个月,号称是高性能ASIC周期中最快的一档。耐人寻味的是,这套设计过程本身就有OpenAI自家模型的帮忙。

这股潮流不只属于OpenAI。谷歌早已自研并使用TPU,亚马逊则自研Trainium。这意味着方向已经清楚:大型推理运营方不再只依赖一种通用GPU,而是亲手打造贴合自身工作负载的芯片。动因很简单。推理已经走进营收的正中央,一块能用更少电力给出同样答案的芯片,直接就是利润。OpenAI只说每瓦性能"明显更好",没有给出硬数据,但仅凭2026年底要以吉瓦级规模铺开的计划,就足以看清为何能效就是生意的本质。而这样的芯片,不会在硬件设计师和模型研究者各坐一屋时诞生。需要有人把两边直接接起来。那就是推理芯片协同设计工程师。

所需技能

首先要把计算机体系结构刻进骨子里:对内存带宽在哪里卡住、运算单元与片上内存如何摆放才能让数据少搬动、哪种数据流结构能高效地流过矩阵乘法的那种直觉。在中国市场,这类工作落在BAT这样的大厂芯片团队,以及寒武纪、地平线、华为海思这样深入NPU的企业里。要站到亲手写芯片的那一侧,得能驾驭HLS或RTL,至少要会用设计语言把加速器数据流表达出来。

接下来是连接模型与芯片的编译器层。操作MLIR、TVM、XLA这类技术栈,把ML计算图下降为加速器指令,是其核心。在此之上叠加一层面向硬件的数值感:把模型量化到int8或int4这样的低精度时,准确度能守到哪里,哪个算子映射到哪种位宽,都要拿主意。最后一块是测量。你亲自剖析每瓦性能与吞吐量,找出瓶颈,重写内核以拉高效率。工具链通常是模型侧的Python配上高性能路径的C++,再加上CUDA或与之等价的加速器编程模型。只在一根轴上深挖并不够;这个位置的价值,来自一双能同时游走于模型、编译器、硬件三种语言的手。

职业路径

初级工程师通常从内核或编译器的一小片入手。写一个把特定算子下降为加速器指令的pass,验证量化后的内核不会破坏准确度,跑基准测试,先练出一眼读懂每瓦性能与延迟的眼力。这是用手去摸清模型在芯片上究竟如何流动、数据在哪里漏出的阶段。

升到资深,重心从单个内核移向加速器协同设计。模型架构一变,哪种硬件资源会吃紧,你要提前读出来,并把数据流与内存层次按模型重新铺排。在模型团队与硬件团队之间为双方约束做翻译的人,就在这里炼成。再往上是芯片-软件架构师,在设计周期的早期就拍板:下一代芯片瞄准哪些模型,编译器与运行时要一起拉到多远。正如Jalapeño所展示的,九个月流片的速度,唯有当硬件与软件从一开始就看着同一张图一起动时才有可能。画出那张图的位置,就是这条路的终点。如今定制推理芯片已从一两家的实验跨入行业标准战略,能把这道缝填上的手,会最先被需要。

标签

#software-engineer #custom-silicon #inference #hardware-software-codesign
🌟
🚀

准备好开始了吗?

上面的那些人也和你一样从零开始。今天就选一件事开始做吧!

💪

你可以的!这里的每个人一开始也什么都不懂。

🔥

有问题吗?

Reputo为您连接专业人士。 提问费用 = 1 积分

咨询行业导师

提问费用 = 1 积分