浏览器ML基础设施:软件工程师的新领域
为什么这个领域重要
几年前,“在浏览器里跑机器学习"还只是一个让人惊讶三十秒、然后被关掉的演示。2026年的情况已经不同。WebGPU在Chrome和Edge上趋于稳定,在Safari 18里也已发布,并逐步进入Firefox,让Web应用获得了接近原生的GPU访问能力。Transformers.js在v3中加入WebGPU后端,相比旧的WASM路径最快提速约100倍;只要把模型量化到大约2GB以下,普通笔记本也能以可交互的速度跑起来。浏览器就这样悄悄变成了一个真正可用的推理运行时,而这一转变正是这个岗位诞生的根源。
它为什么会转化成招聘需求?三股业务压力同时在推。第一是隐私。当医疗、金融、法律文本根本不离开用户设备时,一整类合规与数据驻留的麻烦就此消失。第二是成本。把推理推到客户端,GPU账单趋向于零,而且无论流量怎么涨都不会跟着涨。第三是离线能力。在没有网络的地铁或飞机上仍然可用的AI功能,在移动端是实打实的差异点。在国内,BAT与字节、快手这类公司已经把端侧、客户端AI单独列为一条技术线,而对隐私要求高的医疗与金融科技团队,更倾向于优先招聘懂ML系统的前端出身工程师。
所需技能
这个岗位处在前端工程与ML系统知识相互交叠的一道狭窄山谷里,两边都得懂。
在运行时这一层,你要能用Transformers.js搭建流水线,用device: 'webgpu'切换后端,并在ONNX Runtime Web里于WebGPU、WebNN、WASM几种执行后端之间做选择。真正关键的是判断力:实际跑基准,看在哪种设备、哪类任务上哪个后端更快。矩阵乘和注意力很重的Transformer类模型从WebGPU获益最大,而轻量的视觉模型有时用WASM反而更合适。
在优化方面,你要通过量化(INT8、FP16)把模型压到实用的体积上限以下,并在精度损失与速度之间权衡。最棘手、反复出现的问题是分发。每次访问都重新下载几百兆的权重,冷启动会变得难以忍受,所以你得依靠IndexedDB和Cache Storage API做缓存策略,并跟进近期进入规范阶段的Cross-Origin Storage(COS)API——它让多个源共享同一份模型缓存,而不必在每个站点上重新拉取。Transformers.js已经以实验形式接入了COS缓存后端。再加上前端基本功:把推理放进Web Worker,让主线程保持响应,并设计诚实的加载进度与回退体验。
职业路径
进入这一行通常有两条路。前端工程师往推理方向深挖,或者ML工程师去学Web平台。无论哪条,第一道关都一样:挑一个公开的量化模型,让它在浏览器里跑起来,亲手测出WebGPU与WASM在延迟和吞吐上的真实差距,再写成文档。有这么一个深度的项目,校招或初级简历就已经足够亮眼。国内初级岗位的年包大致落在25万到45万元区间。
到了中高级,落地过的成绩单就成了筹码。具体成果会替你谈判:「把敏感数据留在端上、不发往服务器,移除了一个合规障碍」,或者「把推理搬到客户端,每月GPU开销降了X%」。能把更硬的部分端到端设计下来——模型缓存共享、渐进式下载、优雅的离线回退——是这一档的分水岭。资深岗位的年包通常在60万到100万元上下。
再往上有两个方向。一个是端侧AI平台架构师,负责制定全公司客户端推理的标准与模型部署流水线。另一个是通过直接给开源生态做贡献来立住名声——Transformers.js、ONNX Runtime Web,以及围绕它们的存储提案。正因为人才储备还很薄,现在入场并留下作品的人,很可能在未来几年里凭稀缺性持续获得回报。