开放权重图像模型工程师：把整条扩散栈握在手里的软件工程师

为什么这个领域重要

过去三年，最顶尖的图像模型都锁在按量计费的 API 后面。你发一条提示词，收回一张图，权重碰不到。这个格局在 2026 年 6 月 22 日被打破——Krea 以允许商用的开放权重许可，发布了 Krea 2，一个 120 亿参数的扩散 Transformer。这是全球前十的图像模型第一次可以被下载、拆解、重新训练，并在你自己掌控的硬件上运行。有意思的活儿不再在提示框里，而在下一层、在权重上，住在那里的人就是开放权重图像模型工程师。

它的发布方式本身就在召唤这种工作。Krea 放出了两个检查点：未蒸馏、专为微调而设的基座 Raw，以及为快速推理调好的八步蒸馏版 Turbo。预设的闭环写得很明白——在 Raw 上训练 LoRA，再到 Turbo 上跑，因为在柔软基座上学到的适配会原样迁移到快速模型上。这不是面向消费者的功能，而是一份工程任务书。它把过去属于研究室的差异化，交给了能在具体领域里执行它的人：汽车渲染、建筑、产品摄影、某个品牌的专属风格。

所需技能

你得把扩散 Transformer 当成可以拆开的系统来理解，而不是一个只能调用的黑盒。Krea 2 是一个采用分组查询注意力的单流 DiT，配 Qwen Image VAE，文本编码器用 Qwen 3 VL。知不知道潜空间在哪、条件如何注入、蒸馏这一步舍弃了什么，决定了你是靠猜来调超参，还是靠推理来调。核心手艺是 LoRA：只训练总参数不到百分之一的低秩权重更新，就能找回全量微调的大部分质量，而数据集是几十张图而非几百万张。

工作的另一半是让成果跑起来。权重开放了，部署不了也是白搭，所以你活在本地推理的工具链里——ComfyUI 图、diffusers 库、为把模型塞进一张消费级或工作站 GPU 而做的量化，以及在不毁掉质量的前提下达到延迟目标的工程。你读技术报告、复现里面的数字，判断蒸馏检查点何时足以上生产、何时只有基座才是诚实的选择。Python 和 PyTorch 是底线；走得更远的人还会读 CUDA 内核和内存剖析，因为瓶颈几乎永远是显存和吞吐。

职业路径

从复现别人的工作起步。从 Hugging Face 拉下 Krea 2，在 ComfyUI 里搭起来，用一小批精挑的图训练一个 LoRA，亲手验证它是否像报告说的那样从 Raw 迁移到 Turbo。这一次练习就能教会你数据集筛选、训练稳定性，以及分辨一个好适配和一个把水印过拟合了的适配。再往后，你接一个真实领域——想要自己布光的影棚，想要自己产品的目录——交出能扛住对方挑剔的微调成果。

越往资深走，你就从训练适配器的人变成掌管整条流水线的人。你设计从数据到部署的闭环，搭起判断检查点是否退化的评测框架，做出让每张图成本保持低位的量化与部署决策。市场正映照这一转移：AI 的价值正从拥有一个模型，滑向拥有围绕模型的工作流，那些从零训不出前沿实验室模型的公司，完全有能力微调一个开放模型。在 BAT 与字节、阿里这类大厂以及生成式 AI 创业公司，这种能力以"生成式 AI 工程师"“应用算法工程师"“机器学习工程师"等岗位招聘，一线城市的算法工程师薪资按资历多在年包 40 万至 120 万元区间，自研媒体模型的团队往上走得更高。能把开放权重变成领域产品的工程师，拿走的正是当年 API 留下的那部分利润。

一句话概述

开放权重图像模型工程师：把整条扩散栈握在手里的软件工程师

为什么这个领域重要

所需技能

职业路径

标签

参考资料

准备好开始了吗？

有问题吗？

探索其他职业

浏览器ML基础设施：软件工程师的新领域

AI平台工程师：驱动全员AI落地的软件工程师

智能体治理：AI安全工程师的控制平面

向行业导师提问

咨询专家