開放權重影像模型工程師：把整條擴散堆疊握在手裡的軟體工程師

為什麼這個領域重要

過去三年，最頂尖的影像模型都鎖在按量計費的 API 後面。你送一條提示詞，收回一張圖，權重碰不到。這個格局在 2026 年 6 月 22 日被打破——Krea 以允許商用的開放權重授權，發布了 Krea 2，一個 120 億參數的擴散 Transformer。這是全球前十的影像模型第一次可以被下載、拆解、重新訓練，並在你自己掌控的硬體上運行。有意思的活兒不再在提示框裡，而在下一層、在權重上，住在那裡的人就是開放權重影像模型工程師。

它的發布方式本身就在召喚這種工作。Krea 放出了兩個檢查點：未蒸餾、專為微調而設的基座 Raw，以及為快速推論調好的八步蒸餾版 Turbo。預設的閉環寫得很明白——在 Raw 上訓練 LoRA，再到 Turbo 上跑，因為在柔軟基座上學到的適配會原樣遷移到快速模型上。這不是面向消費者的功能，而是一份工程任務書。它把過去屬於研究室的差異化，交給了能在具體領域裡執行它的人：汽車算圖、建築、產品攝影、某個品牌的專屬風格。

所需技能

你得把擴散 Transformer 當成可以拆開的系統來理解，而不是一個只能呼叫的黑盒。Krea 2 是一個採用分組查詢注意力的單流 DiT，配 Qwen Image VAE，文字編碼器用 Qwen 3 VL。知不知道潛空間在哪、條件如何注入、蒸餾這一步捨棄了什麼，決定了你是靠猜來調超參，還是靠推理來調。核心手藝是 LoRA：只訓練總參數不到百分之一的低秩權重更新，就能找回全量微調的大部分品質，而資料集是幾十張圖而非幾百萬張。

工作的另一半是讓成果跑起來。權重開放了，部署不了也是白搭，所以你活在本地推論的工具鏈裡——ComfyUI 圖、diffusers 函式庫、為把模型塞進一張消費級或工作站 GPU 而做的量化，以及在不毀掉品質的前提下達到延遲目標的工程。你讀技術報告、重現裡面的數字，判斷蒸餾檢查點何時足以上線、何時只有基座才是誠實的選擇。Python 與 PyTorch 是底線；走得更遠的人還會讀 CUDA 核心和記憶體剖析，因為瓶頸幾乎永遠是顯示記憶體和吞吐。

職業路徑

從重現別人的工作起步。從 Hugging Face 拉下 Krea 2，在 ComfyUI 裡搭起來，用一小批精挑的圖訓練一個 LoRA，親手驗證它是否像報告說的那樣從 Raw 遷移到 Turbo。這一次練習就能教會你資料集篩選、訓練穩定性，以及分辨一個好適配和一個把浮水印過擬合了的適配。再往後，你接一個真實領域——想要自己打光的攝影棚，想要自己產品的型錄——交出能扛住對方挑剔的微調成果。

越往資深走，你就從訓練適配器的人變成掌管整條流水線的人。你設計從資料到部署的閉環，搭起判斷檢查點是否退化的評測框架，做出讓每張圖成本保持低位的量化與部署決策。市場正映照這一轉移：AI 的價值正從擁有一個模型，滑向擁有圍繞模型的工作流程，那些從零訓不出前沿實驗室模型的公司，完全有能力微調一個開放模型。在台灣與香港，這種能力以「生成式 AI 工程師」「應用 AI 工程師」「機器學習工程師」等職缺招募，台灣大廠與新創的相關職位月薪多在新台幣 7 萬至 18 萬元區間，自研媒體模型的團隊往上走得更高，外商與海外遠端職缺則以美元計薪。能把開放權重變成領域產品的工程師，拿走的正是當年 API 留下的那部分利潤。

一句話概述

開放權重影像模型工程師：把整條擴散堆疊握在手裡的軟體工程師

為什麼這個領域重要

所需技能

職業路徑

標籤

參考資料

準備好開始了嗎？

有問題嗎？

探索其他職業

醫生

LLM 服務系統工程師：讓 GPU 跑得更快的軟體工程師

AI時代的初級工程師: 跨越斷裂入門階梯的軟體工程師生存策略

向行業導師提問

諮詢專家