開放權重影像模型工程師:把整條擴散堆疊握在手裡的軟體工程師
為什麼這個領域重要
過去三年,最頂尖的影像模型都鎖在按量計費的 API 後面。你送一條提示詞,收回一張圖,權重碰不到。這個格局在 2026 年 6 月 22 日被打破——Krea 以允許商用的開放權重授權,發布了 Krea 2,一個 120 億參數的擴散 Transformer。這是全球前十的影像模型第一次可以被下載、拆解、重新訓練,並在你自己掌控的硬體上運行。有意思的活兒不再在提示框裡,而在下一層、在權重上,住在那裡的人就是開放權重影像模型工程師。
它的發布方式本身就在召喚這種工作。Krea 放出了兩個檢查點:未蒸餾、專為微調而設的基座 Raw,以及為快速推論調好的八步蒸餾版 Turbo。預設的閉環寫得很明白——在 Raw 上訓練 LoRA,再到 Turbo 上跑,因為在柔軟基座上學到的適配會原樣遷移到快速模型上。這不是面向消費者的功能,而是一份工程任務書。它把過去屬於研究室的差異化,交給了能在具體領域裡執行它的人:汽車算圖、建築、產品攝影、某個品牌的專屬風格。
所需技能
你得把擴散 Transformer 當成可以拆開的系統來理解,而不是一個只能呼叫的黑盒。Krea 2 是一個採用分組查詢注意力的單流 DiT,配 Qwen Image VAE,文字編碼器用 Qwen 3 VL。知不知道潛空間在哪、條件如何注入、蒸餾這一步捨棄了什麼,決定了你是靠猜來調超參,還是靠推理來調。核心手藝是 LoRA:只訓練總參數不到百分之一的低秩權重更新,就能找回全量微調的大部分品質,而資料集是幾十張圖而非幾百萬張。
工作的另一半是讓成果跑起來。權重開放了,部署不了也是白搭,所以你活在本地推論的工具鏈裡——ComfyUI 圖、diffusers 函式庫、為把模型塞進一張消費級或工作站 GPU 而做的量化,以及在不毀掉品質的前提下達到延遲目標的工程。你讀技術報告、重現裡面的數字,判斷蒸餾檢查點何時足以上線、何時只有基座才是誠實的選擇。Python 與 PyTorch 是底線;走得更遠的人還會讀 CUDA 核心和記憶體剖析,因為瓶頸幾乎永遠是顯示記憶體和吞吐。
職業路徑
從重現別人的工作起步。從 Hugging Face 拉下 Krea 2,在 ComfyUI 裡搭起來,用一小批精挑的圖訓練一個 LoRA,親手驗證它是否像報告說的那樣從 Raw 遷移到 Turbo。這一次練習就能教會你資料集篩選、訓練穩定性,以及分辨一個好適配和一個把浮水印過擬合了的適配。再往後,你接一個真實領域——想要自己打光的攝影棚,想要自己產品的型錄——交出能扛住對方挑剔的微調成果。
越往資深走,你就從訓練適配器的人變成掌管整條流水線的人。你設計從資料到部署的閉環,搭起判斷檢查點是否退化的評測框架,做出讓每張圖成本保持低位的量化與部署決策。市場正映照這一轉移:AI 的價值正從擁有一個模型,滑向擁有圍繞模型的工作流程,那些從零訓不出前沿實驗室模型的公司,完全有能力微調一個開放模型。在台灣與香港,這種能力以「生成式 AI 工程師」「應用 AI 工程師」「機器學習工程師」等職缺招募,台灣大廠與新創的相關職位月薪多在新台幣 7 萬至 18 萬元區間,自研媒體模型的團隊往上走得更高,外商與海外遠端職缺則以美元計薪。能把開放權重變成領域產品的工程師,拿走的正是當年 API 留下的那部分利潤。