オープンウェイト画像モデルエンジニア:拡散スタックを丸ごと握るソフトウェアエンジニア
この分野が重要な理由
この三年、最上位の画像モデルは従量課金のAPIの奥に閉じていた。プロンプトを送れば絵が返り、重みには触れられない。その構図は2026年6月22日、KreaがKrea 2 — 120億パラメータの拡散トランスフォーマー — を商用利用が許される オープンウェイトのライセンスで公開したことで崩れた。グローバル上位十の画像モデルを、ダウンロードして分解し、再学習し、自分が管理するハードウェアで動かせるようになった初めての例だ。面白い仕事はもうプロンプト欄にはない。一段下、重みのところにあり、そこに住む人がオープンウェイト画像モデルエンジニアである。
公開の仕方そのものがその仕事を呼ぶ形をしている。Kreaはチェックポイントを二つに分けて出した。ファインチューニングを前提にした非蒸留のベースRawと、速い推論に合わせた8ステップ蒸留版のTurboだ。意図されたループが明記されている — RawでLoRAを学習し、Turboで動かせ。柔らかいベースで学んだ適応が速いモデルへそのまま移るからだ。これは消費者向け機能ではなくエンジニアリングの課題書である。かつてモデルを作った研究所のものだった差別化を、自動車のレンダリング・建築・商品写真・ブランド固有のトーンといった特定ドメインで実行できる人へ手渡す。
必要なスキル
拡散トランスフォーマーを、呼び出すだけのブラックボックスではなく分解できるシステムとして理解する必要がある。Krea 2はグループ化クエリアテンションを使う単一ストリームのDiTに、Qwen Image VAE、テキストエンコーダとしてQwen 3 VLを載せた構造だ。潜在空間がどこにあり、条件付けがどこから入り、蒸留の段階が何を手放すのかを知っているかどうかが、ハイパーパラメータを当て推量で触るか論理で触るかを分ける。中核の技はLoRAだ。全パラメータの1%未満だけを学習しながらフルファインチューニング品質の大半を取り戻す低ランクの重み更新を、数百万枚ではなく数十枚のデータセットで身につける。
仕事の残り半分は、その成果物を動かし続けることだ。重みが開いていても配信できなければ意味がない。だからローカル推論のツールチェーンの中に住む — ComfyUIのグラフ、diffusersライブラリ、コンシューマやワークステーションのGPU一枚に載せるための量子化、品質を壊さずレイテンシ目標に到達させるエンジニアリングだ。テクニカルレポートを読んで数値を再現し、蒸留チェックポイントが本番に十分なときと、ベースだけが正直な選択であるときを判断する。PythonとPyTorchは前提条件であり、遠くまで行く人はCUDAカーネルとメモリプロファイルまで読む。ボトルネックはほぼ常にVRAMとスループットだからだ。
キャリアパス
他人の仕事を再現するところから始める。Hugging FaceからKrea 2を取得してComfyUIに立ち上げ、丁寧に選んだ小さなセットでLoRAを学習し、レポートが主張する通りRawからTurboへ転移するかを自分で証明する。この一度の演習が、データセットのキュレーション、学習の安定性、そして良い適応とウォーターマークに過学習した適応を見分ける目を育てる。そこから実際のドメイン — 自社の照明を求めるスタジオ、自社の商品を求めるカタログ — へ移り、相手の検証に耐えるファインチューンを出す。
シニアになるほど、アダプタを学習する人からパイプラインを担う人へ移る。データから配備までのループを設計し、チェックポイントが退行したかを判定する評価ハーネスを作り、画像あたりのコストを低く保つ量子化と配信の判断を下す。市場がこの移行をそのまま映す。AIの価値はモデルを所有することから、モデルを取り巻くワークフローを所有することへ滑っており、フロンティアのラボのモデルをゼロから学習できない企業も、オープンなモデルなら十分にファインチューニングできる。日本では新卒採用でいきなりこの肩書が付くことは稀で、機械学習エンジニアとして入り、中途やジョブ型のポジションで「生成AIエンジニア」「応用AIエンジニア」へ専門を寄せていくのが実際の道筋だ。自社のメディアモデルを出すスタートアップやメガベンチャーほど、この役割を別枠で募集する。オープンな重みをドメインの製品に変えられるエンジニアが、かつてAPIが取っていたマージンを取る。