自我改進代理維運:軟體工程師的新領域
一覽這個職業
來源與參考 (8)
- https://www.indeed.com/hire/job-description/software-engineer
- https://www.aha.io/roadmapping/guide/agile-development/what-is-the-role-of-a-software-engineer
- https://jessup.edu/blog/engineering-technology/what-do-software-engineers-do-on-a-daily-basis/
- https://www.computerscience.org/careers/software-engineer/
- https://www.mtu.edu/cs/undergraduate/software/what/
- https://www.bls.gov/ooh/computer-and-information-technology/software-developers.htm
- https://www.baesystems.com/en-us/who-we-are/electronic-systems/engineering-careers/software-engineering
- https://www.snhu.edu/about-us/newsroom/stem/what-does-a-software-engineer-do
為什麼這個領域重要
自我改進(self-improving)代理如今已不是論文裡的概念,而是生產環境的一種模式。真正在跑的代理會把每一次生產互動記入日誌,對照評估標準打分,再把訊號回灌,自己改寫提示詞、策略與工具選擇。目前多數還是由人審核的迴路,但重心正快速往自主那一側移動。Airbnb 在 2025 年公開的 Agent-in-the-Loop,用這套資料飛輪把再訓練週期從幾個月壓到幾週,recall@75 提升 11.7%、precision@8 提升 14.8%、回答有用性提升 8.4%。
麻煩出在另一頭。代理自己變好時,也會悄悄變差。2026 年前後 arXiv 上不斷累積的自我改進代理研究一再顯示:得到多少新能力,就會失去多少舊能力——總量是淨增,但某些具體任務會無聲地退步。所以代理提出的每一次自我修改,都必須在上線前過一道關。這道關就是保留集(held-out)評估:把改進迴路從不接觸的一批任務另外藏起來,讓代理無法對自己的基準過度擬合。判斷哪個自我改進能發布、抓住能力退化、錯了就回滾,這套閉迴路維運是一份跟「做代理」完全不同的工作。它既不是把模型做大,也不是把代理拼出來,而是接手自動改進的整個生命週期。
所需技能
這份工作落在交叉點上:SRE 的發布與回滾直覺,疊上驗證一套會以非確定方式自我變異的系統所需的評估工程。把代理做好是另一門手藝——這裡做的是那條判斷「要不要相信代理對自己所做改動」的流水線。
- 保留集關卡。 維護一批改進迴路永遠看不到的評估集。防止污染(contamination),並寫好晉級規則,讓自我改進方案只有在這批隱藏集上過線才能晉級。把每一個失敗的生產案例固化成永久回歸測試,讓同一個錯誤不會被部署兩次。
- 能力退化偵測。 不只看代理得到了什麼,更看它失去了什麼。設一塊依能力劃分的計分板,專門揪出總分上升、某項能力卻悄悄下滑的 silent loss。
- eval-as-CI。 把取自真實失敗的黃金集、依人工審查校準過的 LLM-as-judge,以及攔截退步的 CI 關卡接進流水線。線上評分放在回應之後非同步執行,不增加延遲,用取樣率控制成本。
- 信任與回滾流水線。 自我修改先灰度到一小片流量,異常訊號觸發斷路器與自動回滾。為每一次改動留下 provenance,出問題時能精確地只回退那一處改動。
- 可觀測性與資料飛輪。 追蹤每一次自我修改及其結果。把生產失敗晉級為永久評估案例,偵測漂移並回灌,作為下一輪改進的輸入。
職業路徑
需求清楚,供給卻薄。做過代理 demo 的人很多,把一個會自我改進的代理安全跑在生產裡的人卻很少。徵才的核心是:能不能抓住並回退「打開自我改進後指標漲了,某個情境卻悄悄壞了」。重心落在中高階的交叉地帶——SRE 與平台經驗,加上評估工程的手感——既不是純後端,也不是純 ML 研究員。
入口有兩條。從 SRE 或平台起步,接手內部代理基礎設施與發布關卡,再走進自我改進的生命週期;或者從 AI 與提示工程那一側,往下沉到評估與回滾這一層。頭銜還沒定型,Agent Ops Engineer、Eval Engineer、LLM Reliability Engineer 各喊各的,薪酬也越來越常比同級 SWE 高出 10%–20%。無論是台積電生態圈裡的公司、Appier 這類本土 AI 新創,還是外商在台灣的研發團隊,只要把代理推上了生產,這個角色就已經是平台團隊的常設職責,而不再是可有可無。
最快的證明是自己把迴路跑一遍。做一個只有三、四個工具的小代理,放手讓它改寫自己的提示詞,再幫它套上保留集評估關卡、依能力劃分的計分板與自動回滾。然後親眼看著關卡在代理試圖把一次退步推上生產的那一刻把它擋下。跑通這一圈的經歷,比履歷上任何一個關鍵詞都硬。