長週期自主代理編排:軟體工程師的新前沿
為什麼這個領域重要
編碼代理已經越過了五分鐘的自動補全。2026年,OpenAI公布了一項壓力測試:Codex不間斷運行約25小時,消耗約1,300萬個token,產出近3萬行程式碼。這不再是一次性提示就結束的工作——一個管理者代理把任務拆解後派發給並行的工作者,系統自己花數小時反覆建置、測試、修正,這就是長週期自主工作的時代。METR的時間跨度指標估計,前沿模型以50%可靠度能處理的任務長度,自2019年以來大約每七個月翻一倍。若這條曲線延續,2028年前後日級任務就能落地。
可是模型跑得越久,真正的瓶頸就越從模型轉向包裹它的框架。Anthropic特地寫了一篇工程文章談長時運行代理的有效框架,正因為維持狀態、中介工具呼叫、驗證進度、捕捉漂移的基礎設施才是決定可靠性的關鍵。五分鐘的呼叫失敗了再呼叫一次就行,但跑了八小時的代理在最後崩潰,那八小時就全部白費。用檢查點保存中間狀態、跨行程邊界停下再恢復、用token預算約束讓成本不至於失控、在需要人工審批的節點安全暫停——設計這一切的人,就是長週期自主代理編排工程師。
所需技能
這份工作坐落在分散式系統工程與AI工程的交叉點上。可以把它看作面向非確定性工作者的可靠性工程。在此之上,長時運行又添了它自己的直覺。
- 框架與編排設計。 搭建管理者-工作者結構,按子代理切分上下文視窗,處理任務的拆解與重組。代理跑得越久上下文越容易洩漏,因此要刻意設計讓它記住什麼、壓縮或丟棄什麼。
- 檢查點與恢復。 構建停下再啟動也不會損壞的執行。保存中間狀態,從失敗點重試,寫出即使在運行途中發生部署也能存活的持久化工作流程。冪等性是前提。
- 漂移與可靠性防護。 防止代理在數小時後偏離最初目標,或在同一個錯誤上無限循環。進度驗證、循環偵測、逐步閘控、自動回滾——給非確定性系統套上確定性的安全網。
- 成本控制與可觀測性。 約束token預算,即時盯住單價。按OpenTelemetry的GenAI規約對呼叫、工具使用和推理做追蹤,事後就能讀出一次八小時的運行把token花在了哪裡。
- 人在迴路的恢復。 設計人介入的節點。構建能安全暫停、在人審閱後不丟失上下文繼續運行的流程。
職業路徑
需求陡增,可真正把長時運行的代理推上生產的人卻很少。所以這個職位要的是一個尷尬的交叉點——既不是普通後端工程師,也不是純粹的ML研究者。招募的重心是既懂分散式系統和可靠性工程、又啃過代理執行階段非確定性的中高階工程師。你能不能解決「展示能跑、生產30分鐘就崩」?這才是關鍵。
入行路徑出人意料地平常。從SRE、平台、分散式系統後端起步去承擔代理基礎設施,或者從AI工程的編排一側下沉到可靠性與執行階段層。頭銜尚未定型,散落在Agent Infrastructure Engineer、AI Platform Engineer、Agent Reliability Engineer之間。無論是在本地大型企業,還是剛拿到A輪的新創公司,把內部開發代理穩定地跑起來都不再是副專案,而是平台團隊的正式職責。薪酬對標AI基礎設施與平台工程師的上限,相當於內部平台序列的高位。
最快的驗證辦法是自己造一個。給一個編碼代理套上小框架,讓它能用檢查點停下再恢復,加上token預算和循環偵測,並用OTel給每次呼叫打點。然後故意在運行途中把它殺掉,量一量它是否能乾淨地復活。這一個循環勝過履歷上的任何關鍵字。