长周期自主智能体编排:软件工程师的新前沿
为什么这个领域重要
编码智能体已经越过了五分钟的自动补全。2026年,OpenAI公布了一项压力测试:Codex不间断运行约25小时,消耗约1,300万个token,生成近3万行代码。这不再是一次性提示就结束的工作——一个管理者智能体把任务拆解后派发给并行的工作者,系统自己花数小时反复构建、测试、修复,这就是长周期自主工作的时代。METR的时间跨度指标估计,前沿模型以50%可靠度能处理的任务长度,自2019年以来大约每七个月翻一倍。如果这条曲线延续,2028年前后日级任务就能落地。
可是模型跑得越久,真正的瓶颈就越从模型转向包裹它的框架。Anthropic专门写了一篇工程文章讲长时运行智能体的有效框架,正因为维持状态、中介工具调用、验证进度、捕捉漂移的基础设施才是决定可靠性的关键。五分钟的调用失败了再调一次就行,但跑了八小时的智能体在最后崩溃,那八小时就全部白费。用检查点保存中间状态、跨进程边界停下再恢复、用token预算约束让成本不至于失控、在需要人工审批的节点安全暂停——设计这一切的人,就是长周期自主智能体编排工程师。
所需技能
这份工作坐落在分布式系统工程与AI工程的交叉点上。可以把它看作面向非确定性工作者的可靠性工程。在此之上,长时运行又添了它自己的直觉。
- 框架与编排设计。 搭建管理者-工作者结构,按子智能体切分上下文窗口,处理任务的拆解与重组。智能体跑得越久上下文越容易泄漏,因此要刻意设计让它记住什么、压缩或丢弃什么。
- 检查点与恢复。 构建停下再启动也不会损坏的执行。保存中间状态,从失败点重试,写出即使在运行途中发生部署也能存活的持久化工作流。幂等性是前提。
- 漂移与可靠性防护。 防止智能体在数小时后偏离最初目标,或在同一个错误上无限循环。进度验证、循环检测、逐步门控、自动回滚——给非确定性系统套上确定性的安全网。
- 成本控制与可观测性。 约束token预算,实时盯住单价。按OpenTelemetry的GenAI规约对调用、工具使用和推理做追踪,事后就能读出一次八小时的运行把token花在了哪里。
- 人在回路的恢复。 设计人介入的节点。构建能安全暂停、在人审阅后不丢失上下文继续运行的流程。
职业路径
需求陡增,可真正把长时运行的智能体推上生产的人却很少。所以这个岗位要的是一个尴尬的交叉点——既不是普通后端工程师,也不是纯粹的ML研究者。招聘的重心是既懂分布式系统和可靠性工程、又啃过智能体运行时非确定性的中高级工程师。你能不能解决"演示能跑、生产30分钟就崩"?这才是关键。
入行路径出人意料地平常。从SRE、平台、分布式系统后端起步去承担智能体基础设施,或者从AI工程的编排一侧下沉到可靠性与运行时层。头衔尚未定型,散落在Agent Infrastructure Engineer、AI Platform Engineer、Agent Reliability Engineer之间。无论是在BAT这样的大厂,还是刚拿到A轮的初创公司,把内部开发智能体稳定地跑起来都不再是副项目,而是平台团队的正式职责。薪酬对标AI基础设施与平台工程师的上限,相当于内部平台序列的高位。
最快的验证办法是自己造一个。给一个编码智能体套上小框架,让它能用检查点停下再恢复,加上token预算和循环检测,并用OTel给每次调用打点。然后故意在运行途中把它杀掉,量一量它是否能干净地复活。这一个循环胜过简历上的任何关键词。