这轮变化的重点:把 AI 放进可执行、可验证、可恢复的工作流。
旧阶段已经证明 AI 能承担大量编码;当前阶段更关心 loop、恢复、验证资产和外部资料校准。
把 AI 放进一条轨道: 可读、可查、可测、可恢复。
这里说的 harness,就是模型外面那层工程约束:范围、工具、权限、验证、日志和恢复路径。
早期总结里最有价值的公式仍然成立:AI 交付质量 = 上下文质量 × 验证自动化 × 任务适配度。
这轮实践里,有用的是“路由 + 渐进披露”:先告诉 agent 去哪里找,再让它按需读取。
这条顺序有实际作用:先读系统、查证据,再动文件。
先给 agent 一个指标、一个 guard、一个验证命令;每轮只允许一个可回滚变化。
这里的 Ralph Loop 先理解成一个执行模式:同一个 owner 持续推进,先有 PRD 和 test spec,再让 agent 跑长任务。
失败处理也要工程化。否则 agent 很容易把“该停止的问题”当成“再试一次的问题”。
我的习惯是先用 Exa / web search 把官方文档、工程博客、真实 issue 拉一圈,再回到当前 repo 做判断。
把问题从“哪个模型更强”换成:上下文、工具、权限、验证、恢复和记忆,哪一层还在靠人肉兜底。