AI Coding · Team Share

Vol.01

2026.05 · 组内分享

从 Vibe Coding
到 Harness Engineering

这轮变化的重点：把 AI 放进可执行、可验证、可恢复的工作流。

ContextVerificationHarnessLoop

AI Coding Notes

01 / 14

Evidence · 两个阶段对照

02 / 14

历史样本 vs 当前长周期样本

数据看的是工作重心变化。

旧阶段已经证明 AI 能承担大量编码；当前阶段更关心 loop、恢复、验证资产和外部资料校准。

Vibe Coding · Historical Sample

证明 AI 可以承担大部分编码。

8mo

持续迭代周期

1k+

累计 commits

200+

活跃天数

40%

feat 占比，功能冲刺明显

旧阶段的重点是把项目规则、上下文入口、质量门禁和结构化检索跑通，让 AI 输出能进工程流程。

Harness Engineering · Current Sample

开始把 AI 当长期运行系统管理。

2,047

从 2026-03-10 到现在

1,345

触达文件，覆盖面变宽

748

fix，边界和稳定性占比上升

177

docs + tests，验证资产增多

当前阶段更关心 loop、恢复、验证矩阵和外部资料校准；代码只是系统跑出来的结果。

Data · Historical Anonymized Sample + Current Anonymized Sample

Data

The Shift · 核心变化

03 / 14

先给一个土话定义

把 AI 放进一条轨道：可读、可查、可测、可恢复。

这里说的 harness，就是模型外面那层工程约束：范围、工具、权限、验证、日志和恢复路径。

From Output to Operating System

Shift

Before / After · 范式变化

04 / 14

旧经验继续有用，生产环境还要再加一层

Vibe 打开入口，Harness 托住交付。

Vibe Coding

人盯输出

把需求讲清楚，让模型写。
靠 CLAUDE.md / AGENTS.md 喂上下文。
靠测试、lint、review 做验收。
失败后继续改 prompt。

Harness Engineering

系统约束输出

任务先落成 spec、scope、done 条件。
工具、权限、上下文都有预算和边界。
循环带 retry、abort、fallback、回归矩阵。
失败后优先补 harness，再调整说法。

早期经验总结的下一层

Comparison

Act I · 旧方法的复利

05 / 14

先保留有效资产

上下文 + 验证

早期总结里最有价值的公式仍然成立：AI 交付质量 = 上下文质量 × 验证自动化 × 任务适配度。

Vibe Coding Engineering Practice

Act I

Context · Attention Budget

06 / 14

“多给上下文”会把任务撑爆

上下文要按预算管。

这轮实践里，有用的是“路由 + 渐进披露”：先告诉 agent 去哪里找，再让它按需读取。

AGENTS.md 写成百科全书会失控。更适合做索引：规则、入口、验证命令、边界和下一层文档位置。

Codex / Anthropic / early notes

Project

稳定规则：目录、命令、禁令、提交与 review 约束。

LOW CHURN

Task

本次目标：范围、非目标、验收标准、风险点。

ACTIVE

Runtime

工具结果、日志、截图、测试输出，小片段进入上下文。

METERED

Memory

只沉淀可复用决策，不把历史聊天整包塞回去。

SELECTIVE

Progressive disclosure

Context

Workflow · 基础执行闭环

07 / 14

最小闭环

Read -> Search -> Change -> Verify

这条顺序有实际作用：先读系统、查证据，再动文件。

Coding Harness · Minimum Loop

01

Read

读 README、AGENTS、旧文、关键实现。

02

Search

ace / rg / ast-grep / nmem / Exa 定位证据。

03

Change

小范围 patch，拒绝顺手重构。

04

Verify

窄测试先跑，再按风险扩大。

05

Record

把反复踩坑写回 rules、tests、memory。

Project rule as harness

Loop

Autoresearch · 无人值守迭代

08 / 14

从“一次性回答”到“实验循环”

Autoresearch 先定指标。

先给 agent 一个指标、一个 guard、一个验证命令；每轮只允许一个可回滚变化。

Modify -> Verify -> Keep / Discard -> Repeat。没有机械验证，就不叫 autoresearch。

Codex Autoresearch Skill

Goal

要优化什么，不用一句“提升质量”糊过去。

INTENT

Metric

通过率、耗时、错误数、覆盖率、截图 diff。

MEASURE

Guard

不准越界、不准降级、不准动无关文件。

BOUNDARY

Log

每轮留结果，方便人醒来只看保留/丢弃原因。

AUDIT

Long-running iteration

Autoresearch

Act II · Ralph Loop

09 / 14

持久单负责人执行

Ralph Loop

这里的 Ralph Loop 先理解成一个执行模式：同一个 owner 持续推进，先有 PRD 和 test spec，再让 agent 跑长任务。

PRD First · Test Spec as Companion

Act II

Planning Harness · 从访谈到执行

10 / 14

别把不清楚的问题直接丢给执行侧

规划要写成执行约束。

Full Flow

01

Clarify

先问边界：入口、非目标、失败模型。

02

Plan

把方案、风险和拆分先拧一遍。

03

Spec

写清 done when、out of scope、改动面。

04

Gates

落到测试、日志字段、边界案例。

05

Execute

单 owner 持续跑，必要时再拆 worker。

个人轻量版：5 行 PRD + 3 个验收点 + 1 条验证命令。先把这三件事写清楚，再让 agent 开始改。

Solo Version

Planning creates executable certainty

Workflow

Failure Harness · 出错怎么处理

11 / 14

出错后先别急着继续跑

先判断：停、重试，还是补 harness。

失败处理也要工程化。否则 agent 很容易把“该停止的问题”当成“再试一次的问题”。

翻车例子：用户已经拒绝，agent 继续尝试，结果越界。修法是把“拒绝”写成停止语义。

Failure story · stop / retry / patch

停

用户拒绝、权限阻断、会产生副作用、重复空转。

STOP

重试

网络抖动、参数可修、读取失败且没有副作用。

RETRY

补

同类错误第二次出现，补测试、规则、脚本或日志。

PATCH

记

留下触发条件、验证命令和下次该看的证据。

MEMORY

Failure handling as harness

Recovery

Research · 外部资料怎么用

12 / 14

别让模型凭感觉定策略

用 Exa 找参照系。

我的习惯是先用 Exa / web search 把官方文档、工程博客、真实 issue 拉一圈，再回到当前 repo 做判断。

我查的通常会落到具体问题：超时设多少、失败要不要重试、默认策略怎么拆、主流工具在哪些地方踩过坑。

External Research as Decision Support

触发

参数没把握、策略像拍脑袋、验证边界不清楚，就先停一下查资料。

WHEN

检索

优先看官方 docs、工程博客、真实 issue；issue 更容易看到失败样本。

SEARCH

消化

只拿默认值、边界条件、反例和取舍理由，不搬对方的上下文。

DISTILL

落地

把结论落到 spec、项目规则、测试或脚本里，下次不用重新查一遍。

APPLY

Tools · Exa / web search · official docs · engineering posts · issues

Research

Act III · 团队落地

13 / 14

The Question

我们的 harness
现在缺哪一环？

把问题从“哪个模型更强”换成：上下文、工具、权限、验证、恢复和记忆，哪一层还在靠人肉兜底。

Team checklist

Question

Takeaway · 行动清单

14 / 14

先别搞宏大改造

明天先抄 3 步。

01 · Scope

每个中型任务写清 done when 和 out of scope。

02 · Evidence

让 agent 先列文件、证据和改动面，确认后再允许修改。

03 · Gate

失败一次后先补测试、规则或脚本，再继续让 agent 跑。

对个人开发者来说，harness 先不用完整平台化。先让任务可读、证据可查、失败可复盘。

Harness Engineering · 2026

/slides/harness-engineering-ai-coding/

End

从 Vibe Coding到 Harness Engineering

数据看的是工作重心变化。

Vibe 打开入口，Harness 托住交付。

人盯输出

系统约束输出

上下文 + 验证

上下文要按预算管。

Read -> Search -> Change -> Verify

Autoresearch 先定指标。

Ralph Loop

规划要写成执行约束。

先判断：停、重试，还是补 harness。

用 Exa 找参照系。

我们的 harness现在缺哪一环？

明天先抄 3 步。

从 Vibe Coding
到 Harness Engineering

我们的 harness
现在缺哪一环？