Harness Engineering 深度解读：AI Agent 时代的工程范式革命

基于六篇核心文献的综合分析：OpenAI (Ryan Lopopolo)、Anthropic (Justin Young)、Martin Fowler (Birgitta Böckeler)、LangChain、Latent Space、Cassie Kozyrkov

一、什么是 Harness Engineering？

Harness Engineering 是 2025-2026 年 AI 工程领域最重要的新概念之一。它不是一个工具，不是一个框架，而是一套围绕 AI Agent 构建的约束、反馈与控制系统——让 Agent 在人类设定的边界内自主、可靠、可持续地工作。

        核心公式：Harness Engineering ≠ 优化模型 → 优化模型运行的"环境"
      

与前两代范式的关系：

Anthropic 的 Justin Young 发现了一个核心规律：给 Agent 一个复杂的全栈项目，它的第一反应是试图在一个会话里把所有功能都做完。结果：

"AI 就像一个极其听话但缺乏背景知识的实习生。它倾向于填补你指令中的空白，进行'自信的即兴发挥'。如果你不审计它的假设，这些假设就会变成'信任债务'——目前看起来没问题，但在未来某个时刻会爆炸。"

—— Cassie Kozyrkov，前 Google 首席决策科学家

信任债务的危险在于：

Ryan Lopopolo 在 2026 年 2 月披露的为期 5 个月的内部实验：

工程师角色的根本转变：工程师不写代码之后，80% 的时间花在了构建 Harness 上——那套让 AI 能够自主、可靠、可持续工作的基础设施。

核心理念——人类掌舵，智能体执行：

"当 Agent 遇到困难时，工程师的思考不是'我该怎么帮它写完这段代码'，而是追问：'Agent 缺乏什么能力？需要什么工具、什么抽象层、什么结构？'然后由人类补充这些基础设施。"

Birgitta Böckeler 在 Martin Fowler 网站上将 OpenAI 团队的 Harness 归纳为三个类别：

Context Engineering（上下文工程）：代码库中持续增强的知识库，Agent 访问动态上下文的能力，不是全知文档而是"地图式"的渐进式信息披露
Architectural Constraints（架构约束）：由确定性的自定义 linter 和结构化测试强制执行，层级依赖模型（Types → Config → Repo → Service → Runtime → UI），违反层级依赖的代码直接在 CI 中被拒绝
"Garbage Collection"（垃圾回收）：后台定期运行的清理 Agent，扫描文档与代码之间的不一致，对抗熵增和腐烂

Justin Young 解决的是更底层的问题：Agent 怎么跨越 context window 的限制，实现真正的长期运行？

设计一：全标失败策略

所有功能的初始状态标记为"失败"。Agent 只能通过修改状态字段来标完成，不允许删除或编辑测试用例。这堵死了 Agent 通过"降低标准"来"完成"任务的路。

设计二：每次只做一件事

Anthropic 发现 Agent 有强烈的"贪多嚼不烂"倾向。强制"做一个功能就停"看起来效率低，但实际上总体完成率高得多。

设计三：进度文件作为跨会话记忆

claude-progress.txt 不只是日志，它是 Agent 的"外部记忆"。每个新会话的第一件事：读进度文件 + git log，搞清楚"上一个自己"做了什么，从断点继续。

        实验结果：同一个模型，仅改变 Harness，排名从 30+ 跃升至 Top 5。
      

这是整个 Harness Engineering 最深刻的思想：

规矩越明确 → Agent 独立做的事越多
约束越严格 → 信任越高 → 自主权越大

听起来矛盾，但和人类社会的运转逻辑完全一致：

"构建软件仍然需要纪律，但这种纪律更多地体现在支撑结构上——工具、抽象、反馈回路——而不是代码本身。"

—— OpenAI

原文：https://x.com/jakevin7/status/2033784104659882013
作者：卡比卡比 (@jakevin7) | 整理：三评