我不再直接使用 Codex 或 Claude Code 了。

我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 生成代理、编写提示词、为每个任务选择正确的模型、监控进度,并在 PR 准备好合并时通过 Telegram 通知我。

成果数据(过去4周)

我的Git历史看起来像我刚雇佣了一个开发团队。实际上只是我——从管理Claude Code,转变为管理一个管理其他Claude Code和Codex代理集群的OpenClaw代理。

成功率:系统几乎可以一次性完成所有小到中型任务,无需任何干预。

成本:Claude约$100/月,Codex约$90/月,但你可以从$20开始。

为什么这比直接使用Codex或Claude Code更好

Codex和Claude Code对你的业务了解很少。它们看到代码。它们看不到你的业务全貌。

OpenClaw改变了这个等式。它充当你和所有代理之间的编排层——它将我所有的业务上下文(客户数据、会议记录、过去的决策、什么有效、什么失败)保存在我的Obsidian vault中,并将历史上下文转换为每个编码代理的精确提示词。代理专注于代码。编排器保持在高战略层面。

系统工作原理

上周Stripe写了关于他们的后台代理系统"Minions"——由集中式编排层支持的并行编码代理。我意外地构建了同样的东西,但它运行在我的Mac Mini本地。

为什么一个AI不能同时处理两者

上下文窗口是零和的。你必须选择放入什么。

填满代码 → 没有业务上下文的空间。填满客户历史 → 没有代码库的空间。这就是双层系统有效的原因:每个AI都加载了它确切需要的内容。

完整的8步工作流程

第1步:客户需求 → 与Zoe确定范围

我与代理客户通话。他们想要重用他们已经设置好的配置。

通话后,我与Zoe讨论需求。因为我所有的会议记录自动同步到我的obsidian vault,我这边不需要任何解释。我们一起确定了功能范围——最终确定了一个模板系统,让他们可以保存和编辑现有配置。

然后Zoe做三件事:

  1. 充值信用额度立即解锁客户——她有管理员API访问权限
  2. 从生产数据库拉取客户配置——她有只读生产DB访问权限(我的Codex代理永远不会有这个)来检索他们现有的设置,这些设置被包含在提示词中
  3. 生成一个Codex代理——带有包含所有上下文的详细提示词

第2步:生成代理

每个代理获得自己的工作树(隔离分支)和tmux会话。

代理在tmux会话中运行,通过脚本进行完整的终端日志记录。

我之前使用codex exec或claude -p,但最近切换到了tmux:

tmux更好,因为任务中重定向功能强大。代理走向错误方向?不要杀死它。

任务被跟踪在.clawdbot/active-tasks.json中:

完成后,它会更新PR号并检查。(更多内容在第5步)

第3步:循环监控

一个cron作业每10分钟运行一次来照看所有代理。这实质上是一个改进的Ralph Loop。

但它不直接轮询代理——那会很昂贵。相反,它运行一个脚本读取JSON注册表并检查:

我不看终端。系统告诉我什么时候该看。

第4步:代理创建PR

代理通过gh pr create --fill提交、推送并打开PR。此时我不会收到通知——单独的PR还不算完成。

完成的定义(让你的代理知道这很重要):

第5步:自动代码审查

每个PR都由三个AI模型审查。它们发现不同的问题:

三个都在PR上直接发表评论。

第6步:自动测试

我们的CI管道运行大量自动化测试:

  • Lint和TypeScript检查
  • 单元测试
  • E2E测试
  • 针对预览环境的Playwright测试(与生产环境相同)

我上周添加了一条新规则:如果PR更改任何UI,必须在PR描述中包含截图。否则CI失败。这大大缩短了审查时间——我可以准确看到改变了什么,而无需点击预览。

第7步:人工审查

现在我收到Telegram通知:"PR #341准备好审查。"

到这时:

我的审查需要5-10分钟。很多PR我在不阅读代码的情况下就合并了——截图向我展示了所有我需要的信息。

第8步:合并

PR合并。一个每日cron作业清理孤立的工作树和任务注册表json。

Ralph Loop V2

这实质上是Ralph Loop,但更好。

Ralph Loop从记忆中提取上下文,生成输出,评估结果,保存学习。但大多数实现每个周期运行相同的提示词。提炼的学习改进了未来的检索,但提示词本身保持静态。

我们的系统不同。当代理失败时,Zoe不只是用相同的提示词重新生成它。她用完整的业务上下文查看失败并找出如何解除阻塞:

Zoe照看代理直到完成。她有代理没有的上下文——客户历史、会议记录、我们之前尝试过什么、为什么失败。她用这些上下文在每次重试时编写更好的提示词。

但她也不等我分配任务。她主动寻找工作:

我在客户电话后去散步。回到Telegram:"7个PR准备好审查。3个功能,4个bug修复。"

当代理成功时,模式被记录下来。"这个提示词结构对计费功能有效。" "Codex需要提前的类型定义。" "总是包含测试文件路径。"

奖励信号是:CI通过,三个代码审查通过,人工合并。任何失败都会触发循环。随着时间的推移,Zoe编写更好的提示词,因为她记得什么发布了。

选择正确的代理

并非所有编码代理都是平等的。快速参考:

Zoe为每个任务选择正确的代理并在它们之间路由输出。计费系统bug交给Codex。按钮样式修复交给Claude Code。新仪表板设计从Gemini开始。

如何设置

把整个文章复制到OpenClaw并告诉它: "为我的代码库实现这个代理集群设置。"

它会读取架构,创建脚本,设置目录结构,并配置cron监控。10分钟完成。

不卖课程给你。

没人预料到的瓶颈

这是我现在遇到的瓶颈:RAM

每个代理需要自己的工作树。每个工作树需要自己的node_modules。每个代理运行构建、类型检查、测试。五个代理同时运行意味着五个并行的TypeScript编译器、五个测试运行器、五组加载到内存中的依赖项。

我的16GB Mac Mini在4-5个代理时达到上限,然后开始交换——我需要运气好它们不会同时尝试构建。

所以我买了一台128GB RAM的Mac Studio M4 max($3,500)来为这套系统提供动力。它3月底到货,我会分享它是否值得。

接下来:单人百万美元公司

我们将在2026年开始看到大量单人百万美元公司。对于那些理解如何构建递归自我改进代理的人来说,杠杆是巨大的。

这就是它的样子:一个AI编排器作为你自己的延伸(就像Zoe对我的意义),将工作委托给处理不同业务功能的专门代理。工程。客户支持。运营。营销。每个代理专注于它擅长的。你保持激光聚焦和完全控制。

下一代企业家不会雇佣10人团队来做一个人用正确系统就能做的事情。他们会这样构建——保持小规模、快速行动、每天发布。

现在有太多AI生成的垃圾。太多围绕代理和"任务控制中心"的炒作,却没有构建任何真正有用的东西。花哨的演示没有实际好处。

我尝试做相反的事情:少些炒作,多些构建真实业务的文档。真实客户、真实收入、真实发布到生产环境的提交、真实的损失。

我在构建什么?Agentic PR——一个单人公司,与企业PR巨头竞争。帮助初创公司获得媒体报道,而无需$10k/月的 retainer。

如果你想看看我能把这个做到什么程度,欢迎关注。