OpenClaw + Codex/ClaudeCode Agent Swarm: 打造单人开发团队

我不再直接使用 Codex 或 Claude Code 了。

我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 生成代理、编写提示词、为每个任务选择正确的模型、监控进度，并在 PR 准备好合并时通过 Telegram 通知我。

成果数据（过去4周）

单日94次提交：我最高效的一天——当天有3个客户电话，一次都没打开编辑器。平均每天约50次提交。
30分钟内7个PR：从想法到生产环境的速度极快，因为编码和验证大部分都是自动化的。
提交 → MRR：我用这个系统构建真实的B2B SaaS产品——结合创始人主导的销售，大多数功能需求当天交付。速度将潜在客户转化为付费客户。

我的Git历史看起来像我刚雇佣了一个开发团队。实际上只是我——从管理Claude Code，转变为管理一个管理其他Claude Code和Codex代理集群的OpenClaw代理。

成功率：系统几乎可以一次性完成所有小到中型任务，无需任何干预。

成本：Claude约$100/月，Codex约$90/月，但你可以从$20开始。

为什么这比直接使用Codex或Claude Code更好

Codex和Claude Code对你的业务了解很少。它们看到代码。它们看不到你的业务全貌。

OpenClaw改变了这个等式。它充当你和所有代理之间的编排层——它将我所有的业务上下文（客户数据、会议记录、过去的决策、什么有效、什么失败）保存在我的Obsidian vault中，并将历史上下文转换为每个编码代理的精确提示词。代理专注于代码。编排器保持在高战略层面。

系统工作原理

上周Stripe写了关于他们的后台代理系统"Minions"——由集中式编排层支持的并行编码代理。我意外地构建了同样的东西，但它运行在我的Mac Mini本地。

为什么一个AI不能同时处理两者

上下文窗口是零和的。你必须选择放入什么。

填满代码 → 没有业务上下文的空间。填满客户历史 → 没有代码库的空间。这就是双层系统有效的原因：每个AI都加载了它确切需要的内容。

完整的8步工作流程

第1步：客户需求 → 与Zoe确定范围

我与代理客户通话。他们想要重用他们已经设置好的配置。

通话后，我与Zoe讨论需求。因为我所有的会议记录自动同步到我的obsidian vault，我这边不需要任何解释。我们一起确定了功能范围——最终确定了一个模板系统，让他们可以保存和编辑现有配置。

然后Zoe做三件事：

充值信用额度立即解锁客户——她有管理员API访问权限
从生产数据库拉取客户配置——她有只读生产DB访问权限（我的Codex代理永远不会有这个）来检索他们现有的设置，这些设置被包含在提示词中
生成一个Codex代理——带有包含所有上下文的详细提示词

第2步：生成代理

每个代理获得自己的工作树（隔离分支）和tmux会话。

代理在tmux会话中运行，通过脚本进行完整的终端日志记录。

我之前使用codex exec或claude -p，但最近切换到了tmux：

tmux更好，因为任务中重定向功能强大。代理走向错误方向？不要杀死它。

任务被跟踪在.clawdbot/active-tasks.json中：

完成后，它会更新PR号并检查。（更多内容在第5步）

第3步：循环监控

一个cron作业每10分钟运行一次来照看所有代理。这实质上是一个改进的Ralph Loop。

但它不直接轮询代理——那会很昂贵。相反，它运行一个脚本读取JSON注册表并检查：

检查tmux会话是否存活
检查跟踪分支上的开放PR
通过gh cli检查CI状态
如果CI失败或有关键审查反馈，自动重新生成失败的代理（最多3次尝试）
只有在需要人工关注时才发出警报

我不看终端。系统告诉我什么时候该看。

第4步：代理创建PR

代理通过gh pr create --fill提交、推送并打开PR。此时我不会收到通知——单独的PR还不算完成。

完成的定义（让你的代理知道这很重要）：

PR已创建
分支已同步到main（无合并冲突）
CI通过（lint、types、单元测试、E2E）
Codex审查通过
Claude Code审查通过
Gemini审查通过
包含截图（如果有UI更改）

第5步：自动代码审查

每个PR都由三个AI模型审查。它们发现不同的问题：

Codex审查员——擅长边界情况。做最彻底的审查。发现逻辑错误、缺失的错误处理、竞态条件。误报率非常低。
Gemini Code Assist审查员——免费且非常有用。发现安全漏洞、可扩展性问题其他代理遗漏的。并提出具体修复建议。无脑安装。
Claude Code审查员——大多没用——倾向于过度谨慎。很多"考虑添加..."的建议通常是过度工程。除非标记为关键，否则我跳过所有内容。它很少自己发现关键问题，但会验证其他审查员标记的内容。

三个都在PR上直接发表评论。

第6步：自动测试
我们的CI管道运行大量自动化测试：

Lint和TypeScript检查

单元测试

E2E测试

针对预览环境的Playwright测试（与生产环境相同）

我上周添加了一条新规则：如果PR更改任何UI，必须在PR描述中包含截图。否则CI失败。这大大缩短了审查时间——我可以准确看到改变了什么，而无需点击预览。

第7步：人工审查

现在我收到Telegram通知："PR #341准备好审查。"

到这时：

CI通过
三个AI审查员批准了代码
截图显示UI更改
所有边界情况都记录在审查评论中

我的审查需要5-10分钟。很多PR我在不阅读代码的情况下就合并了——截图向我展示了所有我需要的信息。

第8步：合并

PR合并。一个每日cron作业清理孤立的工作树和任务注册表json。

Ralph Loop V2

这实质上是Ralph Loop，但更好。

Ralph Loop从记忆中提取上下文，生成输出，评估结果，保存学习。但大多数实现每个周期运行相同的提示词。提炼的学习改进了未来的检索，但提示词本身保持静态。

我们的系统不同。当代理失败时，Zoe不只是用相同的提示词重新生成它。她用完整的业务上下文查看失败并找出如何解除阻塞：

代理用完上下文了？"只关注这三个文件。"
代理走向错误方向了？"停止。客户想要X，不是Y。这是他们在会议中说的。"
代理需要澄清？"这是客户的邮件和他们的公司做什么。"

Zoe照看代理直到完成。她有代理没有的上下文——客户历史、会议记录、我们之前尝试过什么、为什么失败。她用这些上下文在每次重试时编写更好的提示词。

但她也不等我分配任务。她主动寻找工作：

早上：扫描Sentry → 发现4个新错误 → 生成4个代理来调查和修复
会议后：扫描会议记录 → 标记客户提到的3个功能需求 → 生成3个Codex代理
晚上：扫描git日志 → 生成Claude Code来更新changelog和客户文档

我在客户电话后去散步。回到Telegram："7个PR准备好审查。3个功能，4个bug修复。"

当代理成功时，模式被记录下来。"这个提示词结构对计费功能有效。" "Codex需要提前的类型定义。" "总是包含测试文件路径。"

奖励信号是：CI通过，三个代码审查通过，人工合并。任何失败都会触发循环。随着时间的推移，Zoe编写更好的提示词，因为她记得什么发布了。

选择正确的代理

并非所有编码代理都是平等的。快速参考：

Codex是我的主力。后端逻辑、复杂的bug、多文件重构、任何需要跨代码库推理的东西。它较慢但彻底。我用它处理90%的任务。
Claude Code更快，前端工作更好。它的权限问题也更少，所以非常适合git操作。（我以前更多地用它来驱动日常工作，但Codex 5.3现在简单更好更快）
Gemini有不同的超能力——设计美感。对于漂亮的UI，我会先让Gemini生成HTML/CSS规范，然后交给Claude Code在我们的组件系统中实现。Gemini设计，Claude构建。

Zoe为每个任务选择正确的代理并在它们之间路由输出。计费系统bug交给Codex。按钮样式修复交给Claude Code。新仪表板设计从Gemini开始。

如何设置

把整个文章复制到OpenClaw并告诉它： "为我的代码库实现这个代理集群设置。"

它会读取架构，创建脚本，设置目录结构，并配置cron监控。10分钟完成。

不卖课程给你。

没人预料到的瓶颈

这是我现在遇到的瓶颈：RAM。

每个代理需要自己的工作树。每个工作树需要自己的node_modules。每个代理运行构建、类型检查、测试。五个代理同时运行意味着五个并行的TypeScript编译器、五个测试运行器、五组加载到内存中的依赖项。

我的16GB Mac Mini在4-5个代理时达到上限，然后开始交换——我需要运气好它们不会同时尝试构建。

所以我买了一台128GB RAM的Mac Studio M4 max（$3,500）来为这套系统提供动力。它3月底到货，我会分享它是否值得。

接下来：单人百万美元公司

我们将在2026年开始看到大量单人百万美元公司。对于那些理解如何构建递归自我改进代理的人来说，杠杆是巨大的。

这就是它的样子：一个AI编排器作为你自己的延伸（就像Zoe对我的意义），将工作委托给处理不同业务功能的专门代理。工程。客户支持。运营。营销。每个代理专注于它擅长的。你保持激光聚焦和完全控制。

下一代企业家不会雇佣10人团队来做一个人用正确系统就能做的事情。他们会这样构建——保持小规模、快速行动、每天发布。

现在有太多AI生成的垃圾。太多围绕代理和"任务控制中心"的炒作，却没有构建任何真正有用的东西。花哨的演示没有实际好处。

我尝试做相反的事情：少些炒作，多些构建真实业务的文档。真实客户、真实收入、真实发布到生产环境的提交、真实的损失。

我在构建什么？Agentic PR——一个单人公司，与企业PR巨头竞争。帮助初创公司获得媒体报道，而无需$10k/月的 retainer。

如果你想看看我能把这个做到什么程度，欢迎关注。

原文：https://x.com/elvissun/status/2025920521871716562
作者：Elvis (@elvissun)