我不再直接使用 Codex 或 Claude Code 了。
我使用 OpenClaw 作为我的编排层。我的编排器 Zoe 生成代理、编写提示词、为每个任务选择正确的模型、监控进度,并在 PR 准备好合并时通过 Telegram 通知我。
成果数据(过去4周)
- 单日94次提交:我最高效的一天——当天有3个客户电话,一次都没打开编辑器。平均每天约50次提交。
- 30分钟内7个PR:从想法到生产环境的速度极快,因为编码和验证大部分都是自动化的。
- 提交 → MRR:我用这个系统构建真实的B2B SaaS产品——结合创始人主导的销售,大多数功能需求当天交付。速度将潜在客户转化为付费客户。
我的Git历史看起来像我刚雇佣了一个开发团队。实际上只是我——从管理Claude Code,转变为管理一个管理其他Claude Code和Codex代理集群的OpenClaw代理。
成本:Claude约$100/月,Codex约$90/月,但你可以从$20开始。
为什么这比直接使用Codex或Claude Code更好
Codex和Claude Code对你的业务了解很少。它们看到代码。它们看不到你的业务全貌。
OpenClaw改变了这个等式。它充当你和所有代理之间的编排层——它将我所有的业务上下文(客户数据、会议记录、过去的决策、什么有效、什么失败)保存在我的Obsidian vault中,并将历史上下文转换为每个编码代理的精确提示词。代理专注于代码。编排器保持在高战略层面。
系统工作原理
上周Stripe写了关于他们的后台代理系统"Minions"——由集中式编排层支持的并行编码代理。我意外地构建了同样的东西,但它运行在我的Mac Mini本地。
为什么一个AI不能同时处理两者
上下文窗口是零和的。你必须选择放入什么。
填满代码 → 没有业务上下文的空间。填满客户历史 → 没有代码库的空间。这就是双层系统有效的原因:每个AI都加载了它确切需要的内容。
完整的8步工作流程
第1步:客户需求 → 与Zoe确定范围
我与代理客户通话。他们想要重用他们已经设置好的配置。
通话后,我与Zoe讨论需求。因为我所有的会议记录自动同步到我的obsidian vault,我这边不需要任何解释。我们一起确定了功能范围——最终确定了一个模板系统,让他们可以保存和编辑现有配置。
然后Zoe做三件事:
- 充值信用额度立即解锁客户——她有管理员API访问权限
- 从生产数据库拉取客户配置——她有只读生产DB访问权限(我的Codex代理永远不会有这个)来检索他们现有的设置,这些设置被包含在提示词中
- 生成一个Codex代理——带有包含所有上下文的详细提示词
第2步:生成代理
每个代理获得自己的工作树(隔离分支)和tmux会话。
代理在tmux会话中运行,通过脚本进行完整的终端日志记录。
我之前使用codex exec或claude -p,但最近切换到了tmux:
tmux更好,因为任务中重定向功能强大。代理走向错误方向?不要杀死它。
任务被跟踪在.clawdbot/active-tasks.json中:
完成后,它会更新PR号并检查。(更多内容在第5步)
第3步:循环监控
一个cron作业每10分钟运行一次来照看所有代理。这实质上是一个改进的Ralph Loop。
但它不直接轮询代理——那会很昂贵。相反,它运行一个脚本读取JSON注册表并检查:
- 检查tmux会话是否存活
- 检查跟踪分支上的开放PR
- 通过gh cli检查CI状态
- 如果CI失败或有关键审查反馈,自动重新生成失败的代理(最多3次尝试)
- 只有在需要人工关注时才发出警报
我不看终端。系统告诉我什么时候该看。
第4步:代理创建PR
代理通过gh pr create --fill提交、推送并打开PR。此时我不会收到通知——单独的PR还不算完成。
完成的定义(让你的代理知道这很重要):
- PR已创建
- 分支已同步到main(无合并冲突)
- CI通过(lint、types、单元测试、E2E)
- Codex审查通过
- Claude Code审查通过
- Gemini审查通过
- 包含截图(如果有UI更改)
第5步:自动代码审查
每个PR都由三个AI模型审查。它们发现不同的问题:
- Codex审查员——擅长边界情况。做最彻底的审查。发现逻辑错误、缺失的错误处理、竞态条件。误报率非常低。
- Gemini Code Assist审查员——免费且非常有用。发现安全漏洞、可扩展性问题其他代理遗漏的。并提出具体修复建议。无脑安装。
- Claude Code审查员——大多没用——倾向于过度谨慎。很多"考虑添加..."的建议通常是过度工程。除非标记为关键,否则我跳过所有内容。它很少自己发现关键问题,但会验证其他审查员标记的内容。
三个都在PR上直接发表评论。
第6步:自动测试
我们的CI管道运行大量自动化测试:
- Lint和TypeScript检查
- 单元测试
- E2E测试
- 针对预览环境的Playwright测试(与生产环境相同)
我上周添加了一条新规则:如果PR更改任何UI,必须在PR描述中包含截图。否则CI失败。这大大缩短了审查时间——我可以准确看到改变了什么,而无需点击预览。
第7步:人工审查
现在我收到Telegram通知:"PR #341准备好审查。"
到这时:
- CI通过
- 三个AI审查员批准了代码
- 截图显示UI更改
- 所有边界情况都记录在审查评论中
我的审查需要5-10分钟。很多PR我在不阅读代码的情况下就合并了——截图向我展示了所有我需要的信息。
第8步:合并
PR合并。一个每日cron作业清理孤立的工作树和任务注册表json。
Ralph Loop V2
这实质上是Ralph Loop,但更好。
Ralph Loop从记忆中提取上下文,生成输出,评估结果,保存学习。但大多数实现每个周期运行相同的提示词。提炼的学习改进了未来的检索,但提示词本身保持静态。
我们的系统不同。当代理失败时,Zoe不只是用相同的提示词重新生成它。她用完整的业务上下文查看失败并找出如何解除阻塞:
- 代理用完上下文了?"只关注这三个文件。"
- 代理走向错误方向了?"停止。客户想要X,不是Y。这是他们在会议中说的。"
- 代理需要澄清?"这是客户的邮件和他们的公司做什么。"
Zoe照看代理直到完成。她有代理没有的上下文——客户历史、会议记录、我们之前尝试过什么、为什么失败。她用这些上下文在每次重试时编写更好的提示词。
但她也不等我分配任务。她主动寻找工作:
- 早上:扫描Sentry → 发现4个新错误 → 生成4个代理来调查和修复
- 会议后:扫描会议记录 → 标记客户提到的3个功能需求 → 生成3个Codex代理
- 晚上:扫描git日志 → 生成Claude Code来更新changelog和客户文档
我在客户电话后去散步。回到Telegram:"7个PR准备好审查。3个功能,4个bug修复。"
当代理成功时,模式被记录下来。"这个提示词结构对计费功能有效。" "Codex需要提前的类型定义。" "总是包含测试文件路径。"
奖励信号是:CI通过,三个代码审查通过,人工合并。任何失败都会触发循环。随着时间的推移,Zoe编写更好的提示词,因为她记得什么发布了。
选择正确的代理
并非所有编码代理都是平等的。快速参考:
- Codex是我的主力。后端逻辑、复杂的bug、多文件重构、任何需要跨代码库推理的东西。它较慢但彻底。我用它处理90%的任务。
- Claude Code更快,前端工作更好。它的权限问题也更少,所以非常适合git操作。(我以前更多地用它来驱动日常工作,但Codex 5.3现在简单更好更快)
- Gemini有不同的超能力——设计美感。对于漂亮的UI,我会先让Gemini生成HTML/CSS规范,然后交给Claude Code在我们的组件系统中实现。Gemini设计,Claude构建。
Zoe为每个任务选择正确的代理并在它们之间路由输出。计费系统bug交给Codex。按钮样式修复交给Claude Code。新仪表板设计从Gemini开始。
如何设置
它会读取架构,创建脚本,设置目录结构,并配置cron监控。10分钟完成。
不卖课程给你。
没人预料到的瓶颈
这是我现在遇到的瓶颈:RAM。
每个代理需要自己的工作树。每个工作树需要自己的node_modules。每个代理运行构建、类型检查、测试。五个代理同时运行意味着五个并行的TypeScript编译器、五个测试运行器、五组加载到内存中的依赖项。
我的16GB Mac Mini在4-5个代理时达到上限,然后开始交换——我需要运气好它们不会同时尝试构建。
所以我买了一台128GB RAM的Mac Studio M4 max($3,500)来为这套系统提供动力。它3月底到货,我会分享它是否值得。
接下来:单人百万美元公司
我们将在2026年开始看到大量单人百万美元公司。对于那些理解如何构建递归自我改进代理的人来说,杠杆是巨大的。
这就是它的样子:一个AI编排器作为你自己的延伸(就像Zoe对我的意义),将工作委托给处理不同业务功能的专门代理。工程。客户支持。运营。营销。每个代理专注于它擅长的。你保持激光聚焦和完全控制。
下一代企业家不会雇佣10人团队来做一个人用正确系统就能做的事情。他们会这样构建——保持小规模、快速行动、每天发布。
现在有太多AI生成的垃圾。太多围绕代理和"任务控制中心"的炒作,却没有构建任何真正有用的东西。花哨的演示没有实际好处。
我尝试做相反的事情:少些炒作,多些构建真实业务的文档。真实客户、真实收入、真实发布到生产环境的提交、真实的损失。
我在构建什么?Agentic PR——一个单人公司,与企业PR巨头竞争。帮助初创公司获得媒体报道,而无需$10k/月的 retainer。
如果你想看看我能把这个做到什么程度,欢迎关注。
原文:https://x.com/elvissun/status/2025920521871716562
作者:Elvis (@elvissun)