69 秒改完 8 个文件，成本不到 1 毛钱：/fast 模式的极速与低成本

用过 AI 编程的人，大概都经历过这样一个阶段：

一开始惊艳于它的能力——给一段需求，AI 就能帮你跨文件修改，甚至还能跑测试。但用得越多，两个绕不开的问题就会慢慢浮出来。

速度很慢，成本很高。

原因出在架构本身。今天几乎所有的 Code Agent——不管是 Cursor、Claude Code 还是其他——都采用同一种范式：Agentic 模式。什么意思？就是每一次工具调用，都要把之前所有的调用历史和结果全部带上，作为上下文一起发给模型。改一个文件要带，读一个文件要带，做一次 lint 检查还是要带。上下文像滚雪球一样越滚越大，Token 消耗指数级上涨。

一个稍微复杂点的需求，agent 跑几轮下来，一次对话烧掉几美元是常有的事。你拿最聪明的模型做所有事情，包括那些根本不需要"聪明"的环节——读文件、写文件、格式校验——统统用同一个顶级模型来干，而且每一步都要把前面所有的历史重新过一遍。

这就好比你请了一个年薪百万的架构师，让他去搬砖、倒垃圾、打扫卫生，而且每搬一块砖之前，还要先把今天搬过的所有砖重新数一遍。能干吗？当然能。但又慢又贵。

那大家现在是怎么用得起的？答案很简单——靠补贴。

Cursor、Claude Code 这些厂商，本质上是在用巨额补贴帮用户扛住 API 成本。你每月付几十美元的订阅费，实际消耗的 API 成本可能是这个数字的好几倍。这个模式能撑多久，谁也说不准。

而一旦你想脱离这些厂商自己搭，问题就来了：单纯依赖国内的 Coding Plan 模型，效果往往差强人意；想用 GPT-5 或 Opus 4.6 这种顶级模型，不管走 OpenRouter 还是官方渠道，普通开发者根本用不起——一天烧几十美元，一个月下来就是上千美元的开支。

好效果和用得起，似乎成了两个互相矛盾的选项。

直到我最近试了 auto-coder.chat 的几个新功能，我发现这个矛盾正在被认真地解开。

SubAgent 协作：让贵的模型只干贵的活

auto-coder.chat 给出的第一个解法，是 SubAgent 架构——把一个顶级模型干的活，拆给一个团队来干。

auto-coder.chat 的规则市场（auto-coder.chat/zh/rules）上线了 SubAgent 规则。安装之后，系统会自动将一个复杂任务拆解为多个子任务，分配给不同层级的模型来执行。

规则市场与 SubAgent 规则

实际运行起来是这样的：主 Agent 用 GPT-5.4 来做核心推理——理解需求、拆解任务、做关键决策；而那些相对"重体力"的活——读文件、写文件、验证修改——则交给火山引擎 Coding Plan 里的 doubao-seed-2.0-pro 来做。

SubAgent 协作过程

这个架构的妙处在于，doubao-seed-2.0-pro 本身的推理能力对于这些子任务绰绰有余，而它的价格只是 GPT-5 的零头。你能看到系统的推理过程——它会自己想"这个任务该派给 subagent 来执行"，然后自动编排 contexter（负责读取）和 coder（负责修改）两个子 agent，串行完成整个流程。

最后的成本呢？

实际成本明细

三次 GPT-5.4 调用，成本分别是 $0.0394、$0.00976、$0.0114，加起来大约 6 美分。而子 agent 使用的 doubao-seed-2.0-pro 成本更是可以忽略不计。

效果接近纯 GPT-5 或 Claude Opus 4.6 的水准，价格只有原来的十几分之一。

这不是什么理论推算，是实打实跑出来的数字。

/fast 模式：极速、低成本，一句话搞定一个需求

SubAgent 解决的是"怎么用便宜的方式获得好效果"。但 auto-coder.chat 还推出了一个更极致的模式，专门针对另一类场景：你的需求很明确，一句话就能说清楚，不需要来回探索。

这就是 /fast 模式。

它的核心设计理念非常简单：不支持多轮对话。 一句话就是一个完整的需求，进去就干，干完就走。

为什么这一点如此关键？因为 agentic 模式之所以慢、之所以贵，根源就在于多轮对话。每多一轮，就多带一次历史，上下文就膨胀一圈，Token 就涨一截。而 /fast 模式从根上砍掉了这个包袱——既然只有一轮，就不存在历史累积的问题。没有滚雪球，自然又快又便宜。

来看一个实际案例。我需要给一个 Next.js 项目加一个功能——在规则市场和协作市场里，不管是获取原文、查看 JSON、复制命令，还是首次下载，都要统计下载次数。这个需求涉及前后端联动，API 路由、组件、工具库都要改，总共 8 个文件。

在传统的 agentic 模式下，这种需求通常要经历好几轮：AI 先读文件，理解结构，然后逐个文件做修改，每一步都把之前所有的历史带上。中间可能还会走错方向、回溯重试，上下文越滚越大。跑一圈下来，三五分钟算快的，Token 消耗也相当可观。

/fast 模式把整个流程压缩成三步：

探索项目（37.5 秒）：扫描找到需要修改和引用的文件
读取源文件（0 秒）：8 个文件，瞬间完成
生成代码变更（31.6 秒）：生成、校验、合并，一气呵成

总计 69.1 秒。

没有来回纠结，没有反复重试，没有中间态的多轮对话。探索、读取、生成，三刀下去，干净利落。

而 GPT-5.4 在这次任务中的实际消耗？$0.0611。 不到 5 毛人民币。

/fast 模式执行过程

GPT-5.4 实际成本

改完代码之后，一个 /commit 命令，自动生成 commit message，8 个文件的变更直接提交，紧接着 !git push origin main，整条链路一口气跑完。从需求到上线，可能你咖啡还没凉。

commit 和 push 全流程

这不是"牺牲质量换速度"——生成的代码没有 lint 错误，改动覆盖完整，该加的 API 加了，该改的组件改了。效果依然接近 agentic 范式下使用 GPT-5 或 Opus 4.6 的水准，但速度和成本完全不在一个量级。

一句话，一个需求，一分钟，几美分。这就是 /fast 的全部哲学。

为什么这件事重要？

你可能会觉得，省几美元有什么大不了的？

但这里面真正重要的不只是省钱，而是谁都能用得起。

回到前面说的那个矛盾：如果你依赖 Cursor 或 Claude Code 的补贴，你确实能用得起——但你被绑定在厂商的定价策略和额度限制里，什么时候涨价、什么时候限速，你说了不算。如果你想自己搭，纯用 GPT-5 或 Opus 4.6 跑 agentic 模式，一天几十美元，一个月上千美元，普通程序员根本扛不住。如果你退而求其次，纯用国内便宜的模型，成本是下来了，但效果差距太大，写出来的代码经常需要大量人工修正，省下的钱还不够补上花掉的时间。

auto-coder.chat 通过多模型融合 + SubAgent 技术，把这个矛盾解开了：

复杂任务 → SubAgent 协作，GPT-5 只做核心推理和关键决策，读写文件、验证修改等执行层工作交给 doubao-seed-2.0-pro 这类高性价比模型。效果接近纯 GPT-5 或 Opus 4.6 的水准，成本降到十几分之一。
明确的修改任务 → /fast 模式，跳出 agentic 范式，一分钟搞定，几美分了事，效果依然在线。
全流程打通 → 代码生成、lint 检查、commit、push，一条龙完成，不需要在工具之间反复切换。

这意味着什么？意味着一个普通开发者，不需要依赖任何 Code Agent 厂商的补贴，自己买 API，就能用得起接近顶级模型效果的 AI 辅助编程。一天的成本可能也就几块钱人民币。

AI 编程正在从"比谁模型更聪明"进入"比谁用模型用得更聪明"的阶段。而 auto-coder.chat 让这件事不再只是大厂和高预算团队的特权。

写在最后

过去一年，AI 编程赛道几乎所有人都在卷同一件事——更强的模型、更长的上下文、更复杂的 agent 链路。这些当然重要，但它们解决的是"能不能做到"的问题。

而真正挡在大多数开发者面前的，是另一个问题：做到了，但用不起。

现在的局面是这样的：agentic 范式下，每一次工具调用都带上全部历史，Token 消耗随着对话深度指数增长。想要好效果，就得用 GPT-5、Opus 4.6 这种顶级模型，成本高到离谱。于是 Code Agent 厂商靠补贴把价格压下来，用户看起来用得很便宜，但本质上是被补贴养着的——你的使用体验完全取决于厂商什么时候收紧额度、调整定价。

auto-coder.chat 走了一条不同的路：不靠补贴，靠架构。

/fast 模式跳出 agentic 范式，把修改流程从分钟级压到秒级，成本从美元级降到美分级。SubAgent 架构用多模型融合取代单模型硬扛，让顶级模型只出现在真正需要它的环节。规则市场让最佳实践可以一键复用。从需求到 push 的完整链路，不需要在工具之间反复切换。

这些东西拼在一起，它其实在回答一个很实际的问题：

AI 编程，到底能不能让每一个普通开发者都用得起、用得好？

auto-coder.chat 给出的答案是：可以。不需要依赖厂商补贴，不需要每月烧上千美元，只要把对的模型放在对的位置，把对的流程用在对的场景。

这才是 AI 编程走向真正普惠的路径。

体验 auto-coder.chat：auto-coder.chat