OpenAI 到了真正最危险的时候

OpenAI 与 Anthropic 的模型智商之争

我以前一直觉得，OpenAI 并不太怕别的模型公司。因为它手里一直握着最关键的东西：模型智商。

只要最高智商还在 OpenAI 手里，它把面向大众的模型做快一点、便宜一点、短一点，甚至让重度用户感觉“是不是变笨了”，本质上都还是商业策略。它可以在不同价格带之间调节，可以让不同任务跑在不同模型上，也可以在需要的时候把更强的东西拿出来。

可如果有一天，对手真的在最高智商上追上来，那性质就不一样了。

Fable 5 出现以后，我第一次觉得，OpenAI 可能到了真正危险的时候。

以前 OpenAI 的高智商，贵到几乎不可用，并且只剩下智商

我对 o1/o3 的印象一直很深。

它们确实聪明，尤其是在代码上，有一种很少见的能力：不跑代码，只看代码，就能看出 bug，而且经常看得很准。

普通模型很多时候要靠执行、靠日志、靠测试、靠来回试。o1/o3 更像一个很强的工程师，顺着调用链和状态变化看一圈，就知道哪里可能有问题。这种能力很珍贵，它不是“会写代码”那么简单，而是有判断力。

但问题也很明显。

它贵得离谱，也慢得离谱，并且还不擅长做一些低级的活（比如按要求修改代码）。

当时 Anthropic 的模型给我的感觉正好相反。

它未必有 o1/o3 那种极限智商。很多需要深推理、纯靠脑子看代码找 bug 的任务，它没有 OpenAI 那么惊艳。但它懂的地方，干得很快，很稳，很能出活。

这在真实 coding 场景里非常重要。

开发者不是每天都在做数学奥赛，也不是每个任务都需要最高智商。多数时候，你真正需要的是一个模型能稳定读上下文，能改代码，能少犯低级错误，能跟着你连续干活。

所以即使 OpenAI 当时智商更高，很多真实工作流最后还是被 Anthropic 拿走了。最高智商很重要，但最高智商不等于最高生产力。

速度、稳定性、价格、编辑能力、上下文跟随能力，加在一起，才决定一个模型是不是真的能出活。

Fable 5 这次不一样

这次 Fable 5 给我的体感，和以前 Claude 的升级不太一样。

它有点像以前的 o1/o3，但又不只是像。

以前 o1/o3 更像一个高智商分析者。它能看出问题，能给出判断，但真正大规模改代码、连续编辑、在项目里往前推进，不一定顺手。

Fable 5 让我意外的地方，他不但保留了擅长编辑代码，分析代码的能力也获得了质的提升。

我和朋友聊的原话大概是：它有点像以前 o1/o3，但相比 o1/o3 只能分析、不擅长编辑代码，Fable 5 更像是既能看懂问题，又能动手改。它在代码上的智商可能已经和 o1/o3 差不多，某些场景甚至更好，而且又继承了 Claude 那种长编辑、稳执行的能力。

这里面的变化很关键。

一个模型如果只是会分析，不会出活，更像顾问。

一个模型如果既能分析，又能编辑，还能在项目里持续推进，它就开始变成真正的工程 agent。

过去 OpenAI 的优势是极限智商，Anthropic 的优势是出活能力。如果 Fable 5 开始把这两件事合到一起，OpenAI 的麻烦就来了。

因为这说明对手碰到的不是边缘能力，而是 OpenAI 的根。

Codex 的福和祸

更有意思的是，这个危险时刻，恰恰发生在 OpenAI Codex 取得巨大成就的时候。

Codex 是 OpenAI 非常成功的一步。它把模型从聊天窗口拉进真实工程环境，让模型开始读项目、改代码、跑命令、修测试、交付任务。这是从“回答问题”走向“完成工作”的关键一步。

按理说，这是 OpenAI 的福。

但中国有句古话，福兮祸之所伏，祸兮福之所倚。

Codex 越成功，OpenAI 越会暴露在一个更残酷的战场上。真实开发者会拿它和 Claude、Fable、DeepSeek，以及各种 agent 工具直接比较。

聊天模型时代，用户可能只比较回答是否聪明。

coding agent 时代，用户比较的是能不能真的改好代码，能不能连续推进，能不能少花钱，能不能少返工。

这时候如果 Fable 5 在代码上接近甚至局部超过 o1/o3 的高智商，又比旧 o1/o3 更会编辑代码，Codex 的成功反而显得更尴尬。

福，是 Codex 终于把 OpenAI 带进真实生产力场景。

祸，是它现在的模型不够聪明了，历史上最聪明的模型又快被 Fable 5 追上（现在的 5.5 智商是显著低于 Fable 的）。

前沿模型还是规模游戏

这里的规模，首先包括参数量。

OpenAI 和 Anthropic 都没有公开 GPT-5.5、Fable 5 这类旗舰模型的参数，所以不能把具体数字写成官方事实。但外部估计已经普遍把这类闭源旗舰模型放在 6 万亿参数以上的规模。你要知道 DeepSeek V4 Pro 才 1.6 万亿。

这些估计不一定精确，不同方法之间分歧也很大。但方向是清楚的：OpenAI 和 Anthropic 的旗舰模型，早就不是几百亿参数的游戏，而是在万亿级以上继续比规模、比后训练、比推理时计算。

而且规模也不只是参数量。训练数据、后训练、推理时计算、上下文、安全评估、服务保障，都会变成成本。

Scaling laws 早就说明，模型性能和模型大小、数据规模、训练 compute 之间存在经验性的幂律关系。Chinchilla 后来进一步指出，在 compute-optimal 训练里，模型大小和训练 token 数都要一起扩大。今天有 MoE、有 RL、有推理时计算，也有各种系统优化，但这些东西没有取消规模规律，只是改变了规模的形态。

所以 Fable 5 价格翻倍，放在商业价格上看，其实是在重复同一个结论：前沿智商继续提升，背后一定要有更大的计算、训练、后训练和服务成本。

OpenAI 危险的地方也在这里。

如果最高智商只能由 OpenAI 做出来，它再贵也有底气。可如果 Anthropic 也能做出类似 o1/o3 那种“光看代码就能看出问题”的模型，并且还能继承 Claude 的编辑和出活能力，OpenAI 的最高智商护城河就开始松动了。

DeepSeek 在另一边打价格

OpenAI 的压力不只来自高端智商。

低端和中端市场，也正在被性价比模型挤压。

我在 2026 年 6 月 11 日用 agent-browser 打开 OpenRouter 排行榜，同时抓取了它前端实际调用的 /api/frontend/rankings/models 接口。页面上的 This Week LLM Leaderboard 显示：

排名	模型	本周 token 用量
1	DeepSeek V4 Flash	4.34T tokens
2	Hy3 preview	3.79T tokens
3	MiniMax M3	3.38T tokens
4	MiMo-V2.5	2.89T tokens
5	DeepSeek V4 Pro	2.06T tokens
9	Claude Opus 4.8	1.32T tokens

同一页面的模型作者市场份额是：

排名	模型作者	token 用量	份额
1	deepseek	4.07T	17.3%
2	anthropic	3.83T	16.3%
7	openai	1.65T	7.0%

这里的口径要看清楚。OpenRouter 模型榜第一不是笼统的 DeepSeek V4，而是 DeepSeek V4 Flash。DeepSeek V4 Pro 排第五。但按模型作者口径看，DeepSeek 排第一。

这不是口号，是用量。

用户嘴上可以说自己喜欢最强模型，token 账单会让人很诚实。

OpenRouter 上 DeepSeek V4 Flash 的价格是 0.0983 美元 / 百万输入 token，0.1966 美元 / 百万输出 token。DeepSeek V4 Pro 是 0.435 / 0.87 美元。Fable 5 是 10 / 50 美元。

对比	Fable 5 输入价格倍数	Fable 5 输出价格倍数
相比 DeepSeek V4 Flash	约 102 倍	约 254 倍
相比 DeepSeek V4 Pro	约 23 倍	约 58 倍
相比 Claude Opus 4.8	2 倍	2 倍

这个差距太大了。

如果一个团队每天只消耗几万 token，差距可能还不明显。可如果每天跑几千万 token，价格差 10 倍就是预算问题，差 100 倍就是商业模式问题。

所以 DeepSeek V4 Flash 排第一，并不是证明它是世界上最聪明的模型。它说明的是另一件事：用户开始把智商除以价格。

这对 OpenAI 同样是压力。

高端智商被 Fable 5 逼近，中低端成本被 DeepSeek 逼低，中间的企业客户又开始算 ROI。OpenAI 要同时打这三场仗。

企业开始算 token 账

2026 年 AI 行业另一个明显变化，是企业从 tokenmaxxing 进入 token budgeting。

前一阶段，大家的心态是尽量多用 AI。谁用得多，谁显得先进。内部排行榜、AI 编程狂热、agent 长时间运行，都在推高 token 消耗。

但账单来了之后，事情就变了。

Business Insider 最近有几篇报道很有代表性。

Coinbase CEO Brian Armstrong 说，他们正在把适合的 prompt 路由到更便宜的模型上，以便在 token 用量指数级增长时，让成本大体保持平稳。他还判断，未来 12 到 18 个月，80% 的 workload 会跑在便宜 99% 的模型上，最新模型只用于所谓 “IQ maxing” 场景。

另一篇报道说，2026 年上半年，OpenAI、Anthropic、GitHub 都在把更多客户从近似包月无限用量，转向 token 计费。Walmart、Amazon、Uber、Salesforce、Coinbase 等企业都开始关注预算、限额、产出和 ROI。

还有消费 AI 公司遇到更直接的问题。Inworld CEO 说，很多消费 AI 应用的推理成本会吃掉 70% 到 90% 的运营预算，用户越爱用，公司的利润越往下掉。

AI 商业化正在进入新阶段。

一开始，大家问模型聪不聪明。

后来，大家问员工有没有用起来。

接下来，大家会问每一美元 token 成本有没有产生足够回报。

到这一步，市场就不再只看发布会和 benchmark 了。

对 OpenAI 来说，理性时刻并不轻松。它既要保住最高智商，又要控制成本，还要维持 Codex、ChatGPT、API 的巨大使用量。

上面，Anthropic 用 Fable 5 追智商。

下面，DeepSeek 用价格打用量。

中间，企业客户开始算 ROI。

这才是它真正难受的地方。

最后会变成模型路由的竞争

接下来 AI 产品真正的分水岭，不是哪家公司接入了最强模型，而是谁会做模型路由。

简单摘要、分类、改写、提取，用便宜模型。

普通 coding、普通文档、普通研究，用中档模型。

复杂代码库迁移、长时间自主 agent、高风险合同审阅、企业战略分析、科研推理，再调用 Fable 5、Opus、GPT-5.5 Pro 这类高端模型。

高端模型不应该一直开着，但系统里必须有它的位置。便宜模型也不应该被轻视，因为真正消耗 token 的，往往正是那些海量、重复、低风险的普通任务。

成熟的 AI 产品，未来会像调度云资源一样调度模型。小任务用小模型，大任务用大模型，低价值任务压成本，高价值任务保质量。

这也是 OpenRouter、Vercel AI Gateway、各种模型路由和 token observability 工具开始变重要的原因。

以前大家以为 AI 应用的核心是 prompt。

后来发现是 agent。

再往后看，核心可能是调度系统。

谁能把不同价格、不同能力、不同延迟、不同风险偏好的模型调度好，谁就能在 AI 应用层活得更久。

最后的感想

AI 一年，人间百年。谁又能想到从 2023 年到现在，也才三年而已。