返回博客
2026年6月12日16 min read· WinClaw

OpenAI 到了真正最危险的时候

Fable 5 正在逼近 OpenAI 曾经最强的 o 系列智商,DeepSeek 用价格压低中低端市场,企业客户开始从 tokenmaxxing 转向 token budgeting。OpenAI 真正危险的地方,是它必须同时守住智商、成本和模型路由。

OpenAIAnthropicFable 5DeepSeekCodex模型路由AI 商业化

OpenAI 与 Anthropic 的模型智商之争

我以前一直觉得,OpenAI 并不太怕别的模型公司。因为它手里一直握着最关键的东西:模型智商。

只要最高智商还在 OpenAI 手里,它把面向大众的模型做快一点、便宜一点、短一点,甚至让重度用户感觉“是不是变笨了”,本质上都还是商业策略。它可以在不同价格带之间调节,可以让不同任务跑在不同模型上,也可以在需要的时候把更强的东西拿出来。

可如果有一天,对手真的在最高智商上追上来,那性质就不一样了。

Fable 5 出现以后,我第一次觉得,OpenAI 可能到了真正危险的时候。

以前 OpenAI 的高智商,贵到几乎不可用,并且只剩下智商

我对 o1/o3 的印象一直很深。

它们确实聪明,尤其是在代码上,有一种很少见的能力:不跑代码,只看代码,就能看出 bug,而且经常看得很准。

普通模型很多时候要靠执行、靠日志、靠测试、靠来回试。o1/o3 更像一个很强的工程师,顺着调用链和状态变化看一圈,就知道哪里可能有问题。这种能力很珍贵,它不是“会写代码”那么简单,而是有判断力。

但问题也很明显。

它贵得离谱,也慢得离谱,并且还不擅长做一些低级的活(比如按要求修改代码)。

当时 Anthropic 的模型给我的感觉正好相反。

它未必有 o1/o3 那种极限智商。很多需要深推理、纯靠脑子看代码找 bug 的任务,它没有 OpenAI 那么惊艳。但它懂的地方,干得很快,很稳,很能出活。

这在真实 coding 场景里非常重要。

开发者不是每天都在做数学奥赛,也不是每个任务都需要最高智商。多数时候,你真正需要的是一个模型能稳定读上下文,能改代码,能少犯低级错误,能跟着你连续干活。

所以即使 OpenAI 当时智商更高,很多真实工作流最后还是被 Anthropic 拿走了。最高智商很重要,但最高智商不等于最高生产力。

速度、稳定性、价格、编辑能力、上下文跟随能力,加在一起,才决定一个模型是不是真的能出活。

Fable 5 这次不一样

这次 Fable 5 给我的体感,和以前 Claude 的升级不太一样。

它有点像以前的 o1/o3,但又不只是像。

以前 o1/o3 更像一个高智商分析者。它能看出问题,能给出判断,但真正大规模改代码、连续编辑、在项目里往前推进,不一定顺手。

Fable 5 让我意外的地方,他不但保留了擅长编辑代码,分析代码的能力也获得了质的提升。

我和朋友聊的原话大概是:它有点像以前 o1/o3,但相比 o1/o3 只能分析、不擅长编辑代码,Fable 5 更像是既能看懂问题,又能动手改。它在代码上的智商可能已经和 o1/o3 差不多,某些场景甚至更好,而且又继承了 Claude 那种长编辑、稳执行的能力。

这里面的变化很关键。

一个模型如果只是会分析,不会出活,更像顾问。

一个模型如果既能分析,又能编辑,还能在项目里持续推进,它就开始变成真正的工程 agent。

过去 OpenAI 的优势是极限智商,Anthropic 的优势是出活能力。如果 Fable 5 开始把这两件事合到一起,OpenAI 的麻烦就来了。

因为这说明对手碰到的不是边缘能力,而是 OpenAI 的根。

Codex 的福和祸

更有意思的是,这个危险时刻,恰恰发生在 OpenAI Codex 取得巨大成就的时候。

Codex 是 OpenAI 非常成功的一步。它把模型从聊天窗口拉进真实工程环境,让模型开始读项目、改代码、跑命令、修测试、交付任务。这是从“回答问题”走向“完成工作”的关键一步。

按理说,这是 OpenAI 的福。

但中国有句古话,福兮祸之所伏,祸兮福之所倚。

Codex 越成功,OpenAI 越会暴露在一个更残酷的战场上。真实开发者会拿它和 Claude、Fable、DeepSeek,以及各种 agent 工具直接比较。

聊天模型时代,用户可能只比较回答是否聪明。

coding agent 时代,用户比较的是能不能真的改好代码,能不能连续推进,能不能少花钱,能不能少返工。

这时候如果 Fable 5 在代码上接近甚至局部超过 o1/o3 的高智商,又比旧 o1/o3 更会编辑代码,Codex 的成功反而显得更尴尬。

福,是 Codex 终于把 OpenAI 带进真实生产力场景。

祸,是它现在的模型不够聪明了,历史上最聪明的模型又快被 Fable 5 追上(现在的 5.5 智商是显著低于 Fable 的)。

前沿模型还是规模游戏

这里的规模,首先包括参数量。

OpenAI 和 Anthropic 都没有公开 GPT-5.5、Fable 5 这类旗舰模型的参数,所以不能把具体数字写成官方事实。但外部估计已经普遍把这类闭源旗舰模型放在 6 万亿参数以上的规模。你要知道 DeepSeek V4 Pro 才 1.6 万亿。

这些估计不一定精确,不同方法之间分歧也很大。但方向是清楚的:OpenAI 和 Anthropic 的旗舰模型,早就不是几百亿参数的游戏,而是在万亿级以上继续比规模、比后训练、比推理时计算。

而且规模也不只是参数量。训练数据、后训练、推理时计算、上下文、安全评估、服务保障,都会变成成本。

Scaling laws 早就说明,模型性能和模型大小、数据规模、训练 compute 之间存在经验性的幂律关系。Chinchilla 后来进一步指出,在 compute-optimal 训练里,模型大小和训练 token 数都要一起扩大。今天有 MoE、有 RL、有推理时计算,也有各种系统优化,但这些东西没有取消规模规律,只是改变了规模的形态。

所以 Fable 5 价格翻倍,放在商业价格上看,其实是在重复同一个结论:前沿智商继续提升,背后一定要有更大的计算、训练、后训练和服务成本。

OpenAI 危险的地方也在这里。

如果最高智商只能由 OpenAI 做出来,它再贵也有底气。可如果 Anthropic 也能做出类似 o1/o3 那种“光看代码就能看出问题”的模型,并且还能继承 Claude 的编辑和出活能力,OpenAI 的最高智商护城河就开始松动了。

DeepSeek 在另一边打价格

OpenAI 的压力不只来自高端智商。

低端和中端市场,也正在被性价比模型挤压。

我在 2026 年 6 月 11 日用 agent-browser 打开 OpenRouter 排行榜,同时抓取了它前端实际调用的 /api/frontend/rankings/models 接口。页面上的 This Week LLM Leaderboard 显示:

排名模型本周 token 用量
1DeepSeek V4 Flash4.34T tokens
2Hy3 preview3.79T tokens
3MiniMax M33.38T tokens
4MiMo-V2.52.89T tokens
5DeepSeek V4 Pro2.06T tokens
9Claude Opus 4.81.32T tokens

同一页面的模型作者市场份额是:

排名模型作者token 用量份额
1deepseek4.07T17.3%
2anthropic3.83T16.3%
7openai1.65T7.0%

这里的口径要看清楚。OpenRouter 模型榜第一不是笼统的 DeepSeek V4,而是 DeepSeek V4 Flash。DeepSeek V4 Pro 排第五。但按模型作者口径看,DeepSeek 排第一。

这不是口号,是用量。

用户嘴上可以说自己喜欢最强模型,token 账单会让人很诚实。

OpenRouter 上 DeepSeek V4 Flash 的价格是 0.0983 美元 / 百万输入 token,0.1966 美元 / 百万输出 token。DeepSeek V4 Pro 是 0.435 / 0.87 美元。Fable 5 是 10 / 50 美元。

对比Fable 5 输入价格倍数Fable 5 输出价格倍数
相比 DeepSeek V4 Flash约 102 倍约 254 倍
相比 DeepSeek V4 Pro约 23 倍约 58 倍
相比 Claude Opus 4.82 倍2 倍

这个差距太大了。

如果一个团队每天只消耗几万 token,差距可能还不明显。可如果每天跑几千万 token,价格差 10 倍就是预算问题,差 100 倍就是商业模式问题。

所以 DeepSeek V4 Flash 排第一,并不是证明它是世界上最聪明的模型。它说明的是另一件事:用户开始把智商除以价格。

这对 OpenAI 同样是压力。

高端智商被 Fable 5 逼近,中低端成本被 DeepSeek 逼低,中间的企业客户又开始算 ROI。OpenAI 要同时打这三场仗。

企业开始算 token 账

2026 年 AI 行业另一个明显变化,是企业从 tokenmaxxing 进入 token budgeting。

前一阶段,大家的心态是尽量多用 AI。谁用得多,谁显得先进。内部排行榜、AI 编程狂热、agent 长时间运行,都在推高 token 消耗。

但账单来了之后,事情就变了。

Business Insider 最近有几篇报道很有代表性。

Coinbase CEO Brian Armstrong 说,他们正在把适合的 prompt 路由到更便宜的模型上,以便在 token 用量指数级增长时,让成本大体保持平稳。他还判断,未来 12 到 18 个月,80% 的 workload 会跑在便宜 99% 的模型上,最新模型只用于所谓 “IQ maxing” 场景。

另一篇报道说,2026 年上半年,OpenAI、Anthropic、GitHub 都在把更多客户从近似包月无限用量,转向 token 计费。Walmart、Amazon、Uber、Salesforce、Coinbase 等企业都开始关注预算、限额、产出和 ROI。

还有消费 AI 公司遇到更直接的问题。Inworld CEO 说,很多消费 AI 应用的推理成本会吃掉 70% 到 90% 的运营预算,用户越爱用,公司的利润越往下掉。

AI 商业化正在进入新阶段。

一开始,大家问模型聪不聪明。

后来,大家问员工有没有用起来。

接下来,大家会问每一美元 token 成本有没有产生足够回报。

到这一步,市场就不再只看发布会和 benchmark 了。

对 OpenAI 来说,理性时刻并不轻松。它既要保住最高智商,又要控制成本,还要维持 Codex、ChatGPT、API 的巨大使用量。

上面,Anthropic 用 Fable 5 追智商。

下面,DeepSeek 用价格打用量。

中间,企业客户开始算 ROI。

这才是它真正难受的地方。

最后会变成模型路由的竞争

接下来 AI 产品真正的分水岭,不是哪家公司接入了最强模型,而是谁会做模型路由。

简单摘要、分类、改写、提取,用便宜模型。

普通 coding、普通文档、普通研究,用中档模型。

复杂代码库迁移、长时间自主 agent、高风险合同审阅、企业战略分析、科研推理,再调用 Fable 5、Opus、GPT-5.5 Pro 这类高端模型。

高端模型不应该一直开着,但系统里必须有它的位置。便宜模型也不应该被轻视,因为真正消耗 token 的,往往正是那些海量、重复、低风险的普通任务。

成熟的 AI 产品,未来会像调度云资源一样调度模型。小任务用小模型,大任务用大模型,低价值任务压成本,高价值任务保质量。

这也是 OpenRouter、Vercel AI Gateway、各种模型路由和 token observability 工具开始变重要的原因。

以前大家以为 AI 应用的核心是 prompt。

后来发现是 agent。

再往后看,核心可能是调度系统。

谁能把不同价格、不同能力、不同延迟、不同风险偏好的模型调度好,谁就能在 AI 应用层活得更久。

最后的感想

AI 一年,人间百年。谁又能想到从 2023 年到现在,也才三年而已。

OpenAI 到了真正最危险的时候 | Hailin Zhu