
我以前一直觉得,OpenAI 并不太怕别的模型公司。因为它手里一直握着最关键的东西:模型智商。
只要最高智商还在 OpenAI 手里,它把面向大众的模型做快一点、便宜一点、短一点,甚至让重度用户感觉“是不是变笨了”,本质上都还是商业策略。它可以在不同价格带之间调节,可以让不同任务跑在不同模型上,也可以在需要的时候把更强的东西拿出来。
可如果有一天,对手真的在最高智商上追上来,那性质就不一样了。
Fable 5 出现以后,我第一次觉得,OpenAI 可能到了真正危险的时候。
以前 OpenAI 的高智商,贵到几乎不可用,并且只剩下智商
我对 o1/o3 的印象一直很深。
它们确实聪明,尤其是在代码上,有一种很少见的能力:不跑代码,只看代码,就能看出 bug,而且经常看得很准。
普通模型很多时候要靠执行、靠日志、靠测试、靠来回试。o1/o3 更像一个很强的工程师,顺着调用链和状态变化看一圈,就知道哪里可能有问题。这种能力很珍贵,它不是“会写代码”那么简单,而是有判断力。
但问题也很明显。
它贵得离谱,也慢得离谱,并且还不擅长做一些低级的活(比如按要求修改代码)。
当时 Anthropic 的模型给我的感觉正好相反。
它未必有 o1/o3 那种极限智商。很多需要深推理、纯靠脑子看代码找 bug 的任务,它没有 OpenAI 那么惊艳。但它懂的地方,干得很快,很稳,很能出活。
这在真实 coding 场景里非常重要。
开发者不是每天都在做数学奥赛,也不是每个任务都需要最高智商。多数时候,你真正需要的是一个模型能稳定读上下文,能改代码,能少犯低级错误,能跟着你连续干活。
所以即使 OpenAI 当时智商更高,很多真实工作流最后还是被 Anthropic 拿走了。最高智商很重要,但最高智商不等于最高生产力。
速度、稳定性、价格、编辑能力、上下文跟随能力,加在一起,才决定一个模型是不是真的能出活。
Fable 5 这次不一样
这次 Fable 5 给我的体感,和以前 Claude 的升级不太一样。
它有点像以前的 o1/o3,但又不只是像。
以前 o1/o3 更像一个高智商分析者。它能看出问题,能给出判断,但真正大规模改代码、连续编辑、在项目里往前推进,不一定顺手。
Fable 5 让我意外的地方,他不但保留了擅长编辑代码,分析代码的能力也获得了质的提升。
我和朋友聊的原话大概是:它有点像以前 o1/o3,但相比 o1/o3 只能分析、不擅长编辑代码,Fable 5 更像是既能看懂问题,又能动手改。它在代码上的智商可能已经和 o1/o3 差不多,某些场景甚至更好,而且又继承了 Claude 那种长编辑、稳执行的能力。
这里面的变化很关键。
一个模型如果只是会分析,不会出活,更像顾问。
一个模型如果既能分析,又能编辑,还能在项目里持续推进,它就开始变成真正的工程 agent。
过去 OpenAI 的优势是极限智商,Anthropic 的优势是出活能力。如果 Fable 5 开始把这两件事合到一起,OpenAI 的麻烦就来了。
因为这说明对手碰到的不是边缘能力,而是 OpenAI 的根。
Codex 的福和祸
更有意思的是,这个危险时刻,恰恰发生在 OpenAI Codex 取得巨大成就的时候。
Codex 是 OpenAI 非常成功的一步。它把模型从聊天窗口拉进真实工程环境,让模型开始读项目、改代码、跑命令、修测试、交付任务。这是从“回答问题”走向“完成工作”的关键一步。
按理说,这是 OpenAI 的福。
但中国有句古话,福兮祸之所伏,祸兮福之所倚。
Codex 越成功,OpenAI 越会暴露在一个更残酷的战场上。真实开发者会拿它和 Claude、Fable、DeepSeek,以及各种 agent 工具直接比较。
聊天模型时代,用户可能只比较回答是否聪明。
coding agent 时代,用户比较的是能不能真的改好代码,能不能连续推进,能不能少花钱,能不能少返工。
这时候如果 Fable 5 在代码上接近甚至局部超过 o1/o3 的高智商,又比旧 o1/o3 更会编辑代码,Codex 的成功反而显得更尴尬。
福,是 Codex 终于把 OpenAI 带进真实生产力场景。
祸,是它现在的模型不够聪明了,历史上最聪明的模型又快被 Fable 5 追上(现在的 5.5 智商是显著低于 Fable 的)。
前沿模型还是规模游戏
这里的规模,首先包括参数量。
OpenAI 和 Anthropic 都没有公开 GPT-5.5、Fable 5 这类旗舰模型的参数,所以不能把具体数字写成官方事实。但外部估计已经普遍把这类闭源旗舰模型放在 6 万亿参数以上的规模。你要知道 DeepSeek V4 Pro 才 1.6 万亿。
这些估计不一定精确,不同方法之间分歧也很大。但方向是清楚的:OpenAI 和 Anthropic 的旗舰模型,早就不是几百亿参数的游戏,而是在万亿级以上继续比规模、比后训练、比推理时计算。
而且规模也不只是参数量。训练数据、后训练、推理时计算、上下文、安全评估、服务保障,都会变成成本。
Scaling laws 早就说明,模型性能和模型大小、数据规模、训练 compute 之间存在经验性的幂律关系。Chinchilla 后来进一步指出,在 compute-optimal 训练里,模型大小和训练 token 数都要一起扩大。今天有 MoE、有 RL、有推理时计算,也有各种系统优化,但这些东西没有取消规模规律,只是改变了规模的形态。
所以 Fable 5 价格翻倍,放在商业价格上看,其实是在重复同一个结论:前沿智商继续提升,背后一定要有更大的计算、训练、后训练和服务成本。
OpenAI 危险的地方也在这里。
如果最高智商只能由 OpenAI 做出来,它再贵也有底气。可如果 Anthropic 也能做出类似 o1/o3 那种“光看代码就能看出问题”的模型,并且还能继承 Claude 的编辑和出活能力,OpenAI 的最高智商护城河就开始松动了。
DeepSeek 在另一边打价格
OpenAI 的压力不只来自高端智商。
低端和中端市场,也正在被性价比模型挤压。
我在 2026 年 6 月 11 日用 agent-browser 打开 OpenRouter 排行榜,同时抓取了它前端实际调用的 /api/frontend/rankings/models 接口。页面上的 This Week LLM Leaderboard 显示:
| 排名 | 模型 | 本周 token 用量 |
|---|---|---|
| 1 | DeepSeek V4 Flash | 4.34T tokens |
| 2 | Hy3 preview | 3.79T tokens |
| 3 | MiniMax M3 | 3.38T tokens |
| 4 | MiMo-V2.5 | 2.89T tokens |
| 5 | DeepSeek V4 Pro | 2.06T tokens |
| 9 | Claude Opus 4.8 | 1.32T tokens |
同一页面的模型作者市场份额是:
| 排名 | 模型作者 | token 用量 | 份额 |
|---|---|---|---|
| 1 | deepseek | 4.07T | 17.3% |
| 2 | anthropic | 3.83T | 16.3% |
| 7 | openai | 1.65T | 7.0% |
这里的口径要看清楚。OpenRouter 模型榜第一不是笼统的 DeepSeek V4,而是 DeepSeek V4 Flash。DeepSeek V4 Pro 排第五。但按模型作者口径看,DeepSeek 排第一。
这不是口号,是用量。
用户嘴上可以说自己喜欢最强模型,token 账单会让人很诚实。
OpenRouter 上 DeepSeek V4 Flash 的价格是 0.0983 美元 / 百万输入 token,0.1966 美元 / 百万输出 token。DeepSeek V4 Pro 是 0.435 / 0.87 美元。Fable 5 是 10 / 50 美元。
| 对比 | Fable 5 输入价格倍数 | Fable 5 输出价格倍数 |
|---|---|---|
| 相比 DeepSeek V4 Flash | 约 102 倍 | 约 254 倍 |
| 相比 DeepSeek V4 Pro | 约 23 倍 | 约 58 倍 |
| 相比 Claude Opus 4.8 | 2 倍 | 2 倍 |
这个差距太大了。
如果一个团队每天只消耗几万 token,差距可能还不明显。可如果每天跑几千万 token,价格差 10 倍就是预算问题,差 100 倍就是商业模式问题。
所以 DeepSeek V4 Flash 排第一,并不是证明它是世界上最聪明的模型。它说明的是另一件事:用户开始把智商除以价格。
这对 OpenAI 同样是压力。
高端智商被 Fable 5 逼近,中低端成本被 DeepSeek 逼低,中间的企业客户又开始算 ROI。OpenAI 要同时打这三场仗。
企业开始算 token 账
2026 年 AI 行业另一个明显变化,是企业从 tokenmaxxing 进入 token budgeting。
前一阶段,大家的心态是尽量多用 AI。谁用得多,谁显得先进。内部排行榜、AI 编程狂热、agent 长时间运行,都在推高 token 消耗。
但账单来了之后,事情就变了。
Business Insider 最近有几篇报道很有代表性。
Coinbase CEO Brian Armstrong 说,他们正在把适合的 prompt 路由到更便宜的模型上,以便在 token 用量指数级增长时,让成本大体保持平稳。他还判断,未来 12 到 18 个月,80% 的 workload 会跑在便宜 99% 的模型上,最新模型只用于所谓 “IQ maxing” 场景。
另一篇报道说,2026 年上半年,OpenAI、Anthropic、GitHub 都在把更多客户从近似包月无限用量,转向 token 计费。Walmart、Amazon、Uber、Salesforce、Coinbase 等企业都开始关注预算、限额、产出和 ROI。
还有消费 AI 公司遇到更直接的问题。Inworld CEO 说,很多消费 AI 应用的推理成本会吃掉 70% 到 90% 的运营预算,用户越爱用,公司的利润越往下掉。
AI 商业化正在进入新阶段。
一开始,大家问模型聪不聪明。
后来,大家问员工有没有用起来。
接下来,大家会问每一美元 token 成本有没有产生足够回报。
到这一步,市场就不再只看发布会和 benchmark 了。
对 OpenAI 来说,理性时刻并不轻松。它既要保住最高智商,又要控制成本,还要维持 Codex、ChatGPT、API 的巨大使用量。
上面,Anthropic 用 Fable 5 追智商。
下面,DeepSeek 用价格打用量。
中间,企业客户开始算 ROI。
这才是它真正难受的地方。
最后会变成模型路由的竞争
接下来 AI 产品真正的分水岭,不是哪家公司接入了最强模型,而是谁会做模型路由。
简单摘要、分类、改写、提取,用便宜模型。
普通 coding、普通文档、普通研究,用中档模型。
复杂代码库迁移、长时间自主 agent、高风险合同审阅、企业战略分析、科研推理,再调用 Fable 5、Opus、GPT-5.5 Pro 这类高端模型。
高端模型不应该一直开着,但系统里必须有它的位置。便宜模型也不应该被轻视,因为真正消耗 token 的,往往正是那些海量、重复、低风险的普通任务。
成熟的 AI 产品,未来会像调度云资源一样调度模型。小任务用小模型,大任务用大模型,低价值任务压成本,高价值任务保质量。
这也是 OpenRouter、Vercel AI Gateway、各种模型路由和 token observability 工具开始变重要的原因。
以前大家以为 AI 应用的核心是 prompt。
后来发现是 agent。
再往后看,核心可能是调度系统。
谁能把不同价格、不同能力、不同延迟、不同风险偏好的模型调度好,谁就能在 AI 应用层活得更久。
最后的感想
AI 一年,人间百年。谁又能想到从 2023 年到现在,也才三年而已。