返回博客
2026年6月16日14 min read· WinClaw

如何通过一个简单的指标衡量你AI用的如何

单次需求消耗多少上下文窗口,正在暴露你是把 AI 当问答工具,还是已经开始把真实复杂任务委托给它。

AICodex上下文窗口Coding AgentAI 工作流

AI coding agent navigating a large context map

最近我越来越觉得,一个人有没有用好 AI,有一个很朴素但很有意思的观察指标:

他一次需求会消耗多少上下文窗口。

在实际解释前,让我们先来看看这个真实的世界。

面对这个真实的世界

在现实世界中,真实项目从来不是几段代码的集合。它有目录结构,有历史包袱,有隐性约束,有测试方式,有部署习惯,有命名传统,有一些没人敢动的边界。AI 要想真正进入这个项目,不能只看你贴出来的那 20 行报错。它必须先建立项目地图,知道哪里是入口,哪里是核心逻辑,哪里是测试,哪里是配置,哪里是不能碰的历史债务。

所以对一个复杂项目来说,AI 在动手前就已经会消耗大量窗口。比如我的很多项目,还没开始改文件,消耗 100K 窗口就是常态。

理解项目的成本从来都是高昂的。以前这个理解成本是人来付的。比如,一个新同事接手老项目,前几天甚至前几周都在看代码、问人、跑环境、翻文档。我们不会说他“还没写代码就浪费时间”,因为我们知道复杂系统不能盲改。

现在 AI 也一样。只不过它把这个过程压缩到了一个会话窗口里,于是你第一次直观看见:原来理解一个项目,本来就这么贵。

其次,写代码可能很快,但是 AI 做验证也是一件成本很高的事情。它要写测试、跑测试、实际启动服务做验证。如果是 Web 网站,AI 还会打开网站,实际测试自己刚才写的功能。

窗口使用大小,本质上反映的是两件事:一是任务本身的复杂度,二是你给 AI 的需求是不是足够接近真实工作。

能做更复杂的工作,就应该给更大粒度的需求

既然窗口变大以后,AI 可以获取更多上下文,也可以执行更复杂的行动,那么使用 AI 的人也应该改变提需求的方式:不要只给它碎片问题,而要给它更大粒度的目标。

以前你只能让 AI 看一段代码、回答一个局部问题,是因为它接不住太多上下文,也不一定能稳定完成长链路任务。但现在不一样了。窗口变大之后,你可以把项目背景、业务目标、关键约束、验收方式、历史代码和测试方式一起交给它,让它围绕一个更完整的目标工作。

所以如果一个人还长期停留在很小的粒度,就不只是工具限制了。

很多人用 AI 的方式,仍然是很小的粒度。比如:

  • 帮我写一个函数;
  • 解释一下这个报错;
  • 把这段代码改成 TypeScript;
  • 给这个变量起个名字;
  • 生成一个正则表达式。

这些当然有用。它们能节省时间,也能减少一些重复劳动。但这类用法,本质上还是把 AI 当成更聪明的搜索引擎、代码补全器、语法助手。

真正的变化不在这里。

真正的变化是,你能不能把一个完整目标委托出去。

不是“帮我写一段代码”,而是“帮我把这个功能做到可验收”。
不是“帮我看这个错误”,而是“帮我定位原因、给出修复、补上测试、跑完验证”。
不是“帮我整理这段话”,而是“基于这个观点写一篇可以发布的文章,并落到项目规范目录里”。
不是“帮我查一下这个库怎么用”,而是“结合当前项目选一个最少侵入的方案并实现”。

需求粒度一旦变大,窗口自然会变大。

因为 AI 不再只是在回答你,它开始在替你工作。工作就需要背景、约束、过程、校验和交付物。它要读项目,要比较方案,要保留中间判断,要在失败后重试,要把最终结果解释给你。

所以单次需求窗口用得大,很多时候不是坏事,而是一个信号:你开始把 AI 从“问答工具”升级成“任务代理”。

如果一直只用很小窗口,可能要反思的是自己

这句话可能有点刺耳,但我觉得值得说:

如果一个人长期使用 AI,每次窗口都很小,可能不一定说明他效率高,也可能说明他还没有学会把 AI 用到更大的任务上。

小窗口用法很舒服。

你问一句,它答一句。你控制感很强,风险很低,结果也很快。但这种方式有一个问题:人仍然是全部流程的瓶颈。

你负责拆任务,你负责找文件,你负责拼上下文,你负责判断下一步,你负责合并结果。AI 只是被你不断调用的小工具。它每次都在局部发挥作用,但没有真正进入完整工作流。

这就像你手里有一支可以连续工作的团队,但你只让每个人递一张纸、改一个错别字、查一个词。表面上每次都很快,实际上杠杆没有打开。

AI 时代最重要的能力,不是让 AI 回答得更短,而是让 AI 能在更大的目标里稳定运行。

这需要人改变自己的需求表达方式。

你不能只说“帮我改一下”。你要能说清楚:

  • 背景是什么;
  • 成功标准是什么;
  • 哪些地方不能动;
  • 可以运行哪些检查;
  • 出错时应该继续尝试还是停下来;
  • 最终应该交付什么;
  • 需要把哪些过程记录下来,方便下次接着做。

这种表达不只是 prompt 技巧,它更像管理能力、产品能力和工程能力的混合体。

一个人能不能写出更大的 AI 任务,能不能让 AI 在更长上下文里不跑偏,能不能验收一个跨文件、跨步骤、跨工具的结果,才是真正的分水岭。

未来的 AI 使用能力,会从 prompt 转向委托

过去讲 AI 使用能力,大家很喜欢讲 prompt。

prompt 当然重要,但它只是入口。更底层的能力是委托。

委托意味着你不是在问答案,而是在交付任务。你需要定义目标,提供边界,允许对方探索,设置验收标准,并在关键节点做判断。

这和传统管理有点像,但又不完全一样。

你委托人类同事时,对方有组织经验、业务常识和责任感。你委托 AI 时,它有执行力、耐心和速度,但它没有真正的责任边界。所以你必须把边界写得更清楚,把验收设计得更具体,把上下文组织得更可读。

这就是为什么未来会出现一种新的能力:AI 任务设计能力

这个能力包括:

  • 把模糊想法变成可执行 goal;
  • 把大需求拆成可以连续推进的阶段;
  • 判断哪些上下文必须给,哪些可以让 AI 自己查;
  • 允许 AI 消耗足够窗口做探查;
  • 要求 AI 在探查后形成计划;
  • 用测试、预览、日志、文档作为验收工具;
  • 在窗口切换后仍能保持任务连续性。

一个人如果具备这种能力,他的单次需求会自然变大。

因为他不再满足于让 AI 帮他补一小块。他会让 AI 接住一整个工作单元。

这就是“用好 AI”和“经常问 AI”之间的区别。

窗口使用大小,可以成为一个自我观察指标

我不会把单次窗口使用大小做成绝对 KPI。

不同项目、不同任务、不同工具、不同模型,天然不可直接比较。一个简单需求用小窗口完成,完全合理。为了用满窗口而把简单事情复杂化,也是另一种低效。

窗口用量不是原因,而是结果。

但正因为它是结果,它可以成为一个很好的自我观察指标。

你可以问自己几个问题:

最近我给 AI 的任务,是不是还停留在局部问答?
我有没有把一个完整工作流交给 AI 跑完?
我有没有让 AI 读项目、做计划、实现、验证、总结?
我有没有写过能支撑长时间运行的 goal?
我的窗口消耗,是不是换来了可合并的代码、可发布的文章、可复用的文档、可验证的结果?
我是不是总在亲手拆碎任务,导致 AI 只能做很小的一段?

如果这些问题的答案长期是否定的,那确实要反思。

不是反思自己会不会写 prompt,而是反思自己有没有升级工作方式。

AI 已经不是只能回答问题的工具。它正在变成可以承担复杂任务的执行系统。你继续用小问题喂它,它当然也能回答;但你的产出上限,还是被你自己的任务粒度锁住。

结尾

单次需求窗口使用大小,不是一个简单的效率指标。

它更像一个影子指标:背后映射的是项目复杂度、任务粒度、上下文组织能力、委托能力和验收能力。

复杂项目里,AI 做探查时消耗大量窗口是正常的。真正要看的是,它有没有把这些上下文转化成有效行动。需求粒度越大,AI 越需要窗口;委托能力越强,单次需求越可能跨过“问答”,进入“工作”。

所以我越来越倾向于把它当成判断一个人是否用好 AI 的关键观察点之一。

如果一个人总能让 AI 在大窗口里稳定推进,说明他已经开始用 AI 处理真实复杂度。

如果一个人长期只使用很小窗口,而且只让 AI 做碎片化回答,那他可能还停留在上一代工具习惯里。

AI 时代的差距,不只是模型差距。

更大的差距,是人会不会提出足够大的需求,组织足够清楚的上下文,然后把一个真实任务放心地委托出去。

如何通过一个简单的指标衡量你AI用的如何 | Hailin Zhu