如何通过一个简单的指标衡量你AI用的如何

AI coding agent navigating a large context map

最近我越来越觉得，一个人有没有用好 AI，有一个很朴素但很有意思的观察指标：

他一次需求会消耗多少上下文窗口。

在实际解释前，让我们先来看看这个真实的世界。

面对这个真实的世界

在现实世界中，真实项目从来不是几段代码的集合。它有目录结构，有历史包袱，有隐性约束，有测试方式，有部署习惯，有命名传统，有一些没人敢动的边界。AI 要想真正进入这个项目，不能只看你贴出来的那 20 行报错。它必须先建立项目地图，知道哪里是入口，哪里是核心逻辑，哪里是测试，哪里是配置，哪里是不能碰的历史债务。

所以对一个复杂项目来说，AI 在动手前就已经会消耗大量窗口。比如我的很多项目，还没开始改文件，消耗 100K 窗口就是常态。

理解项目的成本从来都是高昂的。以前这个理解成本是人来付的。比如，一个新同事接手老项目，前几天甚至前几周都在看代码、问人、跑环境、翻文档。我们不会说他“还没写代码就浪费时间”，因为我们知道复杂系统不能盲改。

现在 AI 也一样。只不过它把这个过程压缩到了一个会话窗口里，于是你第一次直观看见：原来理解一个项目，本来就这么贵。

其次，写代码可能很快，但是 AI 做验证也是一件成本很高的事情。它要写测试、跑测试、实际启动服务做验证。如果是 Web 网站，AI 还会打开网站，实际测试自己刚才写的功能。

窗口使用大小，本质上反映的是两件事：一是任务本身的复杂度，二是你给 AI 的需求是不是足够接近真实工作。

能做更复杂的工作，就应该给更大粒度的需求

既然窗口变大以后，AI 可以获取更多上下文，也可以执行更复杂的行动，那么使用 AI 的人也应该改变提需求的方式：不要只给它碎片问题，而要给它更大粒度的目标。

以前你只能让 AI 看一段代码、回答一个局部问题，是因为它接不住太多上下文，也不一定能稳定完成长链路任务。但现在不一样了。窗口变大之后，你可以把项目背景、业务目标、关键约束、验收方式、历史代码和测试方式一起交给它，让它围绕一个更完整的目标工作。

所以如果一个人还长期停留在很小的粒度，就不只是工具限制了。

很多人用 AI 的方式，仍然是很小的粒度。比如：

帮我写一个函数；
解释一下这个报错；
把这段代码改成 TypeScript；
给这个变量起个名字；
生成一个正则表达式。

这些当然有用。它们能节省时间，也能减少一些重复劳动。但这类用法，本质上还是把 AI 当成更聪明的搜索引擎、代码补全器、语法助手。

真正的变化不在这里。

真正的变化是，你能不能把一个完整目标委托出去。

不是“帮我写一段代码”，而是“帮我把这个功能做到可验收”。
不是“帮我看这个错误”，而是“帮我定位原因、给出修复、补上测试、跑完验证”。
不是“帮我整理这段话”，而是“基于这个观点写一篇可以发布的文章，并落到项目规范目录里”。
不是“帮我查一下这个库怎么用”，而是“结合当前项目选一个最少侵入的方案并实现”。

需求粒度一旦变大，窗口自然会变大。

因为 AI 不再只是在回答你，它开始在替你工作。工作就需要背景、约束、过程、校验和交付物。它要读项目，要比较方案，要保留中间判断，要在失败后重试，要把最终结果解释给你。

所以单次需求窗口用得大，很多时候不是坏事，而是一个信号：你开始把 AI 从“问答工具”升级成“任务代理”。

如果一直只用很小窗口，可能要反思的是自己

这句话可能有点刺耳，但我觉得值得说：

如果一个人长期使用 AI，每次窗口都很小，可能不一定说明他效率高，也可能说明他还没有学会把 AI 用到更大的任务上。

小窗口用法很舒服。

你问一句，它答一句。你控制感很强，风险很低，结果也很快。但这种方式有一个问题：人仍然是全部流程的瓶颈。

你负责拆任务，你负责找文件，你负责拼上下文，你负责判断下一步，你负责合并结果。AI 只是被你不断调用的小工具。它每次都在局部发挥作用，但没有真正进入完整工作流。

这就像你手里有一支可以连续工作的团队，但你只让每个人递一张纸、改一个错别字、查一个词。表面上每次都很快，实际上杠杆没有打开。

AI 时代最重要的能力，不是让 AI 回答得更短，而是让 AI 能在更大的目标里稳定运行。

这需要人改变自己的需求表达方式。

你不能只说“帮我改一下”。你要能说清楚：

背景是什么；
成功标准是什么；
哪些地方不能动；
可以运行哪些检查；
出错时应该继续尝试还是停下来；
最终应该交付什么；
需要把哪些过程记录下来，方便下次接着做。

这种表达不只是 prompt 技巧，它更像管理能力、产品能力和工程能力的混合体。

一个人能不能写出更大的 AI 任务，能不能让 AI 在更长上下文里不跑偏，能不能验收一个跨文件、跨步骤、跨工具的结果，才是真正的分水岭。

未来的 AI 使用能力，会从 prompt 转向委托

过去讲 AI 使用能力，大家很喜欢讲 prompt。

prompt 当然重要，但它只是入口。更底层的能力是委托。

委托意味着你不是在问答案，而是在交付任务。你需要定义目标，提供边界，允许对方探索，设置验收标准，并在关键节点做判断。

这和传统管理有点像，但又不完全一样。

你委托人类同事时，对方有组织经验、业务常识和责任感。你委托 AI 时，它有执行力、耐心和速度，但它没有真正的责任边界。所以你必须把边界写得更清楚，把验收设计得更具体，把上下文组织得更可读。

这就是为什么未来会出现一种新的能力：AI 任务设计能力。

这个能力包括：

把模糊想法变成可执行 goal；
把大需求拆成可以连续推进的阶段；
判断哪些上下文必须给，哪些可以让 AI 自己查；
允许 AI 消耗足够窗口做探查；
要求 AI 在探查后形成计划；
用测试、预览、日志、文档作为验收工具；
在窗口切换后仍能保持任务连续性。

一个人如果具备这种能力，他的单次需求会自然变大。

因为他不再满足于让 AI 帮他补一小块。他会让 AI 接住一整个工作单元。

这就是“用好 AI”和“经常问 AI”之间的区别。

窗口使用大小，可以成为一个自我观察指标

我不会把单次窗口使用大小做成绝对 KPI。

不同项目、不同任务、不同工具、不同模型，天然不可直接比较。一个简单需求用小窗口完成，完全合理。为了用满窗口而把简单事情复杂化，也是另一种低效。

窗口用量不是原因，而是结果。

但正因为它是结果，它可以成为一个很好的自我观察指标。

你可以问自己几个问题：

最近我给 AI 的任务，是不是还停留在局部问答？
我有没有把一个完整工作流交给 AI 跑完？
我有没有让 AI 读项目、做计划、实现、验证、总结？
我有没有写过能支撑长时间运行的 goal？
我的窗口消耗，是不是换来了可合并的代码、可发布的文章、可复用的文档、可验证的结果？
我是不是总在亲手拆碎任务，导致 AI 只能做很小的一段？

如果这些问题的答案长期是否定的，那确实要反思。

不是反思自己会不会写 prompt，而是反思自己有没有升级工作方式。

AI 已经不是只能回答问题的工具。它正在变成可以承担复杂任务的执行系统。你继续用小问题喂它，它当然也能回答；但你的产出上限，还是被你自己的任务粒度锁住。

结尾

单次需求窗口使用大小，不是一个简单的效率指标。

它更像一个影子指标：背后映射的是项目复杂度、任务粒度、上下文组织能力、委托能力和验收能力。

复杂项目里，AI 做探查时消耗大量窗口是正常的。真正要看的是，它有没有把这些上下文转化成有效行动。需求粒度越大，AI 越需要窗口；委托能力越强，单次需求越可能跨过“问答”，进入“工作”。

所以我越来越倾向于把它当成判断一个人是否用好 AI 的关键观察点之一。

如果一个人总能让 AI 在大窗口里稳定推进，说明他已经开始用 AI 处理真实复杂度。

如果一个人长期只使用很小窗口，而且只让 AI 做碎片化回答，那他可能还停留在上一代工具习惯里。

AI 时代的差距，不只是模型差距。

更大的差距，是人会不会提出足够大的需求，组织足够清楚的上下文，然后把一个真实任务放心地委托出去。