返回博客
2026年5月14日16 min read· WinClaw

为什么 Agentic Data Agent 必须把数据库和高准确率知识库绑定起来

Agentic Data Agent 已经能自主拆解问题、选择工具和生成报告,但真正可信的业务分析还需要把数据库与高准确率知识库绑定起来。

InfiniSynapseData AgentAgentic知识库数据分析

很多数据产品已经进入 Agentic 阶段。

它们开始具备 Agentic 能力:能自主拆解问题、选择工具、检查 schema、执行聚合,并把结果组织成报告。

这当然比传统数据工具前进了一大步,但仍然不够。

Agentic 能力解决的是“分析动作如何被组织”。真正的业务分析还需要回答另一个问题:

Agent 是否理解这些数据在业务里到底意味着什么?

真实业务数据从来不只是表和字段。每一个数据库背后都有一层沉默的业务知识:事件到底代表什么,埋点 key 是怎么组织的,哪个下载渠道更重要,一个状态是成功还是中间态,哪些字段能用于公开分析,哪些字段绝对不能碰。

没有这些知识,即使是 Agentic Agent,也可以查数、跑流程、写报告,却仍然不能真正理解业务。

这正是 InfiniSynapse 首创“数据库 + 知识库绑定”的原因:

把数据库和知识库绑定起来,并且让知识库成为 Agent 分析过程中的一个工具调用。

这不是把 RAG 放在旁边当资料夹,也不是简单把文档塞进上下文。InfiniSynapse 让 Agent 在分析数据时,可以随时询问绑定的知识库,获得必要的业务知识,再用 SQL 去验证可计算的事实。

换句话说:

数据库告诉 Agent 发生了什么,知识库告诉 Agent 这件事在业务上意味着什么。


问题:数据库有事实,但没有业务含义

这个案例使用的是 winclaw_cn 数据源,本质上是一套 PostgreSQL(PG)数据库。它记录了 WinClaw 中国站的官网埋点和桌面 Agent 工作量信号。WinClaw 是一个隐私优先的桌面 AI 助手,用户可以通过它调用本地工具、浏览器自动化、Office 自动化、开发者工具、计划任务和多模型能力。

其中一个关键表是 metrics_events,包含这些字段:

  • created_at
  • type
  • metric_key

只看数据库,Agent 可以安全地按 typemetric_key 做聚合。它能看到:

  • PAGEVIEW
  • DOWNLOAD
  • pageview:/
  • download:external:gitcode_windows_x64
  • download:tool:windows:x64:agent_excel
  • download:tool:windows:x64:agent_infini

但它能不能可靠解释这些 key 在产品里到底是什么意思?

不能完全做到。

第一轮 baseline 里,我们明确要求 InfiniSynapse:

只使用已选择的 winclaw_cn 数据库。不要使用任何知识库、历史记忆或外部网站。

Agent 的回答非常克制,也很负责任。

未绑定知识库的 baseline 回答:Agent 能测量活动,但无法仅凭元数据可靠推断精确产品含义

它能确认数据库可以安全测量:

  • 页面访问活动;
  • 下载相关活动;
  • 电脑任务生命周期状态。

但它也明确指出:

仅凭数据库元数据,无法可靠推断许多 key 片段和 slug 的精确产品含义 / 业务含义。

这正是没有知识库时的短板。

数据库能告诉 Agent:

  • PAGEVIEW 出现了多少次;
  • DOWNLOAD 出现了多少次;
  • computer_tasks.status 有哪些状态;
  • 哪些 metric_key 出现频率更高。

但数据库本身不能可靠告诉 Agent:

  • download:external:gitcode_windows_x64 应该如何命名;
  • agent_excelagent_wordagent_ppt 属于什么业务需求簇;
  • DOWNLOAD 是下载完成、下载开始,还是下载意图;
  • pageview:/ 是否就是首页访问;
  • 哪些工具包代表 Office 自动化、浏览器自动化、开发者工作流、消息自动化或 InfiniSynapse 集成。

这不是 Agent 不够聪明,而是业务上下文缺失。

一个严肃的 Data Agent 不应该看到字段名就胡乱解释。它应该知道什么时候需要询问业务知识。


InfiniSynapse 的突破:数据库和知识库绑定

InfiniSynapse 解决这个问题的方式,是把知识库直接绑定到数据库。

在这个案例里,我们创建了一个知识库:

winclaw_cn_telemetry_knowledge

这是一份面向 winclaw_cn 的公开安全数据字典,解释了:

  • WinClaw 是什么产品;
  • PAGEVIEW 代表什么;
  • DOWNLOAD 代表什么;
  • 为什么 DOWNLOAD 应该解释为“下载意图”,而不是“确认安装”;
  • metric_key 的命名规则;
  • 工具包 key 如何翻译成人能理解的业务标签;
  • computer_tasks.status 如何解释;
  • 公开案例应该使用什么漏斗口径。

然后,我们把这个知识库绑定到 winclaw_cn 数据源。

遥测知识库已经绑定到 winclaw_cn 数据源

这一步的意义非常大:

winclaw_cn 不再只是一个数据库连接,而是带着自己的业务语义层进入 Agent 的分析上下文。

这才是数据库真正对 Agent 友好的形态。


为什么这需要第四代知识库

数据库和知识库绑定,听起来简单,但要真正进入 Agent 的分析链路,前提是知识库实现必须足够准确。

这就是 InfiniSynapse 第四代知识库的价值。

早期知识库更多是被动的:

  • 存文档;
  • 做检索;
  • 找几个片段塞进上下文;
  • 期待模型自己理解。

这种方式不足以支撑严肃的数据分析,更不足以支撑 Agentic Agent 在分析过程中主动调用。

InfiniSynapse 的第四代知识库不是被动资料库,而是高准确率的 Agent 工具。Agent 可以在合适的分析阶段,用合适的问题去调用知识库,获得当前分析所需的业务定义和口径说明。

因为第四代知识库的准确率非常高,它才能支撑这个能力,而不会误导 Agent。它不是把大量模糊文本倒进上下文,而是返回精准、可用、可分离的业务知识。

这背后的差异是:

“这里有一些可能相关的文本。”

和:

“这是 Agent 在解释这个指标前必须知道的业务定义。”

后者才是可信业务分析的基础。


知识库成为 Agent 的工具调用

绑定知识库之后,我们用同一类问题再次询问 InfiniSynapse。这次 prompt 明确要求:

在运行 SQL 之前,先查询已绑定的知识库。

输入区里可以看到,除了选中 winclaw_cn 数据库,还出现了绑定的本地 RAG:

增强版问题:同时选中数据库和已绑定的本地 RAG 上下文

更关键的是执行链发生了变化。

增强版任务的第一阶段变成:

先查询绑定知识库,理解 metric_key 和任务状态的含义
RAG Research(知识库检索)

展开执行过程,可以看到 Agent 不是一次性把文档塞进上下文,而是在分析链路里连续发起了几次有目标的 RAG 查询。第一步,它先询问 metrics_events.metric_key 的公开安全业务含义,拿到 PAGEVIEWDOWNLOAD 和各类下载 key 的解释。

RAG 查询 metric_key 业务字典:Agent 先询问知识库,再解释 PAGEVIEW、DOWNLOAD 和下载 key

随后,它继续询问 computer_tasks.status 的生命周期含义,把 PENDINGCLAIMEDCOMPLETEDFAILED 解释成任务创建、认领、完成和失败等业务阶段。

RAG 查询 computer_tasks.status 生命周期:Agent 从知识库获取任务状态口径

最后,它再询问公开漏斗和需求簇应该如何组织,拿到“官网兴趣 → 下载意图 → Agent 任务创建 → Agent 任务完成”这套公开安全漏斗口径。

RAG 查询公开漏斗与需求簇:Agent 从知识库获得业务分析口径

然后才进入 schema 确认和 SQL 聚合。

这说明知识库绑定不是静态配置,不是页面上多显示一个标签,而是真的改变了 Agent 的执行计划:

Agent 先询问知识库理解业务含义,再查询数据库验证事实。

这正是 Data Agent 需要的能力。


结果:从字段查数,升级为业务解释

第二轮回答明显更强。

它非常清楚地区分了两层内容:

  • 可计算事实:来自数据库聚合 SQL;
  • 知识库解释:来自 winclaw_cn_telemetry_knowledge

增强版回答清楚区分可计算事实和知识库解释

数据库事实包括:

指标数值
metrics_events 最近 30 天总量2,848
PAGEVIEW1,805(63.38%)
DOWNLOAD1,043(36.62%)
最高频 key pageview:/1,805
下载量最高 key download:external:gitcode_windows_x64499
computer_tasks 最近 30 天创建任务数232
COMPLETED212(91.38%)
FAILED12(5.17%)
CLAIMED5(2.16%)
PENDING3(1.29%)

知识库解释把这些字段翻译成业务语言:

数据字段 / key业务含义
PAGEVIEW官网兴趣 / 产品认知
DOWNLOAD下载意图,不等于确认安装
pageview:/首页访问
download:external:gitcode_windows_x64Windows x64 外部分发渠道下载意图
download:external:gitcode_mac_arm64macOS Apple Silicon 外部分发渠道下载意图
download:tool:windows:x64:agent_wechat微信 Agent 工具下载意图
download:tool:windows:x64:agent-browser浏览器自动化 Agent 工具下载意图
download:tool:windows:x64:agent_excelExcel Agent 工具下载意图
download:tool:windows:x64:agent_wordWord Agent 工具下载意图
download:tool:windows:x64:agent_pptPowerPoint Agent 工具下载意图
download:tool:windows:x64:agent_infiniInfiniSynapse 集成工具下载意图

这就是质变。

绑定前,Agent 只能说 download:tool:windows:x64:agent_excel 出现了多少次。

绑定后,Agent 能解释它属于 Office 工作流自动化需求。

这一刻,Data Agent 就不再只是一个会自主检索数据和汇总结果的 Agent,而开始像一个懂业务口径的数据分析师。


它能看到需求簇,而不只是 key

有了数据库事实和知识库解释之后,Agent 可以进一步归纳出需求簇:

  • 核心平台包需求;
  • 消息自动化;
  • 浏览器自动化;
  • Office / 文档工作流自动化;
  • 计划任务 / 定时自动化;
  • InfiniSynapse 集成;
  • 聊天 / 协作相关工具;
  • 实用工具 / 本地工作流自动化。

最终报告把业务故事讲得很清楚:

增强版最终回答:可见需求簇和聚合漏斗结论

公开安全漏斗变成:

官网兴趣 -> 下载意图 -> Agent 任务创建 -> Agent 任务完成

而业务解读变成:

  • 当前兴趣主要由首页访问贡献;
  • 试用 / 安装包兴趣主要由 Windows x64 外部分发渠道下载意图贡献;
  • 任务层最近 30 天有 232 个已创建任务,其中 212 个已完成;
  • 已创建任务中的完成占比为 91.38%;
  • 可见需求簇包括核心平台包需求、消息自动化、浏览器自动化、Office / 文档工作流自动化、计划任务 / 定时自动化和 InfiniSynapse 集成。

这已经不是一段查询结果,而是一份可以对业务方解释的数据分析。


这件事为什么重要

Agentic Data Agent 已经能自主拆解问题、选择工具、查询数据并生成报告。

但这还不是终点。

真正的产品问题更深:

  • Agent 能不能知道哪些事实可以被安全计算?
  • Agent 能不能理解指标在业务里是什么意思?
  • Agent 能不能避开行级敏感数据?
  • Agent 能不能区分数据库事实和业务解释?
  • Agent 调用知识库时,知识库能不能给出足够准确、足够稳定的业务定义?
  • Agent 能不能在合适的时候主动询问知识库?

InfiniSynapse 的“数据库 + 知识库绑定”正是在解决这个问题。

它给每个数据库配上一个语义伴侣。Agent 可以问数据库拿事实,也可以问绑定知识库拿业务含义。

这让数据库从原始数据源,变成 Agent 可以真正使用的业务系统。


结论

InfiniSynapse 首创数据库和知识库绑定,让知识库作为 Agent 里的工具调用参与数据分析。

借助第四代高准确率知识库,Agent 在分析数据时可以随时询问必要的业务知识,而不是仅凭表名和字段名猜测,也不会被模糊召回误导。

这就是关键转变:

数据库让事实可计算,知识库让事实可理解。InfiniSynapse 把两者绑定在一起,让 Agent 产出可信的业务分析。

为什么 Agentic Data Agent 必须把数据库和高准确率知识库绑定起来 | Hailin Zhu