2026 年 1 月,OpenAI 发布了《深入了解 OpenAI 的内部数据智能体》(下称「OpenAI 文」)。这篇文章很值得 Data Agent 从业者认真读,因为它不是在讲一个炫技 demo,而是在讲一个大组织如何把 Agent 放进真实数据生产流程里。
它让人直观感受到一件事:顶级 AI 公司内部,已经开始用数据智能体承接真实的分析工作流了。员工不只是让模型写一条 SQL,而是把找表、查数、纠错、解释、写报告这一整条链路交给 Agent 协作完成。
但更重要的问题是:这件事不应该只属于 OpenAI。OpenAI 文描述的是围绕 OpenAI 自家数据、权限和工作流构建的内部工具,不是对外销售的数据分析产品。InfiniSynapse 则是面向市场交付的商业产品,默认要进入不同客户的异构数据现场,让更多企业也能拥有这种 Data Agent 能力,并且在复杂企业现场里更直接地落地。
所以,本文不做「谁更强」这种抽象比较,而是问一个更有用的问题:
当两套系统都相信「严肃的数据分析必须由 Agent 完成一整条链路」时,它们分别把系统边界画在哪里?这种边界差异,又会怎样影响架构、交互、治理和商业交付?
本文从系统边界、数据拓扑、语言与执行、上下文工程、质量治理、交付形态六个层面,做一次更深入的并列阅读。
免责声明:OpenAI 文描述的是其内部系统;InfiniSynapse 是面向市场的商业产品。下文对比的是公开架构叙事与产品取向,不是对未公开实现细节、性能或客户效果做裁决。
1. 最大的共识:Data Agent 的问题不是 Text2SQL,而是分析工作流
OpenAI 文的开篇动机非常具体:表太多、表太像、JOIN/过滤/空值等语义坑太多,组织变大之后,「找表 + 写对 SQL + 解释结果」会吃掉大量分析师时间。它明确说智能体覆盖发现数据、运行 SQL、笔记与报告,并且会在中间结果异常时调查问题、调整方法、再次尝试。
这与 InfiniSynapse 对自身的定位高度同频:严肃分析要覆盖找数据、确认口径、逐步试探、出图、报告、可复用交付 —— 不是生成一条 SQL 就结束。
这也是双方最重要的共同判断:
真正的数据智能体,不是把自然语言翻成 SQL 的外壳,而是把高门槛、多步骤、需要上下文与纠错的数据分析,推进到可重复、可审计、可放大的协作流程。
因此,OpenAI 文真正值得对照的不是「它也会写 SQL」,而是它把 Data Agent 的生产级问题讲完整了:上下文、记忆、工具选择、评测、安全、组织入口,以及用户纠偏。
InfiniSynapse 也在回答同一个生产级问题,只是默认场景不同:它不是服务单一公司的内部数仓,而是服务多个企业、多个部署边界、多个数据源形态。
这里还需要特别区分 Data Agent 和 Code Agent。Code Agent 的核心任务通常是理解代码库、修改文件、运行测试,最终交付一段代码变更。这个任务当然也复杂,但它的主要操作对象仍然是代码文本与工程上下文。
Data Agent 面对的复杂度不是同一种:它要处理的是海量数据、海量 schema、隐藏在业务流程里的指标口径、散落在文档和人脑中的业务知识、以及严格的数据权限和审计边界。很多时候,问题不在于「会不会写一段 Python」或「能不能生成一条 SQL」,而在于:
- 是否知道该用哪张表,而不是名字相似但口径不同的另一张表;
- 是否理解 JOIN、过滤、空值、时间窗口、用户状态等细节对指标的影响;
- 是否能在大数据量下把计算留在数据库或分布式引擎里,而不是把数据拉进本地内存;
- 是否能把业务文档、历史分析、专家注释和运行时探查结合起来;
- 是否能让每一步查询、假设、结果和权限边界都可复核。
因此,不能把 Data Agent 简化成「让 Code Agent 写几段 pandas」或「让模型生成一条简单 SQL」。那只是把数据分析问题暂时包装成编程问题,却没有真正处理数据规模、schema 复杂度、业务语义和治理约束。严肃的 Data Agent 必须有自己的上下文工程、执行体系、质量评测和交付链路。
2. 第一层差异:内部平台 vs 商业产品,决定了系统边界
OpenAI 文的系统边界很清楚:它是 OpenAI 数据平台之上的内部数据生产力层。数据、权限、组织知识、Slack/Docs/Notion、代码仓库、内部 ChatGPT 与 Codex 生态,都处在同一个公司治理范围内。Agent 要解决的问题,是如何在这个庞大但统一的组织系统里,帮助员工更快、更可靠地分析数据。
InfiniSynapse 的系统边界则更外向:它要成为不同客户环境里的商业化 Data Agent Harness。这意味着它不能默认客户已经拥有统一数仓、统一元数据平台、统一权限系统、统一文档体系,也不能默认数据可以先被完整搬进一个中心化平台。
这个边界差异会一路传导到架构:
| 维度 | OpenAI 内部数据智能体 | InfiniSynapse |
|---|---|---|
| 基本身份 | 内部定制工具 | 商业产品 |
| 默认用户 | OpenAI 员工,横跨工程、数据科学、财务、市场进入、研究等团队 | 企业客户、分析师、业务人员、开发者与 Code Agent 用户 |
| 默认数据环境 | OpenAI 自家超大规模内部数仓与组织知识 | 异构数据源、跨源现场、客户私有数据边界 |
| 关键约束 | 在既有内部平台上更快、更可信地问数 | 在不同行业、部署、数据架构下可交付、可集成、可治理 |
| 产品问题 | 如何把 Agent 嵌进内部数据工作流 | 如何把 Data Agent 做成可销售、可部署、可扩展的整栈产品 |
所以更准确的比较不是「OpenAI 做了一个数据 Agent,InfiniSynapse 也做了一个数据 Agent」,而是:
- OpenAI 展示的是一家拥有强内部平台能力的 AI 公司,如何把 Agent 编进自己的数据组织。
- InfiniSynapse 追求的是把这类 Agent 能力产品化,让没有 OpenAI 式内部平台的企业也能获得完整分析链路。
3. 数据拓扑:统一数仓导航 vs 异构多源联邦
OpenAI 文给出一个非常强的背景设定:其数据平台服务 3,500 多名内部用户,覆盖 70,000 个数据集中超过 600 PB 的数据。在这样的环境里,最难的事情之一是:在一个巨大表宇宙里找对表、理解表、正确关联表。
因此,OpenAI 文强调的上下文层包括表使用情况、历史查询、人工注释、Codex 增强、机构知识、记忆、运行时探表。它的主战场是「统一但庞大的内部数据世界」:表很多,表之间很像,语义散落在元数据、代码和组织文档里。
InfiniSynapse 的默认数据拓扑更像真实客户现场:MySQL 一份,PostgreSQL 一份,Snowflake 一份,Excel/CSV 一份,OSS、API、Hive 里还有一份。对这类客户来说,难点不只是「在数仓里找哪张表」,而是:
- 数据不在一个地方;
- 语义不在一个系统里;
- 权限和网络边界不一定统一;
- 先做完整 ETL、建模、治理再问数,成本太高;
- 分析过程经常临时发现「还需要另一份数据」。
这解释了为什么 InfiniSynapse 会把多源直连、跨源分析、分布式执行、计算下推写进核心叙事。它不是只在 SQL 生成层做文章,而是试图让 Agent 能在探索过程中动态接入新数据源,并把这些来源统一到同一个分析 session 中。
这两种路线的核心差别可以这样概括:
| 维度 | OpenAI 文里的默认世界 | InfiniSynapse 的默认世界 |
|---|---|---|
| 数据组织形态 | 大规模统一内部数仓 | 多系统、多数据库、多文件、多接口 |
| 主要难点 | 表宇宙导航、语义辨析、内部口径复用 | 跨源接入、跨源 JOIN、少搬运、现场可用 |
| Agent 的关键动作 | 找对表、理解 lineage、借助代码与机构知识消歧 | 动态 connect/load、形成 session 表空间、跨源执行 |
| 产品含义 | 强化既有数据平台 | 降低企业从异构现场进入 Agentic 分析的门槛 |
一句话:OpenAI 的叙事更像在一个巨大的内部数据城市里导航;InfiniSynapse 的叙事更像在很多没有完全打通的数据岛之间搭桥并立即开工。
4. 语言与执行:SQL 生成能力之外,Agent 需要什么工作空间
OpenAI 文主要以 SQL + 数仓查询为中心。它强调 Agent 能发现数据、运行查询、生成笔记和报告;当查询结果异常时,Agent 会调整方法再试。它还强调 Codex 可以爬代码,理解表是如何被生产出来的。
InfiniSynapse 的关键差异,是把「Agent 用什么语言操作数据」单独提升为架构问题。它反复强调:Agentic 数据分析不是一次性生成最终答案,而是多步工具调用、状态累积、动态决策。因此,Agent 需要的不是一段孤立 SQL,而是一个可持续累积的分析工作空间。
InfiniSQL 在这里承担的是工具语言角色:
connect/load:把不同数据源注册成可分析对象;select ... as tableName:每次查询都沉淀为具名表;- session 表空间:前序探索结果可被后续步骤持续引用;
- 分布式执行与下推:避免默认把所有数据拉进本地内存;
train/register等能力:把机器学习也放进同一条表式管道。
这会带来一个更深的比较点:
| 问题 | OpenAI 内部数据智能体 | InfiniSynapse |
|---|---|---|
| Agent 操作数据的主要方式 | 围绕内部数仓生成和执行 SQL,并结合上下文纠错 | 用 InfiniSQL 作为 Agent 工具语言,形成多步、跨源、可复用的分析 session |
| 状态如何延续 | 对话上下文、记忆、工作流与底层平台查询结果 | 具名表、session、知识/记忆、历史分析结果共同延续 |
| 语言设计重点 | 让 Agent 选对表、写对查询、解释对结果 | 让 Agent 每一步低错误率、可复用、可下钻、可跨源 |
| 主要工程风险 | SQL 语义错误、表选择错误、组织口径错误 | 跨源执行复杂性、session 状态治理、语言生态教育 |
OpenAI 文证明了「强模型 + 深上下文 + Evals + 权限」可以把 SQL Agent 推进生产。InfiniSynapse 则进一步强调:当 Agent 要做 10 到 50 步探索时,工具语言本身是否适合 Agentic 循环,会决定错误率、可恢复性和分析深度。
这也是两者叙事的分叉点:OpenAI 更像是在现有数据平台上增强 Agent;InfiniSynapse 则把 Agent、语言、执行、知识、交付一起重做成一套 Harness。
5. 上下文工程:六层 grounding 与第四代知识/记忆的对应关系
OpenAI 文最扎实的一部分,是把上下文拆成六层:
- 表格使用情况:schema、lineage、历史查询;
- 人工注释:专家维护的表/列语义和注意事项;
- Codex 增强:从代码中推断表的生产逻辑和真实含义;
- 机构知识:Slack、Google Docs、Notion 中的发布、事件、指标定义;
- 记忆:保存用户纠正、过滤条件、口径差异;
- 运行时上下文:实时探表、查询数据仓库、访问元数据服务/Airflow/Spark。
这组分层的意义在于:它承认schema 不是语义,历史查询不是口径,模型能力不是治理。在企业数据场景中,很多关键知识藏在代码、文档、事故记录、会议讨论和人的习惯里。
InfiniSynapse 在对外叙事里同样把「第四代知识库与记忆」放进分析链条,而不是作为外挂:
- 绑定业务文档;
- 绑定库表元信息;
- 绑定历史分析;
- 绑定用户偏好;
- 支持外部信息与交叉验证;
- 通过 InfiniSQL 的具名表和 session 让中间结果成为可继续分析的工作记忆。
更深一层看,双方其实都在解决同一个问题:如何让 Agent 的每一步判断有可追溯证据,而不是只凭模型语言能力猜。
不同之处在于:
- OpenAI 文的 grounding 更强调内部机构知识的自动采集与权限化检索,因为它服务的是一个拥有统一组织知识资产的大公司。
- InfiniSynapse 的 grounding 更强调产品化知识层与跨源执行链条的咬合,因为它面对的是不同客户各自不完整、不统一、甚至尚未治理好的数据和知识现场。
因此,OpenAI 的「六层上下文」可以被看作内部平台型 Data Agent 的参考答案;InfiniSynapse 的「知识/记忆 + InfiniSQL session + 多源执行」则是在商业产品里回答:当客户没有 OpenAI 那样完整的内部数据基础设施时,如何仍然让 Agent 被业务上下文锚定。
6. 交互模型:像同事一样协作,但入口策略不同
OpenAI 文强调它的 Agent 可以出现在 Slack、Web、IDE、经由 MCP 连接的 Codex CLI,以及内部 ChatGPT MCP 连接器中。它还强调澄清式提问、reasonable default、用户中途纠偏、工作流复用。这些都指向一个目标:让 Agent 嵌入员工已经工作的地方。
InfiniSynapse 也在做类似的事,但入口策略不同。它的交付形态包括 SaaS、桌面版、企业私有化,以及面向 Code Agent 生态的 Command Tools。尤其 Command Tools 的口径需要讲准:它是下载单二进制放进 PATH 后给 Cursor / Claude Code / WinClaw / OpenClaw 等调用,不是 pip install 的 Python 包,也不是让用户自己起一个常驻 MCP 服务。
这背后是两种入口哲学:
| 维度 | OpenAI 内部数据智能体 | InfiniSynapse |
|---|---|---|
| 入口目标 | 进入 OpenAI 员工的内部工作流 | 覆盖企业使用、个人分析、私有部署、外部 Agent 调用 |
| 典型入口 | Slack、Web、IDE、Codex CLI、内部 ChatGPT | SaaS、桌面版、私有化、Command Tools |
| 生态叙事 | MCP + Codex + ChatGPT 内部连接 | Command Tools 作为第三代工具形态:--help 给人,--skill 给 AI |
| 用户角色 | 公司内部数据消费者与分析协作者 | 企业客户、业务人员、分析师、Code Agent 用户、系统集成方 |
相似点是,双方都不把 Data Agent 关在一个孤立网页里。不同点是,OpenAI 的入口围绕自家内部生态展开;InfiniSynapse 则要同时处理产品入口、部署入口和 Agent 生态入口。
7. 质量与信任:Evals 是生产级 Agent 的分水岭
OpenAI 文有一整节写 Evals API。它用人工标注的「黄金 SQL」对自然语言问题做回归:把用户问题送到查询生成端点,执行生成 SQL,再把结果与人工 SQL 的结果对比,并由 grader 解释得分。它特别强调:评测不能只做 SQL 字符串匹配,因为语法不同也可能结果正确。
这一节非常关键,因为它说明 OpenAI 并不把数据 Agent 的可靠性只押在模型变强上。它把可靠性看成一个持续工程:
- 有 curated question-answer pairs;
- 有人工 golden SQL;
- 比较生成 SQL 与结果集;
- 用 grader 解释正确性与可接受差异;
- 在能力扩展时持续捕捉回归。
InfiniSynapse 当前公开长文更强调整套 Harness:Agent、InfiniSQL、跨源执行、知识记忆、交付物、Command Tools。本文不替产品承诺与 OpenAI 文一一对应的离线评测平台细节,但可以给出一个判断:
当 Data Agent 从 demo 进入生产,评测不再是附加材料,而是核心架构。尤其是跨源分析、长链路探索、业务口径推理、报告生成同时发生时,质量体系必须覆盖「SQL 对不对」「结果对不对」「解释对不对」「口径是否可追溯」「交付物是否可复核」。
OpenAI 文在这里给行业提供了一个标杆:不管底层是内部数仓 SQL,还是 InfiniSQL 这样的 Agent 工具语言,生产级 Data Agent 都需要持续评测、防回归和可解释的质量信号。
对 InfiniSynapse 来说,未来更值得强化的公开叙事不是「Agent 很聪明」,而是:
- 每一步 InfiniSQL 如何被记录和复核;
- 中间表状态如何回放;
- 跨源 JOIN 的结果如何校验;
- 业务口径如何进入 golden case;
- 交付报告如何与底层查询结果互链;
- 客户私有化环境里如何做本地 eval 与灰度。
这会让 InfiniSynapse 的「整栈」从能力叙事进一步进入信任叙事。
8. 安全与权限:pass-through 是底线,但商业产品还要回答部署边界
OpenAI 文明确强调 pass-through:Agent 继承并执行 OpenAI 既有访问控制,用户只能查询自己本来就有权限访问的表;缺权限时提示或改用授权数据集。它还强调透明性:展示假设和执行步骤,并链接到底层结果,方便人工核验。
这也是企业 Data Agent 的底线:Agent 不是绕过 ACL 的特权通道。它只是更高层的对话与编排界面,必须被现有权限、审计、数据治理模型约束。
InfiniSynapse 面对商业交付时,安全问题还会多一层:不仅要回答「用户能不能看这张表」,还要回答「系统部署在哪里」「数据是否离开企业域」「桌面版如何处理本地数据」「私有化如何接入现有权限和审计」「Command Tool 被外部 Agent 调用时边界如何定义」。
因此,双方在安全叙事上的共同点是 pass-through,差异是部署复杂度:
| 安全问题 | OpenAI 内部数据智能体 | InfiniSynapse |
|---|---|---|
| 权限继承 | 继承 OpenAI 内部访问控制 | 需要接入客户现有权限/网络/审计体系 |
| 数据边界 | OpenAI 自身企业域内 | SaaS、桌面、本地、私有化等多边界 |
| 审计重点 | 用户问题、查询、结果、权限拒绝、内部工具调用 | 跨源连接、Agent 调用链、Command Tool 调用、交付物、客户侧审计 |
| 透明性 | 展示假设、步骤、底层结果链接 | 需要展示分析链路、InfiniSQL、数据源、报告依据 |
换句话说,OpenAI 文展示的是内部平台如何守住既有治理;InfiniSynapse 需要回答的是商业产品如何进入不同治理体系而不破坏它们。
9. 工作流复用:OpenAI 的 workflows 与 InfiniSynapse 的交付资产
OpenAI 文提到,用户经常会重复做例行分析,因此他们把 recurring analyses 打包成 reusable instruction sets,例如周报和表验证。这说明 Agent 不只是即兴问答工具,还会沉淀成组织流程。
InfiniSynapse 的公开叙事也强调分析不是一次性答案,而是会产出图表、报告、可复用结果、历史分析和知识记忆。两者的共同方向是:
Data Agent 的长期价值,不是每次回答一个问题,而是让组织把高质量分析方法沉淀下来,并在下一次更低成本地复用。
但二者的复用对象略有不同:
- OpenAI 内部工具的复用,更容易围绕内部指标、内部表、内部周期性工作流展开。
- InfiniSynapse 的复用,则需要同时跨客户、跨行业、跨部署形态考虑:有些复用是模板,有些是知识库,有些是数据源配置,有些是 InfiniSQL 链路,有些是报告交付格式。
这对商业产品提出更高要求:复用不能只停留在 prompt 模板,而要能沉淀成可审计的分析资产。
10. 最重要的产品判断:竞争正在从「模型能力」滑向「Harness 与治理」
把 OpenAI 文和 InfiniSynapse 放在一起读,最有价值的结论不是「OpenAI 也做了 Data Agent」,而是:
Data Agent 的竞争已经不再是简单的 NL2SQL 竞争。
原因很明显:
- 如果没有上下文,强模型也会选错表、误解指标、编造口径;
- 如果没有可持续工作空间,长链路探索会在状态管理上崩掉;
- 如果没有运行时验证,异常结果很难被及时发现;
- 如果没有 Evals,能力迭代会带来不可见回归;
- 如果没有 pass-through 权限和审计,企业无法放心接入;
- 如果没有交付形态,分析结果很难进入组织决策。
OpenAI 文用内部平台实践证明:Data Agent 必须被上下文、权限、评测和组织入口包起来。InfiniSynapse 的叙事则把同一件事推向商业化整栈:除了 Agent 与记忆,还要回答「用什么语言思考数据」「跨源如何执行」「如何进入不同部署边界」「如何嵌入 Code Agent 生态」。
这也是为什么 InfiniSynapse 不能被简单理解成「另一个 ChatBI」或「一个更会写 SQL 的机器人」。它真正想做的是 Data Agent 的完整 Harness:
- Agent 层:主动规划、小步探索、自我纠错;
- 语言层:InfiniSQL 让每一步分析可命名、可复用、可继续;
- 执行层:多源直连、分布式执行、计算下推;
- 知识层:业务文档、元数据、历史分析、用户偏好;
- 交付层:图表、报告、可复核过程、可复用资产;
- 生态层:SaaS、桌面、私有化、Command Tools。
OpenAI 文把内部数据 Agent 的成熟形态讲得很清楚;InfiniSynapse 要回答的问题则更产品化,也更艰难:如何把这种成熟形态带到不同企业现场。
11. 更深的对照表
| 维度 | OpenAI 内部数据智能体(据其公开文章) | InfiniSynapse(据公开产品叙事) | 深层含义 |
|---|---|---|---|
| 产品性质 | 内部定制工具,非对外商品 | 商业产品:SaaS / 桌面 / 私有化 / Command Tools | 一个优化内部生产力,一个解决外部可交付性 |
| 数据环境 | 超大规模内部数仓,70,000 数据集、600 PB 量级叙事 | 异构多源、跨源分析、少搬运 | 统一平台导航 vs 多源联邦执行 |
| 主要问题 | 找对表、理解表、写对 SQL、复用内部口径 | 连接数据源、跨源分析、沉淀链路、交付报告 | 语义消歧 vs 现场整合 |
| Agent 工作方式 | 发现数据、运行 SQL、笔记/报告、异常时自我调整 | 主动规划、小步探索、自我纠错、出图/报告/预测 | 都不是单步问答 |
| 工具语言 | SQL + 内部数据平台能力 | InfiniSQL + session + 分布式执行 | InfiniSynapse 把工具语言作为产品壁垒 |
| 上下文 | 六层上下文:元数据、历史查询、专家注释、Codex、机构知识、记忆、运行时 | InfiniRAG/知识记忆:业务文档、库表元信息、历史分析、用户偏好、外部验证 | grounding 是 Data Agent 的核心资产 |
| 代码语义 | Codex 爬代码补充表生产逻辑 | 公开材料更强调知识层与语言/执行一体化 | 「意义在代码里」是值得 InfiniSynapse 吸收的叙事 |
| 质量工程 | 明确强调 Evals、golden SQL、结果集比较、grader | 公开材料侧重整栈 Harness;评测细节可作为后续重点 | 生产级 Agent 必须有防回归体系 |
| 安全 | pass-through 权限,展示假设、步骤和底层结果 | 需要适配 SaaS/桌面/私有化/Command Tools 的权限与审计 | 商业产品的安全边界更复杂 |
| 入口 | Slack、Web、IDE、Codex CLI、内部 ChatGPT MCP 连接器 | SaaS、桌面、私有化、Command Tools(二进制、--help / --skill) | 都在争取嵌入用户原有工作流 |
| 复用 | workflows 打包例行分析 | 历史分析、知识记忆、可复用交付资产 | Data Agent 会从问答走向组织流程 |
| 战略信号 | 大厂内部数据平台的 Agent 化 | Data Agent 能力的产品化与市场化 | 同一趋势的两种落点 |
12. 写在最后
OpenAI 文最有价值的地方,是用工程语言证明了一件事:把 LLM 接进数据分析,关键不在「会不会写 SQL」,而在上下文是否配得上组织复杂度,评测是否跟得上能力迭代,权限是否能继承现有治理,交互是否允许渐进澄清与纠错。
InfiniSynapse 的价值叙事,则把同一件事放在商业化整栈里回答:除了 Agent 与记忆,还要回答用什么语言承载多步探索,异构数据如何直接分析,结果如何变成交付物,以及如何在 SaaS、桌面、私有化和 Code Agent 生态之间保持一致能力。
两者放在一起读,并不会得出「谁取代谁」的结论。更自然的判断是:
Data Agent 的真正战场,正在从 demo 级功能,走向 Harness、上下文、评测、权限、部署和交付。
这条判断对内部平台团队、商业产品团队和企业买方都成立。OpenAI 文说明这条路在内部平台里已经值得重投入;InfiniSynapse 要证明的,是这条路也可以被产品化、交付化,并进入更多真实企业现场。