返回博客
2026年5月14日33 min read· WinClaw

OpenAI 最新内部数据智能体曝光:InfiniSynapse 与它的共识和差异

OpenAI 展示了内部数据智能体的成熟形态;InfiniSynapse 则把同一类能力产品化,带到更复杂的企业数据现场。

InfiniSynapseOpenAIData AgentAI数据分析

2026 年 1 月,OpenAI 发布了《深入了解 OpenAI 的内部数据智能体》(下称「OpenAI 文」)。这篇文章很值得 Data Agent 从业者认真读,因为它不是在讲一个炫技 demo,而是在讲一个大组织如何把 Agent 放进真实数据生产流程里。

它让人直观感受到一件事:顶级 AI 公司内部,已经开始用数据智能体承接真实的分析工作流了。员工不只是让模型写一条 SQL,而是把找表、查数、纠错、解释、写报告这一整条链路交给 Agent 协作完成。

但更重要的问题是:这件事不应该只属于 OpenAI。OpenAI 文描述的是围绕 OpenAI 自家数据、权限和工作流构建的内部工具,不是对外销售的数据分析产品。InfiniSynapse 则是面向市场交付的商业产品,默认要进入不同客户的异构数据现场,让更多企业也能拥有这种 Data Agent 能力,并且在复杂企业现场里更直接地落地。

所以,本文不做「谁更强」这种抽象比较,而是问一个更有用的问题:

当两套系统都相信「严肃的数据分析必须由 Agent 完成一整条链路」时,它们分别把系统边界画在哪里?这种边界差异,又会怎样影响架构、交互、治理和商业交付?

本文从系统边界、数据拓扑、语言与执行、上下文工程、质量治理、交付形态六个层面,做一次更深入的并列阅读。

免责声明:OpenAI 文描述的是其内部系统;InfiniSynapse 是面向市场的商业产品。下文对比的是公开架构叙事与产品取向,不是对未公开实现细节、性能或客户效果做裁决。


1. 最大的共识:Data Agent 的问题不是 Text2SQL,而是分析工作流

OpenAI 文的开篇动机非常具体:表太多、表太像、JOIN/过滤/空值等语义坑太多,组织变大之后,「找表 + 写对 SQL + 解释结果」会吃掉大量分析师时间。它明确说智能体覆盖发现数据、运行 SQL、笔记与报告,并且会在中间结果异常时调查问题、调整方法、再次尝试

这与 InfiniSynapse 对自身的定位高度同频:严肃分析要覆盖找数据、确认口径、逐步试探、出图、报告、可复用交付 —— 不是生成一条 SQL 就结束

这也是双方最重要的共同判断:

真正的数据智能体,不是把自然语言翻成 SQL 的外壳,而是把高门槛、多步骤、需要上下文与纠错的数据分析,推进到可重复、可审计、可放大的协作流程。

因此,OpenAI 文真正值得对照的不是「它也会写 SQL」,而是它把 Data Agent 的生产级问题讲完整了:上下文、记忆、工具选择、评测、安全、组织入口,以及用户纠偏。

InfiniSynapse 也在回答同一个生产级问题,只是默认场景不同:它不是服务单一公司的内部数仓,而是服务多个企业、多个部署边界、多个数据源形态。

这里还需要特别区分 Data Agent 和 Code Agent。Code Agent 的核心任务通常是理解代码库、修改文件、运行测试,最终交付一段代码变更。这个任务当然也复杂,但它的主要操作对象仍然是代码文本与工程上下文

Data Agent 面对的复杂度不是同一种:它要处理的是海量数据、海量 schema、隐藏在业务流程里的指标口径、散落在文档和人脑中的业务知识、以及严格的数据权限和审计边界。很多时候,问题不在于「会不会写一段 Python」或「能不能生成一条 SQL」,而在于:

  • 是否知道该用哪张表,而不是名字相似但口径不同的另一张表;
  • 是否理解 JOIN、过滤、空值、时间窗口、用户状态等细节对指标的影响;
  • 是否能在大数据量下把计算留在数据库或分布式引擎里,而不是把数据拉进本地内存;
  • 是否能把业务文档、历史分析、专家注释和运行时探查结合起来;
  • 是否能让每一步查询、假设、结果和权限边界都可复核。

因此,不能把 Data Agent 简化成「让 Code Agent 写几段 pandas」或「让模型生成一条简单 SQL」。那只是把数据分析问题暂时包装成编程问题,却没有真正处理数据规模、schema 复杂度、业务语义和治理约束。严肃的 Data Agent 必须有自己的上下文工程、执行体系、质量评测和交付链路。


2. 第一层差异:内部平台 vs 商业产品,决定了系统边界

OpenAI 文的系统边界很清楚:它是 OpenAI 数据平台之上的内部数据生产力层。数据、权限、组织知识、Slack/Docs/Notion、代码仓库、内部 ChatGPT 与 Codex 生态,都处在同一个公司治理范围内。Agent 要解决的问题,是如何在这个庞大但统一的组织系统里,帮助员工更快、更可靠地分析数据。

InfiniSynapse 的系统边界则更外向:它要成为不同客户环境里的商业化 Data Agent Harness。这意味着它不能默认客户已经拥有统一数仓、统一元数据平台、统一权限系统、统一文档体系,也不能默认数据可以先被完整搬进一个中心化平台。

这个边界差异会一路传导到架构:

维度OpenAI 内部数据智能体InfiniSynapse
基本身份内部定制工具商业产品
默认用户OpenAI 员工,横跨工程、数据科学、财务、市场进入、研究等团队企业客户、分析师、业务人员、开发者与 Code Agent 用户
默认数据环境OpenAI 自家超大规模内部数仓与组织知识异构数据源、跨源现场、客户私有数据边界
关键约束在既有内部平台上更快、更可信地问数在不同行业、部署、数据架构下可交付、可集成、可治理
产品问题如何把 Agent 嵌进内部数据工作流如何把 Data Agent 做成可销售、可部署、可扩展的整栈产品

所以更准确的比较不是「OpenAI 做了一个数据 Agent,InfiniSynapse 也做了一个数据 Agent」,而是:

  • OpenAI 展示的是一家拥有强内部平台能力的 AI 公司,如何把 Agent 编进自己的数据组织
  • InfiniSynapse 追求的是把这类 Agent 能力产品化,让没有 OpenAI 式内部平台的企业也能获得完整分析链路

3. 数据拓扑:统一数仓导航 vs 异构多源联邦

OpenAI 文给出一个非常强的背景设定:其数据平台服务 3,500 多名内部用户,覆盖 70,000 个数据集中超过 600 PB 的数据。在这样的环境里,最难的事情之一是:在一个巨大表宇宙里找对表、理解表、正确关联表

因此,OpenAI 文强调的上下文层包括表使用情况、历史查询、人工注释、Codex 增强、机构知识、记忆、运行时探表。它的主战场是「统一但庞大的内部数据世界」:表很多,表之间很像,语义散落在元数据、代码和组织文档里。

InfiniSynapse 的默认数据拓扑更像真实客户现场:MySQL 一份,PostgreSQL 一份,Snowflake 一份,Excel/CSV 一份,OSS、API、Hive 里还有一份。对这类客户来说,难点不只是「在数仓里找哪张表」,而是:

  • 数据不在一个地方;
  • 语义不在一个系统里;
  • 权限和网络边界不一定统一;
  • 先做完整 ETL、建模、治理再问数,成本太高;
  • 分析过程经常临时发现「还需要另一份数据」。

这解释了为什么 InfiniSynapse 会把多源直连、跨源分析、分布式执行、计算下推写进核心叙事。它不是只在 SQL 生成层做文章,而是试图让 Agent 能在探索过程中动态接入新数据源,并把这些来源统一到同一个分析 session 中。

这两种路线的核心差别可以这样概括:

维度OpenAI 文里的默认世界InfiniSynapse 的默认世界
数据组织形态大规模统一内部数仓多系统、多数据库、多文件、多接口
主要难点表宇宙导航、语义辨析、内部口径复用跨源接入、跨源 JOIN、少搬运、现场可用
Agent 的关键动作找对表、理解 lineage、借助代码与机构知识消歧动态 connect/load、形成 session 表空间、跨源执行
产品含义强化既有数据平台降低企业从异构现场进入 Agentic 分析的门槛

一句话:OpenAI 的叙事更像在一个巨大的内部数据城市里导航;InfiniSynapse 的叙事更像在很多没有完全打通的数据岛之间搭桥并立即开工


4. 语言与执行:SQL 生成能力之外,Agent 需要什么工作空间

OpenAI 文主要以 SQL + 数仓查询为中心。它强调 Agent 能发现数据、运行查询、生成笔记和报告;当查询结果异常时,Agent 会调整方法再试。它还强调 Codex 可以爬代码,理解表是如何被生产出来的。

InfiniSynapse 的关键差异,是把「Agent 用什么语言操作数据」单独提升为架构问题。它反复强调:Agentic 数据分析不是一次性生成最终答案,而是多步工具调用、状态累积、动态决策。因此,Agent 需要的不是一段孤立 SQL,而是一个可持续累积的分析工作空间

InfiniSQL 在这里承担的是工具语言角色:

  • connect / load:把不同数据源注册成可分析对象;
  • select ... as tableName:每次查询都沉淀为具名表;
  • session 表空间:前序探索结果可被后续步骤持续引用;
  • 分布式执行与下推:避免默认把所有数据拉进本地内存;
  • train / register 等能力:把机器学习也放进同一条表式管道。

这会带来一个更深的比较点:

问题OpenAI 内部数据智能体InfiniSynapse
Agent 操作数据的主要方式围绕内部数仓生成和执行 SQL,并结合上下文纠错用 InfiniSQL 作为 Agent 工具语言,形成多步、跨源、可复用的分析 session
状态如何延续对话上下文、记忆、工作流与底层平台查询结果具名表、session、知识/记忆、历史分析结果共同延续
语言设计重点让 Agent 选对表、写对查询、解释对结果让 Agent 每一步低错误率、可复用、可下钻、可跨源
主要工程风险SQL 语义错误、表选择错误、组织口径错误跨源执行复杂性、session 状态治理、语言生态教育

OpenAI 文证明了「强模型 + 深上下文 + Evals + 权限」可以把 SQL Agent 推进生产。InfiniSynapse 则进一步强调:当 Agent 要做 10 到 50 步探索时,工具语言本身是否适合 Agentic 循环,会决定错误率、可恢复性和分析深度。

这也是两者叙事的分叉点:OpenAI 更像是在现有数据平台上增强 Agent;InfiniSynapse 则把 Agent、语言、执行、知识、交付一起重做成一套 Harness。


5. 上下文工程:六层 grounding 与第四代知识/记忆的对应关系

OpenAI 文最扎实的一部分,是把上下文拆成六层:

  1. 表格使用情况:schema、lineage、历史查询;
  2. 人工注释:专家维护的表/列语义和注意事项;
  3. Codex 增强:从代码中推断表的生产逻辑和真实含义;
  4. 机构知识:Slack、Google Docs、Notion 中的发布、事件、指标定义;
  5. 记忆:保存用户纠正、过滤条件、口径差异;
  6. 运行时上下文:实时探表、查询数据仓库、访问元数据服务/Airflow/Spark。

这组分层的意义在于:它承认schema 不是语义,历史查询不是口径,模型能力不是治理。在企业数据场景中,很多关键知识藏在代码、文档、事故记录、会议讨论和人的习惯里。

InfiniSynapse 在对外叙事里同样把「第四代知识库与记忆」放进分析链条,而不是作为外挂:

  • 绑定业务文档;
  • 绑定库表元信息;
  • 绑定历史分析;
  • 绑定用户偏好;
  • 支持外部信息与交叉验证;
  • 通过 InfiniSQL 的具名表和 session 让中间结果成为可继续分析的工作记忆。

更深一层看,双方其实都在解决同一个问题:如何让 Agent 的每一步判断有可追溯证据,而不是只凭模型语言能力猜。

不同之处在于:

  • OpenAI 文的 grounding 更强调内部机构知识的自动采集与权限化检索,因为它服务的是一个拥有统一组织知识资产的大公司。
  • InfiniSynapse 的 grounding 更强调产品化知识层与跨源执行链条的咬合,因为它面对的是不同客户各自不完整、不统一、甚至尚未治理好的数据和知识现场。

因此,OpenAI 的「六层上下文」可以被看作内部平台型 Data Agent 的参考答案;InfiniSynapse 的「知识/记忆 + InfiniSQL session + 多源执行」则是在商业产品里回答:当客户没有 OpenAI 那样完整的内部数据基础设施时,如何仍然让 Agent 被业务上下文锚定。


6. 交互模型:像同事一样协作,但入口策略不同

OpenAI 文强调它的 Agent 可以出现在 Slack、Web、IDE、经由 MCP 连接的 Codex CLI,以及内部 ChatGPT MCP 连接器中。它还强调澄清式提问、reasonable default、用户中途纠偏、工作流复用。这些都指向一个目标:让 Agent 嵌入员工已经工作的地方

InfiniSynapse 也在做类似的事,但入口策略不同。它的交付形态包括 SaaS、桌面版、企业私有化,以及面向 Code Agent 生态的 Command Tools。尤其 Command Tools 的口径需要讲准:它是下载单二进制放进 PATH 后给 Cursor / Claude Code / WinClaw / OpenClaw 等调用,不是 pip install 的 Python 包,也不是让用户自己起一个常驻 MCP 服务。

这背后是两种入口哲学:

维度OpenAI 内部数据智能体InfiniSynapse
入口目标进入 OpenAI 员工的内部工作流覆盖企业使用、个人分析、私有部署、外部 Agent 调用
典型入口Slack、Web、IDE、Codex CLI、内部 ChatGPTSaaS、桌面版、私有化、Command Tools
生态叙事MCP + Codex + ChatGPT 内部连接Command Tools 作为第三代工具形态:--help 给人,--skill 给 AI
用户角色公司内部数据消费者与分析协作者企业客户、业务人员、分析师、Code Agent 用户、系统集成方

相似点是,双方都不把 Data Agent 关在一个孤立网页里。不同点是,OpenAI 的入口围绕自家内部生态展开;InfiniSynapse 则要同时处理产品入口、部署入口和 Agent 生态入口。


7. 质量与信任:Evals 是生产级 Agent 的分水岭

OpenAI 文有一整节写 Evals API。它用人工标注的「黄金 SQL」对自然语言问题做回归:把用户问题送到查询生成端点,执行生成 SQL,再把结果与人工 SQL 的结果对比,并由 grader 解释得分。它特别强调:评测不能只做 SQL 字符串匹配,因为语法不同也可能结果正确。

这一节非常关键,因为它说明 OpenAI 并不把数据 Agent 的可靠性只押在模型变强上。它把可靠性看成一个持续工程:

  • 有 curated question-answer pairs;
  • 有人工 golden SQL;
  • 比较生成 SQL 与结果集;
  • 用 grader 解释正确性与可接受差异;
  • 在能力扩展时持续捕捉回归。

InfiniSynapse 当前公开长文更强调整套 Harness:Agent、InfiniSQL、跨源执行、知识记忆、交付物、Command Tools。本文不替产品承诺与 OpenAI 文一一对应的离线评测平台细节,但可以给出一个判断:

当 Data Agent 从 demo 进入生产,评测不再是附加材料,而是核心架构。尤其是跨源分析、长链路探索、业务口径推理、报告生成同时发生时,质量体系必须覆盖「SQL 对不对」「结果对不对」「解释对不对」「口径是否可追溯」「交付物是否可复核」。

OpenAI 文在这里给行业提供了一个标杆:不管底层是内部数仓 SQL,还是 InfiniSQL 这样的 Agent 工具语言,生产级 Data Agent 都需要持续评测、防回归和可解释的质量信号。

对 InfiniSynapse 来说,未来更值得强化的公开叙事不是「Agent 很聪明」,而是:

  • 每一步 InfiniSQL 如何被记录和复核;
  • 中间表状态如何回放;
  • 跨源 JOIN 的结果如何校验;
  • 业务口径如何进入 golden case;
  • 交付报告如何与底层查询结果互链;
  • 客户私有化环境里如何做本地 eval 与灰度。

这会让 InfiniSynapse 的「整栈」从能力叙事进一步进入信任叙事。


8. 安全与权限:pass-through 是底线,但商业产品还要回答部署边界

OpenAI 文明确强调 pass-through:Agent 继承并执行 OpenAI 既有访问控制,用户只能查询自己本来就有权限访问的表;缺权限时提示或改用授权数据集。它还强调透明性:展示假设和执行步骤,并链接到底层结果,方便人工核验。

这也是企业 Data Agent 的底线:Agent 不是绕过 ACL 的特权通道。它只是更高层的对话与编排界面,必须被现有权限、审计、数据治理模型约束。

InfiniSynapse 面对商业交付时,安全问题还会多一层:不仅要回答「用户能不能看这张表」,还要回答「系统部署在哪里」「数据是否离开企业域」「桌面版如何处理本地数据」「私有化如何接入现有权限和审计」「Command Tool 被外部 Agent 调用时边界如何定义」。

因此,双方在安全叙事上的共同点是 pass-through,差异是部署复杂度:

安全问题OpenAI 内部数据智能体InfiniSynapse
权限继承继承 OpenAI 内部访问控制需要接入客户现有权限/网络/审计体系
数据边界OpenAI 自身企业域内SaaS、桌面、本地、私有化等多边界
审计重点用户问题、查询、结果、权限拒绝、内部工具调用跨源连接、Agent 调用链、Command Tool 调用、交付物、客户侧审计
透明性展示假设、步骤、底层结果链接需要展示分析链路、InfiniSQL、数据源、报告依据

换句话说,OpenAI 文展示的是内部平台如何守住既有治理;InfiniSynapse 需要回答的是商业产品如何进入不同治理体系而不破坏它们。


9. 工作流复用:OpenAI 的 workflows 与 InfiniSynapse 的交付资产

OpenAI 文提到,用户经常会重复做例行分析,因此他们把 recurring analyses 打包成 reusable instruction sets,例如周报和表验证。这说明 Agent 不只是即兴问答工具,还会沉淀成组织流程。

InfiniSynapse 的公开叙事也强调分析不是一次性答案,而是会产出图表、报告、可复用结果、历史分析和知识记忆。两者的共同方向是:

Data Agent 的长期价值,不是每次回答一个问题,而是让组织把高质量分析方法沉淀下来,并在下一次更低成本地复用。

但二者的复用对象略有不同:

  • OpenAI 内部工具的复用,更容易围绕内部指标、内部表、内部周期性工作流展开。
  • InfiniSynapse 的复用,则需要同时跨客户、跨行业、跨部署形态考虑:有些复用是模板,有些是知识库,有些是数据源配置,有些是 InfiniSQL 链路,有些是报告交付格式。

这对商业产品提出更高要求:复用不能只停留在 prompt 模板,而要能沉淀成可审计的分析资产


10. 最重要的产品判断:竞争正在从「模型能力」滑向「Harness 与治理」

把 OpenAI 文和 InfiniSynapse 放在一起读,最有价值的结论不是「OpenAI 也做了 Data Agent」,而是:

Data Agent 的竞争已经不再是简单的 NL2SQL 竞争。

原因很明显:

  • 如果没有上下文,强模型也会选错表、误解指标、编造口径;
  • 如果没有可持续工作空间,长链路探索会在状态管理上崩掉;
  • 如果没有运行时验证,异常结果很难被及时发现;
  • 如果没有 Evals,能力迭代会带来不可见回归;
  • 如果没有 pass-through 权限和审计,企业无法放心接入;
  • 如果没有交付形态,分析结果很难进入组织决策。

OpenAI 文用内部平台实践证明:Data Agent 必须被上下文、权限、评测和组织入口包起来。InfiniSynapse 的叙事则把同一件事推向商业化整栈:除了 Agent 与记忆,还要回答「用什么语言思考数据」「跨源如何执行」「如何进入不同部署边界」「如何嵌入 Code Agent 生态」。

这也是为什么 InfiniSynapse 不能被简单理解成「另一个 ChatBI」或「一个更会写 SQL 的机器人」。它真正想做的是 Data Agent 的完整 Harness:

  1. Agent 层:主动规划、小步探索、自我纠错;
  2. 语言层:InfiniSQL 让每一步分析可命名、可复用、可继续;
  3. 执行层:多源直连、分布式执行、计算下推;
  4. 知识层:业务文档、元数据、历史分析、用户偏好;
  5. 交付层:图表、报告、可复核过程、可复用资产;
  6. 生态层:SaaS、桌面、私有化、Command Tools。

OpenAI 文把内部数据 Agent 的成熟形态讲得很清楚;InfiniSynapse 要回答的问题则更产品化,也更艰难:如何把这种成熟形态带到不同企业现场。


11. 更深的对照表

维度OpenAI 内部数据智能体(据其公开文章)InfiniSynapse(据公开产品叙事)深层含义
产品性质内部定制工具,非对外商品商业产品:SaaS / 桌面 / 私有化 / Command Tools一个优化内部生产力,一个解决外部可交付性
数据环境超大规模内部数仓,70,000 数据集、600 PB 量级叙事异构多源、跨源分析、少搬运统一平台导航 vs 多源联邦执行
主要问题找对表、理解表、写对 SQL、复用内部口径连接数据源、跨源分析、沉淀链路、交付报告语义消歧 vs 现场整合
Agent 工作方式发现数据、运行 SQL、笔记/报告、异常时自我调整主动规划、小步探索、自我纠错、出图/报告/预测都不是单步问答
工具语言SQL + 内部数据平台能力InfiniSQL + session + 分布式执行InfiniSynapse 把工具语言作为产品壁垒
上下文六层上下文:元数据、历史查询、专家注释、Codex、机构知识、记忆、运行时InfiniRAG/知识记忆:业务文档、库表元信息、历史分析、用户偏好、外部验证grounding 是 Data Agent 的核心资产
代码语义Codex 爬代码补充表生产逻辑公开材料更强调知识层与语言/执行一体化「意义在代码里」是值得 InfiniSynapse 吸收的叙事
质量工程明确强调 Evals、golden SQL、结果集比较、grader公开材料侧重整栈 Harness;评测细节可作为后续重点生产级 Agent 必须有防回归体系
安全pass-through 权限,展示假设、步骤和底层结果需要适配 SaaS/桌面/私有化/Command Tools 的权限与审计商业产品的安全边界更复杂
入口Slack、Web、IDE、Codex CLI、内部 ChatGPT MCP 连接器SaaS、桌面、私有化、Command Tools(二进制、--help / --skill都在争取嵌入用户原有工作流
复用workflows 打包例行分析历史分析、知识记忆、可复用交付资产Data Agent 会从问答走向组织流程
战略信号大厂内部数据平台的 Agent 化Data Agent 能力的产品化与市场化同一趋势的两种落点

12. 写在最后

OpenAI 文最有价值的地方,是用工程语言证明了一件事:把 LLM 接进数据分析,关键不在「会不会写 SQL」,而在上下文是否配得上组织复杂度,评测是否跟得上能力迭代,权限是否能继承现有治理,交互是否允许渐进澄清与纠错。

InfiniSynapse 的价值叙事,则把同一件事放在商业化整栈里回答:除了 Agent 与记忆,还要回答用什么语言承载多步探索,异构数据如何直接分析,结果如何变成交付物,以及如何在 SaaS、桌面、私有化和 Code Agent 生态之间保持一致能力。

两者放在一起读,并不会得出「谁取代谁」的结论。更自然的判断是:

Data Agent 的真正战场,正在从 demo 级功能,走向 Harness、上下文、评测、权限、部署和交付。

这条判断对内部平台团队、商业产品团队和企业买方都成立。OpenAI 文说明这条路在内部平台里已经值得重投入;InfiniSynapse 要证明的,是这条路也可以被产品化、交付化,并进入更多真实企业现场。

OpenAI 最新内部数据智能体曝光:InfiniSynapse 与它的共识和差异 | Hailin Zhu