你给 InfiniSynapse 一份资料,我们把它变成一张可计算的表
先说结论:这不是"文档问答",而是把资料变成表
很多人第一次看到文档理解或图像识别工具,会觉得这只是"对着资料聊天"——上传截图、PDF、Word、Excel,问几个问题,得到一段文字回答。
但 InfiniSynapse 做的事情更进一步。
当你上传一份资料(一张账单截图、一份财报 PDF、一个 Word 报告、一张销售报表、一个 Excel 文件、一份运营数据看板),我们不只是用模型读文档、看图片、回答问题。
我们会做一件更根本的事情:从非结构化或半结构化资料中抽取结构化表格,并把它映射成真正可计算的数据表。
这张表不一定需要落地到你的数据库,也不一定需要被持久化保存。它可以被映射在 InfiniSynapse 的引擎空间里,成为当前分析任务中的可计算对象。
然后,所有计算交给 SQL。
这就是为什么 InfiniSynapse 能给出高准确度、可复现、可审计的分析结果。
这次任务页:先从一张花费截图开始
我重新访问了这个真实任务页:用户上传了一张 API 调用花费截图,然后问了一句:how much did i spend ?
图 1:InfiniSynapse 对上传截图中的 8 条花费记录完成识别,并给出总花费。
系统首先从图片中识别出每条调用的时间、输入 token、输出 token 和成本,并计算得到:
- 总输入:396,286 tokens
- 总输出:8,562 tokens
- 总花费:$0.6067
- 最高单次调用:09:26,$0.1080
更关键的是,任务完成后页面给出了一个推荐动作:Map to table and calculate with SQL。这一步正是本文要讲的核心:从资料中的数字,走向表,再走向 SQL。
图 2:同一任务继续执行"映射成表并用 SQL 计算"的动作。
从资料到表:先把非结构化内容装进可计算上下文
InfiniSynapse 在追问中先把截图里的花费记录整理为 JSON,再把它装入会话变量。这一步看起来朴素,却是后续可靠计算的基础:每一行记录都必须有稳定字段,而不是只存在于模型的自然语言描述里。
图 3:系统将花费明细整理为结构化 JSON,为后续建表做准备。
接着,系统把 JSON 装载成表视图。此时原始资料里的数据已经不再只是像素、文本或文件内容,而是具备了表格语义:时间是一列,输入 token 是一列,输出 token 是一列,成本也是一列。
图 4:截图中的花费记录被映射成可查询的表格数据。
有了这张表,计算就不再依赖大模型"心算"。它可以被聚合、排序、求平均、找最大值,也可以继续和其它数据表做联结,完成更复杂的关联分析。
更重要的是,这里的"表"首先是 InfiniSynapse 引擎空间里的计算映射。它可以服务于当前任务的分析、联结和推理,不要求用户先建库、导表、维护数据仓库。
再到 SQL:让计算变成可复查的步骤
在这个任务里,系统随后执行了汇总计算:总花费、调用次数、平均单次成本、最大/最小成本等指标都可以从表里直接算出。
图 5:系统基于结构化表执行汇总统计,结果可以被复查。
最后,系统还可以按时间展示全部明细,让用户看到每一行数据如何参与最终结果。
图 6:明细行保留下来,最终答案不是黑箱生成,而是可以回到每条记录核验。
一份资料进入系统后,会发生什么
当一份资料上传到 InfiniSynapse,它会经历一个完整的结构化转换流程:
图 7:资料不是直接进入最终回答,而是先被解析、结构化、表格化,再交给 SQL 计算。
每一步的核心价值
-
大模型表格理解与抽取:通过大模型理解资料中的内容,识别并抽取里面的表格结构——行列关系、合并单元格、表头层级、跨页延续、嵌入图片和附件内容。
-
表格候选确认:一份资料里可能有多个独立表格,大模型会结合上下文判断哪些内容是真正的数据表,哪些只是排版、说明文字或装饰性信息。
-
Schema 归一化:这是最关键的一步——把大模型抽取出的表格,转化成数据库意义上的表:
- 列名规范化
- 数据类型推断(数字、日期、货币、百分比)
- 单位统一处理
- 缺失值处理
-
引擎空间表映射:至此,资料中的数据已经成为第一公民——可以被查询、联结、聚合、开窗;它可以存在于 InfiniSynapse 的引擎空间里,而不必先落地或持久化。
-
SQL 计算引擎:所有分析需求最终都翻译成标准 SQL,由计算引擎执行,而不是让大模型直接在上下文里猜结果。这是准确度的根本保障。
为什么表格化 + SQL 会更准
我们用一张表来说明两种架构的差异:
| 维度 | 资料直问模式 | 资料 → 表 → SQL 模式 |
|---|---|---|
| 数据载体 | 文档内容、视觉特征 + 文本上下文 | 引擎空间中的结构化数据表 |
| 计算方式 | 模型生成推理 | 标准 SQL 执行引擎 |
| 结果确定性 | 同一份资料多次提问,结果可能不同 | 同样输入 = 同样输出,完全可复现 |
| 可审计性 | 难以追溯答案来源 | SQL 语句可审查、可断点验证 |
| 复杂计算能力 | 依赖模型上下文推理能力 | 支持完整 SQL 语义,可做任意复杂度的统计 |
| 错误类型 | 模型推理错误难以定位 | 通常是数据抽取问题,可针对性修正 |
这不是模型能力的比拼,而是架构选择的差异。
把非结构化或半结构化资料,先转换成熟悉、可靠、经过几十年工业验证的关系型数据表,再映射到 InfiniSynapse 引擎空间中进行 SQL 计算——这是 InfiniSynapse 准确性的基石。
复杂统计计算:SQL 能做的不只是求和
一旦数据变成了表,你能做的就远不止"总和是多少"这种简单问题。
举个例子,假设我们从一份销售资料中提取出了这样的数据表(示意):
sales_data 表结构示意:
| 区域 | 产品线 | 月份 | 销售额 | 目标额 |
|---|---|---|---|---|
| 华东 | A系列 | 2024-01 | 1,250,000 | 1,200,000 |
| 华北 | A系列 | 2024-01 | 980,000 | 1,100,000 |
| ... | ... | ... | ... | ... |
以下是一些典型的 SQL 计算场景:
1. 分组聚合 + 贡献率
-- 按区域统计销售额,并计算各区域对总销售额的贡献率
SELECT
区域,
SUM(销售额) AS 区域总销售额,
ROUND(SUM(销售额) * 100.0 / (SELECT SUM(销售额) FROM sales_data), 2) AS 贡献率_百分比
FROM sales_data
GROUP BY 区域
ORDER BY 区域总销售额 DESC;
2. 窗口函数:月度环比
-- 计算各产品线的月度环比增长率
SELECT
产品线,
月份,
销售额,
LAG(销售额) OVER (PARTITION BY 产品线 ORDER BY 月份) AS 上月销售额,
ROUND((销售额 - LAG(销售额) OVER (PARTITION BY 产品线 ORDER BY 月份)) * 100.0
/ NULLIF(LAG(销售额) OVER (PARTITION BY 产品线 ORDER BY 月份), 0), 2) AS 环比增长率
FROM sales_data
ORDER BY 产品线, 月份;
3. Top N + 方差分析
-- 找出表现最好的 5 个区域-产品线组合,并计算偏差程度
WITH monthly_performance AS (
SELECT
区域,
产品线,
AVG(销售额 / 目标额 * 100) AS 平均达成率,
STDDEV(销售额 / 目标额) AS 达成率波动率
FROM sales_data
GROUP BY 区域, 产品线
)
SELECT *
FROM monthly_performance
ORDER BY 平均达成率 DESC
LIMIT 5;
这些只是 SQL 能力的冰山一角。当数据被正确表格化后,你能回答的问题复杂度只受限于你的分析思维,而不是模型能力。
多份资料怎么做多维对比
很多分析场景不是看一份资料,而是对比多份资料——比如"这个季度 vs 上个季度"、"预算 vs 实际"、"A 版本 vs B 版本"、"合同约定 vs 实际执行"。
InfiniSynapse 支持同时上传多份截图、PDF、Word、Excel 等资料,分别结构化后做联结对比。
对比前的关键步骤
- 维度对齐:确认两张表的维度列是否可对应(比如都是"区域"、"产品线")
- 指标对齐:确认指标名称和口径是否一致
- 单位归一化:自动处理货币单位、时间单位、千/万/亿等数量级
- 缺失维度补全:一份资料有而另一份资料没有的维度如何处理
对比 SQL 示例
假设我们有两份资料分别提取出 q1_sales 和 q2_sales 两个表:
-- 两季度各区域销售额对比
SELECT
COALESCE(q1.区域, q2.区域) AS 区域,
q1.总销售额 AS Q1销售额,
q2.总销售额 AS Q2销售额,
q2.总销售额 - q1.总销售额 AS 差额,
ROUND((q2.总销售额 - q1.总销售额) * 100.0 / NULLIF(q1.总销售额, 0), 2) AS 增长率_百分比
FROM (
SELECT 区域, SUM(销售额) AS 总销售额 FROM q1_sales GROUP BY 区域
) q1
FULL OUTER JOIN (
SELECT 区域, SUM(销售额) AS 总销售额 FROM q2_sales GROUP BY 区域
) q2 ON q1.区域 = q2.区域
ORDER BY 增长率_百分比 DESC NULLS LAST;
这种精确的维度对齐计算,在纯文档对话或纯视觉对话模式下是难以可靠完成的。
多份财报:从很多小表格到跨报告同比环比
这是企业用户最关心的场景之一。
一份标准的财报 PDF 里,可能有几十甚至上百个小表格——利润表、资产负债表、现金流量表、各业务分部数据、地区数据、附注表格等等。
如果你有连续多个季度、连续多年的财报,InfiniSynapse 可以把所有这些分散的小表格,统一映射成结构化数据表,然后在引擎空间里做跨报告的时间序列分析。
图 8:多份财报里的小表格被统一映射成结构化计算对象,再用 SQL 做同比、环比和趋势分析。
跨财报同比分析 SQL 示例
假设我们从多份财报中提取并整合出 financials 表:
-- 计算各财务指标的同比增长率
SELECT
报告期,
营业收入,
LAG(营业收入, 4) OVER (ORDER BY 报告期) AS 上年同期营收,
ROUND((营业收入 - LAG(营业收入, 4) OVER (ORDER BY 报告期)) * 100.0
/ NULLIF(LAG(营业收入, 4) OVER (ORDER BY 报告期), 0), 2) AS 营收同比增速,
净利润,
LAG(净利润, 4) OVER (ORDER BY 报告期) AS 上年同期净利,
ROUND((净利润 - LAG(净利润, 4) OVER (ORDER BY 报告期)) * 100.0
/ NULLIF(LAG(净利润, 4) OVER (ORDER BY 报告期), 0), 2) AS 净利同比增速,
ROUND(净利润 * 100.0 / NULLIF(营业收入, 0), 2) AS 净利率
FROM financials
ORDER BY 报告期;
这就是为什么金融分析师、投资者、财务团队会喜欢 InfiniSynapse——你不再需要手动从几百页 PDF 里复制粘贴数据。
上传所有财报,系统自动把所有小表格变成一组可查询的引擎空间表,然后你可以用 SQL 回答任何时间序列问题。
这件事对企业数据分析意味着什么
理解了"资料 → 表 → SQL"这个架构,你就能明白 InfiniSynapse 对企业数据分析的真正价值:
1. 打通非结构化到结构化的最后一公里
企业里 80% 的数据分散在 PDF 报告、Word 文档、截图、扫描件、Excel 内嵌表格、邮件附件和业务系统导出的杂乱文件里。这些数据"看得见但用不了"——你能打开看,但没法直接计算。
InfiniSynapse 就是这最后一公里的转换器。
2. 分析结果的可审计性
SQL 是白盒的。每一个计算结果都可以追溯到原始数据和计算逻辑,这对合规要求高的行业至关重要。
3. 与现有数据栈的无缝衔接
SQL 是数据行业的通用语言。InfiniSynapse 映射出的结构化数据,既可以在引擎空间里完成即时分析,也可以按需对接你的 BI 工具、数据仓库、分析平台。不需要更换任何现有基础设施。
4. 分析思维的释放
当数据提取和表格化不再是瓶颈,分析师可以把精力真正放在"问对问题"和"解读洞察"上,而不是花 80% 的时间做数据清洗。
如何体验
InfiniSynapse 提供三种部署形态,满足不同规模和需求的用户:
| 形态 | 适用场景 |
|---|---|
| SaaS 版 | 快速上手,即开即用,适合个人和中小团队 |
| 桌面版 | 本地运行,数据不出境,适合敏感数据场景 |
| 企业私有化 | 完整功能,定制化集成,适合大型企业 |
同时,我们提供 Command Tools,让 Agent 生态系统可以直接调用 InfiniSynapse 的能力。你可以从这里下载二进制并放入 PATH:
👉 https://www.infinisynapse.cn/tools
无论你是手动使用,还是通过 Agent 自动化工作流集成,InfiniSynapse 的核心承诺始终不变:
给我们一份资料,还你一张可计算的表。
写在最后
今天的 AI 应用很多都在追求"看起来智能"的体验。
InfiniSynapse 选择走一条更朴素但更根本的路:把非结构化和半结构化资料,转化为工业界已经用了几十年的、经过充分验证的结构化数据基础设施。
这条路可能不那么"炫",但它能给你真正可靠的分析结果。
因为我们相信,企业数据分析最需要的不是惊喜,而是信任。
不是"这个回答好像对",而是"这个回答我可以拿去做决策"。
这就是 InfiniSynapse。
欢迎体验。