传统机器学习在大模型时代的崛起和普及

机器学习是 InfiniSynapse 最适合展示价值的场景之一。

原因很简单：传统机器学习有清晰的反馈信号。AUC、Gini、KS、Decile、IV、PSI、训练/测试差距、评分卡规则，这些指标都可以被反复计算、比较和复核。只要目标明确，Data Agent 就能进入一个非常适合自动化的循环：构造特征、训练模型、读取指标、判断弱点、再发起下一轮实验。

这正是 InfiniSynapse ML 的核心：

让 LLM 7*24 小时持续实验，让 InfiniSQL 执行数据科学，让 Agent Teams 系统搜索特征、算法和参数空间。

这次演示使用 UCI Credit Card Default 数据集。用户给出的任务很短：

使用金融信用评分卡算法，对 uci_credit_card_default.csv 做训练和预测，并尽量提高 AUC，同时和其他模型做对比。

InfiniSynapse 没有停在一次训练结果上。它先理解数据，构造信用风险特征，对比 RandomForest、GBT、Logistic Regression 和 ScoreCard，然后启动 Agent Teams，对可解释 ScoreCard 持续迭代，最终在录制演示中把 ScoreCard AUC 从 0.7482 推到 0.7756。

InfiniSynapse 从上传的 UCI 信用卡违约数据开始，先做数据注册和探索。

一、这不是“调用一个模型”，而是一条完整 ML 工作流

InfiniSynapse 的机器学习能力，不是简单把一个模型 API 包进聊天框。它能完成的是一条可检查、可复现、可交付的机器学习工作流：

取数：把文件、数据库、数仓、API、业务系统里的数据加载到同一分析会话。
特征工程：用 InfiniSQL 把原始字段变成业务信号。
多算法对比：用同一条数据管道训练和评估多个模型。
Agent Teams 并行实验：让多个子 Agent 同时尝试不同特征集、分箱策略和模型参数。
持续优化：围绕一个目标指标不断逼近更优结果。
治理交付：输出规则、WOE、IV、Decile、PSI、分数贡献和模型审计材料。

这套能力的关键在于：传统机器学习的核心仍然是特征工程。大多数时候，更好的信号比更花哨的模型更重要。InfiniSQL 的优势，正是把特征工程留在数据工作流里，让它可执行、可复用、可审计。

二、为什么传统机器学习特别适合 InfiniSynapse

Data Agent 最怕目标模糊，最喜欢指标清楚。

信用评分建模恰好有一套成熟指标：

问题	指标或产物
模型能否区分好坏客户？	AUC、Gini、KS
分数排序是否有效？	Decile、坏样本率曲线
哪些特征有用？	IV、WOE、系数、分数贡献
模型是否稳定？	PSI、训练/测试差距
风控团队能否审阅？	评分卡规则、分箱、分数
能否复现和上线？	SQL 管道、模型路径、审计表

因此，机器学习天然形成 Agent 循环：

构造或修改特征。
训练模型。
评估指标。
找到薄弱点。
启动更多实验。
保留最好版本。

这个循环看起来朴素，但正因为它可衡量、可重复，才特别适合自动化。

Agent 用 InfiniSQL 把原始信用卡字段转化为还款、额度使用、账单、延迟和趋势特征。

三、先理解真实数据，而不是直接训练

本次演示使用 UCI Credit Card Default 数据集：

30,000 个信用卡客户；
23 个原始特征；
标签字段：default_payment_next_month；
整体违约率约 22.1%；
原始字段包括额度、人口统计、近 6 个月还款状态、近 6 个月账单金额、近 6 个月还款金额。

InfiniSynapse 先像真正的数据分析师一样工作：注册 CSV、统计行数、检查标签、计算类别分布、查看字段取值、看摘要统计，并检查 PAY_0 等还款状态字段。

演示中的数据画像阶段：行数、类别分布、distinct 值、摘要统计和还款状态检查。

机器学习的很多错误都发生在训练之前。一个好的 Agent 不应该把文件直接塞进模型，而应该先弄清楚表是什么、标签含义是什么、样本分布是否健康、哪些字段可能变成有用信号。

四、InfiniSQL 是特征工厂

接下来，Agent 开始构造信用风险特征。这些不是装饰性字段，而是传统 ML 真正依赖的信号：

最近是否逾期；
最大逾期状态；
逾期月份数；
累计逾期严重度；
账单金额 / 信用额度；
月度额度使用率；
还款比例；
账单增长趋势；
总还款比例；
聚合支付行为。

InfiniSQL 特征工程：显式类型转换、CASE 逻辑、比例特征和信用风险变量。

这一步最能体现 InfiniSQL 的价值。特征逻辑不是藏在 notebook 或临时 Python 变量里，而是成为一条可以反复执行、修改和审计的数据管道。

而且，InfiniSQL 的意义不止于这个 CSV。真实企业中的 ML 特征很少只在一个文件里。反欺诈模型可能需要交易日志、用户画像、设备指纹、商户信息、客服记录和外部风险信号；流失预测模型可能需要产品使用、账单、工单、营销活动和 CRM 历史。

InfiniSynapse 面向的正是这种环境。

InfiniSynapse 数据源管理：多个启用的数据源可以进入同一分析工作区。

通过 connect 和 load，本地文件、数据库、云数仓和业务系统都能变成同一会话里的表。通过跨源 JOIN 和计算下推，Agent 不需要先把所有数据拉进 Python 内存再合并。

这对机器学习很关键：

更多数据源意味着更多候选特征；更多候选特征意味着更大的实验空间；InfiniSynapse 可以持续搜索这个空间。

多源分析图表：来自不同系统的信号被对齐到同一条时间轴上。

五、构造 ML-ready 表，并对比多个算法

完成特征工程后，Agent 把数据转为 ML-ready 的 feature vector，并切分 train/evaluate/test。

Agent 创建 dense 特征向量，并切分训练集、评估集和测试集。

随后它训练多个模型，而不是预设某一个算法一定最好：

RandomForest v1；
RandomForest v2；
RandomForest v3；
GBTClassifier；
Logistic Regression；
ScoreCard。

RandomForest 和 GBT 完成训练，并准备在测试集上计算 AUC。

Agent 使用排序预测结果计算 RandomForest 和 Logistic Regression 的 AUC。

第一轮模型对比结果很清楚：

模型	AUC	角色
RandomForest v1	0.7843	演示中最强黑盒 challenger
RandomForest v2	0.7833	树模型备选
RandomForest v3	0.7829	树模型备选
Logistic Regression	0.7571	半透明基线
初始 ScoreCard	0.7482	可解释风控模型

模型对比表显示 RandomForest v1 是第一阶段 AUC 最强模型。

这也是专业建模该有的表达：InfiniSynapse 不把某一种算法包装成唯一答案，而是先比较，再根据业务目标选择。

如果只追求 AUC，RandomForest 很强；如果是信贷风控、合规审计和业务复盘，ScoreCard 的分箱、WOE、IV、分数和规则更有价值。

六、从黑盒 AUC 转向可解释 ScoreCard

随后 Agent 切换到 ScoreCard。它没有盲猜接口，而是先检查 ScoreCard 是否可用，加载 ScoreCard 和 Binning 文档，再按照文档流程执行。

Agent 检查 ScoreCard 是否可用，并准备与其他模型对比。

右侧面板显示 ScoreCard 文档、参数和代码示例。

第一版 ScoreCard 完成训练、在 holdout 上预测，并计算 AUC/Gini/KS。

第一版 ScoreCard 训练、预测并在 holdout 数据上评估。

初始 ScoreCard 指标为：

指标	数值
AUC	0.7482
Gini	0.4965
KS	0.4039
KS cutoff	523.79
Score range	459.37-587.36

ScoreCard 详细指标：AUC、Gini、KS、cutoff、坏样本率和分数范围。

ScoreCard 的核心优势是解释性：

每个分箱有 WOE；
每个特征有 IV；
每个分数贡献可以解释；
规则表可以交给风控和合规团队审阅；
黑盒模型仍然可以作为 challenger 保留。

Agent 解释 ScoreCard 的可解释性：WOE、IV、分数贡献和风控规则。

Agent 给出的建议也很稳健：

如果只看最高 AUC，用 RandomForest；
如果需要合规和解释性，用 ScoreCard；
更好的组合是：ScoreCard 做主评分模型，RandomForest 做 challenger/validation model。

Agent 建议用 ScoreCard 做主评分模型，用 RandomForest 做 challenger。

七、Agent Teams 并行跑机器学习实验

用户随后要求：尽可能提高 ScoreCard AUC。

Agent 把这个目标拆成六个阶段：

注册数据并构造丰富特征；
用全部原始特征和优化分箱跑基线 ScoreCard；
按 IV 阈值做特征筛选并优化分箱；
加入比例和聚合特征；
使用最佳特征子集、最佳分箱和最佳参数；
输出最终评估和最佳 AUC。

Agent 创建六阶段计划，通过特征工程、特征筛选和调参来最大化 ScoreCard AUC。

随后出现了 InfiniSynapse 的关键能力：Agent Teams。

它没有让一个 Agent 线性地一个实验一个实验跑，而是把不同假设交给多个子 Agent：增强特征、Top-IV 特征、支付行为特征、custom binning、精简特征、激进分箱等。

InfiniSynapse Teams 启动两个并行子 Agent，分别运行增强 ScoreCard 实验。

机器学习实验天然适合并行。如果指标明确，LLM 不必永远一次只试一个方案。它可以分派、比较、保留更优结果。

子 Agent 加载 ScoreCard 文档，并按流程执行 Binning 和 ScoreCard 训练。

Binning 输出每个特征的 Binning_Info，这是 WOE 和 IV 分析的基础。

子 Agent 确认 train/holdout 视图，执行 Binning，训练 ScoreCard，并在 holdout 上预测。

其中一个实验删除弱支付金额特征，AUC 达到 0.7517。

Experiment 8：19 个特征，删除弱 PAY_AMT 特征，AUC 0.7517。

后续实验把 AUC 推到 0.7605。

增强特征实验达到 AUC 0.7605，随后 Agent 启动更多最终调参实验。

custom heavy binning 把新最好值推到 0.7639。

Experiment 13 使用 custom heavy bins 达到新的最好 AUC 0.7639。

最后，Agent 又启动一轮最强特征上的激进分箱实验。

最后一轮并行实验启动 exp15_max_bins 和 exp16_slim_wide。

最终录制演示中的最好 ScoreCard：

AUC 0.7756，从 0.7482 提升而来，共经历 16 次实验。

最终结果：16 次实验后，ScoreCard AUC 达到 0.7756。

八、不只看数字，还要解释为什么提升

InfiniSynapse 没有只给一个最终 AUC。它保留了实验历史，并解释了提升来源。

16 次实验的完整列表：特征集、分箱、配置、AUC 和相对初始版本的提升。

主要提升路径：

原始特征基线 ScoreCard：0.7482 AUC；
增加账单、还款、延迟等工程特征；
做特征筛选和分箱优化；
对最强还款行为变量做 aggressive custom binning；
最佳 ScoreCard：0.7756 AUC、0.5511 Gini、0.4255 KS。

关键结论：ScoreCard AUC 从 0.7482 提升到 0.7756，主要来自特征工程和激进分箱。

最终模型对比的业务含义很明确：

模型	AUC	解释性	合规友好
RandomForest v1	0.7843	黑盒	否
ScoreCard Exp15	0.7756	完全透明	是
Logistic Regression	0.7571	半透明	是
GBTClassifier	黑盒 challenger	黑盒	否

最终模型对比：ScoreCard Exp15 达到 0.7756，同时保持完全透明和监管友好。

最佳 ScoreCard 配置：

26 个特征：原始字段 + 工程比例/聚合特征；
EF 分箱；
默认 7 个桶，并对关键特征做 custom overrides；
PAY_0：12 bins；
PAY_2 到 PAY_6：各 10 bins；
AVG_PAY_DELAY：10 bins；
NUM_DELAYS：7 bins；
holdout AUC：0.7756；
Gini：0.5511；
KS：0.4255。

最终配置记录了最佳特征集、custom bins 和 holdout 指标。

九、特征可视化：把“为什么选这些特征”讲清楚

做到这一步，模型不应该只剩下一句“指标提升了”。对信用评分卡来说，更重要的问题是：哪些特征真的有信息量？分箱之后的风险方向是否合理？某个特征是稳定贡献，还是被偶然切分出来的噪声？

InfiniSynapse 可以把这些中间证据直接纳入审阅链路。WOE 曲线适合检查每个分箱区间的风险证据如何变化；IV 排名则适合快速判断哪些特征更值得继续投入。

WOE 审阅的意义不是“好看”，而是让分箱结果可检查。风控团队可以看：

某个特征的风险方向是否符合业务常识；
分箱是否过碎、过粗，或者出现不稳定跳变；
custom binning 为什么能带来提升；
哪些特征需要继续保留，哪些特征应该降权或剔除。

更适合在文章里展示的是 IV 排名。IV 不直接等于最终模型效果，但它很适合回答一个朴素问题：哪些特征在区分好坏样本上提供了更多信息？

特征 IV 排名：27 个候选特征按 Information Value 排序，延迟还款和聚合行为变量明显靠前。

这使得特征工程从“Agent 说它做了优化”，变成了“人可以看到它为什么这么选”。例如 NUM_DELAYS、AVG_PAY_DELAY、账单比例、还款金额等变量的 IV 排名，可以和前面的 AUC 提升、custom binning 配置放在一起看。

这也是 InfiniSynapse 机器学习工作流很重要的一层：它不是只给最后一个模型文件，而是把特征候选、分箱证据、IV 排名、WOE 变化和最终指标放在同一条证据链里。

模型提升不是一个黑盒结果，而是一组可以被业务和风控团队共同审阅的特征证据。

十、为什么这不仅是一个 Demo

支撑这条 ML 工作流的，不是一组松散功能，而是一套完整 Data Agent 架构：

Agent 规划和自我纠错；
InfiniSQL 作为工具语言；
跨源执行；
持久化 session table；
知识和记忆；
报告与文件交付；
机器学习融入同一套 table-based workflow。

InfiniSynapse 架构：Agentic 层、InfiniSQL 语言层、跨源执行引擎、零迁移数据基础和知识层。

因此，这条 ML 工作流不是“SQL 到 pandas 到 sklearn 到报告”的反复切换，而是一套统一的表语义：

步骤	InfiniSQL 形态
加载数据	`load ... as table`
构造特征	`select ... as table`
训练模型	`train table as Model...`
注册模型	`register Model... as function`
预测	`select model_function(features) ... as table`
评估	`run ... as ScoreCard... where action="evaluate"`
解释	rules、WOE、IV、Decile、PSI、分数贡献

这就是更深层的匹配：

传统 ML 有明确指标；InfiniSQL 提供特征工厂；Agent Teams 提供实验引擎；InfiniSynapse 可以持续运行，直到指标不再明显改善。

官方总结

第一，InfiniSynapse 可以执行完整机器学习工作流，而不只是回答数据问题。它能取数、构造特征、训练模型、比较算法、评估指标，并保存审计材料。

第二，传统机器学习特别适合 Agentic 执行。AUC、Gini、KS、IV、PSI、Decile 等指标给了 Agent 明确的优化信号。

第三，特征工程是整个流程的中心。演示中的 ScoreCard 提升，来自还款行为、额度使用、账单比例、延迟和聚合特征。

第四，Agent Teams 把机器学习实验变成并行工作。不同子 Agent 可以同时测试不同特征集、分箱策略和参数。

第五，InfiniSQL 扩展了特征来源。文件、业务数据库、数仓、搜索系统、API 和跨源 JOIN，都可以成为候选特征来源。

第六，特征可视化让优化过程可审阅。IV 排名和 WOE 曲线把“哪些特征有用、分箱是否合理、风险方向是否稳定”展示给业务和风控团队。

第七，最终交付不只是一个模型。它包括指标、规则、WOE、IV、Decile、PSI、评分卡配置、特征可视化和业务可读结论。

更谨慎也更有价值的表述是：

InfiniSynapse 可以用 InfiniSQL 作为执行层，持续搜索传统机器学习的特征和参数空间，最终交付一个强效果、可复现、可解释、可审计的业务模型。