当前位置：首页>南京>南京大学LAMDA课题组表格数据深度学习综述

南京大学LAMDA课题组表格数据深度学习综述

2026-05-09 09:11:18

如果你问一位Kaggle竞赛选手：“表格分类用什么模型最好？”答案十有八九是：XGBoost或LightGBM。

深度学习在图像、文本领域攻城略地，却在最“朴素”的表格数据面前屡屡碰壁。但这一次，局面正在发生根本性扭转。

来自南京大学LAMDA课题组的重磅综述《Representation Learning for Tabular Data: A Comprehensive Survey》正式发表于IEEE TPAMI。这是全球首篇从“泛化能力”维度系统梳理表格表示学习的综述，首次提出专用→可迁移→通用的三级演进范式，为这一长期缺乏统一框架的领域绘制了第一张技术地图。

📊 研究背景：为什么表格数据“难倒”深度学习？

表格数据是金融、医疗、推荐系统、AI4Science中最主流的数据形态，却有着天然的反深度学习体质：

- 异构特征：数值、类别、有序特征混杂，无法直接应用卷积或序列模型

- 缺乏空间结构：列顺序无语义，数据是**置换不变**的

- 数据质量问题：缺失值、噪声、异常值普遍存在

- 类别不平衡：欺诈检测、罕见病诊断等场景标签分布极度偏斜

正因如此，梯度提升决策树（GBDT）二十年来始终是表格学习的“无冕之王”。但深度学习的表示学习能力，正在以前所未有的方式打破这一格局。

🧠 方法分类：首次从“泛化能力”定义三大范式

本综述的核心贡献，是首次从模型泛化能力的维度，将现有表格深度学习方法划分为三个递进层次：

1. 专用模型（Specialized）

训练与测试同分布，聚焦单表学习。这是目前方法最密集的领域。作者创新性地提出“特征-样本-目标”层级化分类法：

-特征层面：特征编码（PLE、周期激活函数）、特征选择（TabNet、GRANDE）、特征投影（MLP变体、BiSHop）、特征交互（DCNv2、ExcelFormer、AMFormer）

- 样本层面：样本交互（SAINT、NPT、Trompt）、邻域检索（TabR、ModernNCA）

- 目标层面：训练目标（PTAFL）、正则化（RLNs、TANGOS）

2. 可迁移模型（Transferable）

预训练+微调，突破单表边界。作者按知识来源将其分为：

- 同构迁移：自监督预训练（VIME、SCARF、SubTab）、对比学习、掩码建模

- 异构迁移：特征空间不一致下的迁移（XTab、TabToken、ReForm）

- 跨模态迁移：借助语言模型（TransTab、CM2、CARTE）或视觉模型（DeepInsight、IGTD、Tab2Visual）

3. 通用模型（General）

零样本推理，即表格基础模型。这是2023年以来最激动人心的方向：

- 原始特征类：TabPTM、HyperFast、MotherNet

- TabPFN家族：基于上下文学习的Transformer，在<1000样本场景超越调优后的GBDT

- 语义对齐类：TabuLa-8B、GTL、MediTab，借助LLM统一异构表格

⚔️ 树模型 vs DNN：这场二十年辩论终于有了答案

综述并未回避这场持续至今的学术争论，而是首次给出了辩证且系统的比较：

| 维度 | 树模型优势 | DNN进展 |

|------|-----------|---------|

| **高频数据** | 自然捕获局部+全局模式 | 频率缩减、周期激活函数 |

| **混合类型** | 原生支持类别特征 | 嵌入层+特征标记化 |

| **计算成本** | 训练快，资源低 | 仍需GPU，但效率提升显著 |

| **鲁棒性** | 自然容忍缺失值、噪声 | 需预处理的短板依然存在 |

| **可解释性** | 决策路径透明 | 注意力机制、特征掩码追赶中 |

| **异常值/偏态** | 基于分位数分裂，不敏感 | 需专门设计鲁棒损失 |

核心结论：深度学习尚未“击败”GBDT，但在高维稀疏、多模态融合、大规模预训练等场景中，差距已急剧缩小。TabPFN等通用模型的出现，标志着拐点正在到来。

💡 结语

这是一篇写给“表格数据深度学习”的成年礼综述。它告诉我们：这条路没有死胡同，只是走的人还不够多。

当研究者开始像理解图像一样理解表格——尊重其异构性，挖掘其样本关系，并用自监督与上下文学习的力量绕过标注瓶颈——表格数据的深度学习时代才刚刚拉开序幕。

📄 论文信息

标题：Representation Learning for Tabular Data: A Comprehensive Survey,IEEE Transactions on Pattern Analysis and Machine Intelligence, 2026, DOI：10.1109/TPAMI.2026.3657217

开源工具箱：https://github.com/LAMDA-Tabular/Tabular-Survey

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

南京大学LAMDA课题组表格数据深度学习综述

最新文章

热门文章

随机文章

南京大学LAMDA课题组 表格数据深度学习综述

【南京市一等奖初中数学人工智能技术赋能教学论文】:人工智能技术在初中数学教学中的应用分析——以人教版“二次函数的图像与性质”为例

此时此刻南京新街口…

最新文章

热门文章

随机文章

南京大学LAMDA课题组表格数据深度学习综述