如果你问一位Kaggle竞赛选手:“表格分类用什么模型最好?”答案十有八九是:XGBoost或LightGBM。
深度学习在图像、文本领域攻城略地,却在最“朴素”的表格数据面前屡屡碰壁。但这一次,局面正在发生根本性扭转。
来自南京大学LAMDA课题组的重磅综述《Representation Learning for Tabular Data: A Comprehensive Survey》正式发表于IEEE TPAMI。这是全球首篇从“泛化能力”维度系统梳理表格表示学习的综述,首次提出专用→可迁移→通用的三级演进范式,为这一长期缺乏统一框架的领域绘制了第一张技术地图。
📊 研究背景:为什么表格数据“难倒”深度学习?
表格数据是金融、医疗、推荐系统、AI4Science中最主流的数据形态,却有着天然的反深度学习体质:
- 异构特征:数值、类别、有序特征混杂,无法直接应用卷积或序列模型
- 缺乏空间结构:列顺序无语义,数据是**置换不变**的
- 数据质量问题:缺失值、噪声、异常值普遍存在
- 类别不平衡:欺诈检测、罕见病诊断等场景标签分布极度偏斜
正因如此,梯度提升决策树(GBDT)二十年来始终是表格学习的“无冕之王”。但深度学习的表示学习能力,正在以前所未有的方式打破这一格局。
🧠 方法分类:首次从“泛化能力”定义三大范式
本综述的核心贡献,是首次从模型泛化能力的维度,将现有表格深度学习方法划分为三个递进层次:
1. 专用模型(Specialized)
训练与测试同分布,聚焦单表学习。这是目前方法最密集的领域。作者创新性地提出“特征-样本-目标”层级化分类法:
-特征层面:特征编码(PLE、周期激活函数)、特征选择(TabNet、GRANDE)、特征投影(MLP变体、BiSHop)、特征交互(DCNv2、ExcelFormer、AMFormer)
- 样本层面:样本交互(SAINT、NPT、Trompt)、邻域检索(TabR、ModernNCA)
- 目标层面:训练目标(PTAFL)、正则化(RLNs、TANGOS)
2. 可迁移模型(Transferable)
预训练+微调,突破单表边界。作者按知识来源将其分为:
- 同构迁移:自监督预训练(VIME、SCARF、SubTab)、对比学习、掩码建模
- 异构迁移:特征空间不一致下的迁移(XTab、TabToken、ReForm)
- 跨模态迁移:借助语言模型(TransTab、CM2、CARTE)或视觉模型(DeepInsight、IGTD、Tab2Visual)
3. 通用模型(General)
零样本推理,即表格基础模型。这是2023年以来最激动人心的方向:
- 原始特征类:TabPTM、HyperFast、MotherNet
- TabPFN家族:基于上下文学习的Transformer,在<1000样本场景超越调优后的GBDT
- 语义对齐类:TabuLa-8B、GTL、MediTab,借助LLM统一异构表格
⚔️ 树模型 vs DNN:这场二十年辩论终于有了答案
综述并未回避这场持续至今的学术争论,而是首次给出了辩证且系统的比较:
| 维度 | 树模型优势 | DNN进展 |
|------|-----------|---------|
| **高频数据** | 自然捕获局部+全局模式 | 频率缩减、周期激活函数 |
| **混合类型** | 原生支持类别特征 | 嵌入层+特征标记化 |
| **计算成本** | 训练快,资源低 | 仍需GPU,但效率提升显著 |
| **鲁棒性** | 自然容忍缺失值、噪声 | 需预处理的短板依然存在 |
| **可解释性** | 决策路径透明 | 注意力机制、特征掩码追赶中 |
| **异常值/偏态** | 基于分位数分裂,不敏感 | 需专门设计鲁棒损失 |
核心结论:深度学习尚未“击败”GBDT,但在高维稀疏、多模态融合、大规模预训练等场景中,差距已急剧缩小。TabPFN等通用模型的出现,标志着拐点正在到来。
💡 结语
这是一篇写给“表格数据深度学习”的成年礼综述。它告诉我们:这条路没有死胡同,只是走的人还不够多。
当研究者开始像理解图像一样理解表格——尊重其异构性,挖掘其样本关系,并用自监督与上下文学习的力量绕过标注瓶颈——表格数据的深度学习时代才刚刚拉开序幕。
📄 论文信息
标题:Representation Learning for Tabular Data: A Comprehensive Survey,IEEE Transactions on Pattern Analysis and Machine Intelligence, 2026, DOI:10.1109/TPAMI.2026.3657217
开源工具箱:https://github.com/LAMDA-Tabular/Tabular-Survey