表格数据是机器学习领域的重要数据类型,广泛应用于金融、医疗、推荐系统等现实场景。传统的表格数据机器学习通常假设训练和测试数据来自封闭环境,各类学习因素没有发生变化。然而在实际应用中,表格数据往往处于开放环境,面临着如数据分布变化和特征偏移等挑战。这些挑战会导致模型性能和鲁棒性显著下降,限制了它们的实际应用价值。
图
1
开放环境表格机器学习常见挑战
为此,
南京大学智能科学与技术学院郭兰哲老师团队
针对表格数据机器学习在开放环境下可能面临的各类挑战展开深入研究,提出了一系列创新方法,相关工作发表于
AAAI、IJCAI、ICML等领域一流学术会议中。
工作一:面向表格数据分布变化的完全测试时适应(
A
AAI 2024
)
分布变化是开放环境下的一个常见挑战,其
指训练数据与测试数据在
数据
分布上存在差异,这种差异可能源于协变量
分布
变化
或者
标签
分布
变化,导致模型在测试阶段的性能显著下降。
为了解决这一挑战,完全测试时适应算法(
Fully Test-time Adaptation
,
FTTA)
通过
利用测试数据对预训练模型进行调整,以适应测试阶段的数据
分布变化
。然而,现有的FTTA
算法
主要针对图像数据设计,对表格数据的
适用
性较差。
为了解决这一问题,
南京大学智能科学与技术学院郭兰哲老师团队
提出了FTAT
(
Fully Test-time Adaptation for Tabular data
)算法
。该
算法
通过三个关键模块
——置信分布优化器、局部一致性加权器和动态模型集成器,分别解决了标签分布
变化
、协变量分布
变化
以及模型适应性敏感性的问题。实验结果表明,FTAT方法在六个基准数据集上显著优于
现有的
FTTA方法,为表格数据
分布变化
的测试时适应问题提供了有效的解决方案。
该工作已被人工智能顶级会议
AAAI
202
4
接收发表。
图
2
F
TAT
算法结构示意图
论文链接
:
https://arxiv.org/abs/2412.10871
项目主页
:
https://zhouz.dev/FTTA/
工作二:面向表格数据特征减少的完全测试时适应(
I
JCAI 2025
)
现有的FTTA算法大多专注于解决分布
变化
问题,假设训练和测试阶段的特征空间一致,未能有效应对表格数据中特征
减少
挑战。特征
减少
是指测试阶段的特征维度较训练阶段减少,当前的解决方法主要包括缺失特征插补和缺失特征适应,但这些方法在FTTA场景中均存在插补方法依赖训练数据
,
适应方法在特征
减少
程度较高时性能显著下降
等局限性。为了解决这一问题,
南京大学智能科学与技术学院郭兰哲老师团队
提出了LLM-IMPUTE和ATLLM两种方法。LLM-IMPUTE利用
大语言模型(
Large
L
anguage
M
odels
, LLMs
)
在无需训练数据的情况下生成缺失特征的插补值
,
ATLLM则通过模拟特征
减少
场景
构造
增强训练模块,
从而
提升模型在测试阶段的鲁棒性。实验结果表明,这两种方法显著提高了FTTA算法在特征
减少
场景中的性能和鲁棒性
。该工作已被人工智能顶级会议
IJCAI
2025接收。
图
3
模型性能下降程度与减少的特征数量有关
工作三:面向表格数据特征偏移的评测基准(
I
CML 2025)
特征偏移是开放环境中另一个普遍存在的常见挑战,其指的是由于时间演化或空间变化,同一任务的可获取特征集发生动态变化的现象,包含特征减少和特征增加两种情况。例如,在天气预报任务中,关键传感器可能因故障或老化而停止工作,也可能因技术升级而被新传感器取代,从而导致可获取的特征发生变化。这种变化不仅会破坏模型输入特征的一致性,还可能显著降低模型的性能和鲁棒性。然而,有关特征偏移的研究相对有限,而且缺乏针对特征偏移挑战的高质量评测基准。为了解决这一问题,
南京大学智能科学与技术学院郭兰哲老师团队
首次对表格数据中的特征偏移进行了全面研究,并提出了第一个表格特征偏移基准测试
TabFSBench。TabFSBench评估了四种不同特征偏移场景对四
类表格
模型的影响,并首次在
表格
基
准测试中评估了
LLMs和
表格
LLMs的性能。研究得出了三个主要观察结果:(1)大多数结构化模型在特征偏移场景下的适用性有限;(2)偏移特征的重要性与模型性能下降呈线性关系;(3)模型在封闭环境中的性能与其在特征偏移场景下的性能
正相关
。
该工作已被机器学习顶级会议
ICML
2025接收发表。
表
4
模型
处理不同表格任务的
性能
排名
论文链接
:
https://icml.cc/virtual/2025/poster/44787
项目主页
:
https://github.com/LAMDASZ-ML/TabFSBench