郴州市做网站,网站建设的看法有哪些,给我看电影全集,新零售型网站开发文 | QvQ随着深度神经网络的不断发展#xff0c;DNN在图像、文本和语音等类型的数据上都有了广泛的应用#xff0c;然而对于同样非常常见的一种数据——表格数据#xff0c;DNN却似乎并没有取得像它在其他领域那么大的成功。从Kaggle平台上对数据挖掘竞赛Top团队使用的工具统…文 | QvQ随着深度神经网络的不断发展DNN在图像、文本和语音等类型的数据上都有了广泛的应用然而对于同样非常常见的一种数据——表格数据DNN却似乎并没有取得像它在其他领域那么大的成功。从Kaggle平台上对数据挖掘竞赛Top团队使用的工具统计上也能看出XGBoost和LightGBM这类提升Boosting树模型依旧占据主要地位。这种来自GBM类模型的压制力在表格数据上尤为明显即便算上当今专注于处理表格数据的神经网络模型Xgboost的性能速度 精度依旧不是这些神经网络可以“碰瓷”的。那么在自然语言领域和图像领域号称超越人的神经网络模型怎么在表格数据上就变的吭哧瘪肚了呢今天我们来浅析一下其中可能的原因。1.数据有何不同1.1 什么是表格数据?表格数据的最大的特点是:异质性(Heterogeneous),即数据的每一列具有不同含义且数据类型不一致,这种异质的表格数据与图像或语言数据(同质数据)相比其具有密集的数值特征和稀疏的分类特征。1.2 NN处理表格数据的挑战1) 低质量表格数据往往来自于真实世界的统计而一旦数据来自真实世界那么事情便复杂起来。可谓是虚假的数据千篇一律真实的数据五花八门。脏数据、离群点、样本不均衡、数据空间小等一系列现实问题便很容易涌现出来。inconsistent datamissing valuesoutliersexpensiveclass-imbalancedsmall size2)缺失或拥有复杂的空间相关性当前主流的NN模型往往是在同质数据中使用归纳偏置最典型的如卷积神经网络。表格数据集中的变量之间往往不存在空间相关性或者特征之间的相关性相当复杂和不规则。当使用表格数据时必须从头开始学习它的结构和特征之间的关系。这也是为什么迁移学习难以在表格数据上奏效的原因。3)强依赖预处理同质数据上的深度学习的一个关键优势是它包含一个隐式表示学习步骤因此只需要极少的预处理或显式特征构建。然而当深度神经网络处理表格数据其性能可能在很大程度上取决于所选择的预处理策略。不当的预处理方式可能导致:信息缺失预测性能下降生成非常稀疏的特征矩阵(如通过使用onehot编码类别特征)导致模型无法收敛引入先前无序特征的虚假排序信息(如通过使用有序编码方案)4)特征重要性通常情况下改变图像的类别需要对许多特征(如像素)进行协调变化但一个分类(或二进制)特征的最小可能变化可以完全颠覆对表格数据的预测。与深度神经网络相比决策树算法通过选择单个特征和适当的阈值“忽略”其余数据样本可以非常好地处理不同的特征重要性。2.模型偏置有何不同归纳偏置在机器学习中很多学习算法经常会对学习的问题做一些假设这些假设就称为 归纳偏置(Inductive Bias) 。因此归纳偏置可以理解为从现实生活中观察到的现象中归纳出一定的规则(heuristics)然后对模型做一定的约束从而可以起到“模型选择”的作用即从假设空间中选择出更符合现实规则的模型。所以要理解两个模型在同一数据上的表现差异就需要理解两个模型归纳偏置的不同。2.1 实验配置2.1.1 数据集新基准参考 45 个表格数据集选择基准如下 异构列列应该对应不同性质的特征从而排除图像或信号数据集。维度低数据集 d/n 比率低于 1/10。无效数据集删除可用信息很少的数据集。I.I.D.独立同分布数据移除类似流的数据集或时间序列。真实世界数据删除人工数据集但保留一些模拟数据集。数据集不能太小删除特征太少4和样本太少3000的数据集。删除过于简单的数据集。删除扑克和国际象棋等游戏的数据集因为这些数据集目标都是确定性的。2.1.2 数据预处理论文里尽可能少的使用了人工预处理只应用以下转换高斯化特征对于神经网络训练采用Scikit-learn的QuantileTransformer对特征进行高斯化处理。改变回归目标在回归任务中当目标变量的分布是重尾时对其进行对数变换。OneHotEncoder:对于本身不处理类别特征的模型使用ScikitLearn的OneHotEncoder编码分类特征。2.2 模型在基于树的模型中研究者选择了 3 种 SOTA 模型Scikit Learn 的 RandomForestGradientBoostingTrees (GBTs) XGBoost 。该研究对深度模型进行了以下基准测试Resnet 、FT Transformer、SAINT 。FT Transformer:《Revisiting Deep Learning Models for Tabular Data》2021 NIPS。专注于解决表格数据的NN模型。SAINT:《Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing》 提出一种分离的自注意力神经知识追踪结构本质还是transformer结构选它的原因是在一部分表格数据上它有远超transformer的表现。2.3 归纳偏置1类别特征并不是神经网络的主要弱点图一是在纯数字特征数据集上的表现图二是在同时具有数字和分类特征数据集上的表现【说明】虚线对应默认超参数的得分也是第一次随机搜索迭代。实线上的每个值对应于最佳模型(在验证集上)经过特定次数的随机搜索迭代后的所有数据集上的平均测试分数。色带对应这15次随机初始化的最低和最高分数。【显式结论】调优超参数并不能使神经网络达到SOTA基于树的模型对于每个随机搜索都具有优越性即使经过大量的随机搜索迭代NN模型相比树模型性能差距仍然很大。类别特征并不是神经网络的主要弱点类别特征通常被认为是在表格数据上使用神经网络的一个主要问题。我们在数值变量上的结果只揭示了树型模型和神经网络之间的差距比包含分类变量更小。然而当只学习数字特征时这种差距仍然存在。2神经网络倾向于比较平滑的解决方案通过不同尺度的高斯核函数将训练集上的output进行平滑这样可以有效防止模型学习目标函数的不规则pattern。高斯平滑核平滑训练集output方式实验结果上图显示了模型性能作为平滑核的长度尺度的函数。结果表明对目标函数进行平滑处理会显著降低基于树的模型的精度但对神经网络的精度影响不大。这也说明我们数据集中的目标函数不是平滑的与基于树的模型相比神经网络很难拟合这些不规则的函数。这与Rahaman等人[2]的发现一致他们发现神经网络偏向拟合低频函数。而基于决策树的模型学习分段常数函数不会表现出这样的偏见。上图是电力数据集两个最重要特征的决策边界。在这一部分中我们可以看到RandomForest能够学习MLP无法学习的x轴上的不规则模式(对应于日期特征)。3非信息特征更能影响类似MLP的NN表格数据集包含许多非信息uninformative特征对于每个数据集该研究根据特征的重要性会选择丢弃一定比例的特征通常按随机森林特征重要性排序。从下图可以看出去除一半以上的特征对GBT的分类准确率影响不大。绿线保留最重要的特征依次移除最不重要的特征红线依次添加上述被移除的特征可以发现当在被移除20%特征时GBT在测试集上的精度都降低的非常小直到被移除50%特征时精度下降才逐渐明显这表明这些特征大部分是无信息增益的。但是从红线的涨幅来看这些特征又不是完全无用的。上图可以看到移除非信息特征减少了 MLP (Resnet) 与其他模型FT Transformers 和基于树的模型之间的性能差距 而添加非信息特征会扩大差距这表明MLP 对非信息特征的鲁棒性较差。4MLP更具旋转不变性与其他模型相比为什么MLP更容易受到无信息特征的影响其中一个答案是MLP 是旋转不变的。当对训练集和测试集特征应用旋转时在训练集上学习 MLP 并在测试集上进行评估这一过程是不变的。事实上任何旋转不变的学习过程都具有最坏情况下的样本复杂度该复杂度至少在不相关特征的数量上呈线性增长。直观地说为了去除无用特征旋转不变算法必须首先找到特征的原始方向然后选择信息最少的特征。上图 a 显示了当对数据集进行随机旋转时的测试准确率变化证实只有 Resnets 是旋转不变的。值得注意的是随机旋转颠倒了性能顺序这表明旋转不变性是不可取的。事实上表格数据通常具有单独含义例如年龄、体重等。图 b 中显示删除每个数据集中最不重要的一半特征在旋转之前会降低除 Resnets 之外的所有模型的性能但与没有删除特征使用所有特征时相比相比较而言下降的幅度较小。模型本质有何不同树模型的本质分段常数函数决策树在本质上是一组嵌套的if-else判定规则从数学上看是分段常数函数对应于用平行于坐标轴的平面对空间的划分。判定规则是人类处理很多问题时的常用方法这些规则是我们通过经验总结出来的而决策树的这些规则是通过训练样本自动学习得到的。而正是这种简单的划分使得模型的决策流形decision manifolds可以看成是超平面的分割边界对于表格数据的效果很好。神经网络的本质分段线性函数以最简单的神经网络结构表示的单变量逻辑回归模型来说中间层是axb这种线性表达方式进行拟合的表达能力是非常有限的。而不管在中间加多少层线性变换并不能提高其表达能力最终模型本质上仍然是一个关于x的线性模型。那么如何引入非线性呢——激活函数。激活函数的引入使神经网络具备了非线性表达的能力。神经网络强大的本质原因1激活函数让线性的神经网络具备了“分段”表达的能力。2任何函数都可以用“分段”线性函数来逼近。成也强大、败也强大正是因为神经网络这种过强的拟合能力导致在size通常不大的表格数据上很容易过拟合。对于大规模神经网络来说中间隐层所生成的“高维特征”甚至有时比原始数据还多。做个小结树模型特点天然的鲁棒性对异常点、缺失值不敏感不需要归一化等操作。模型的决策流形decision manifolds是可以看成是超平面的分割边界对于表格数据的效果很好。基于贪心的自动化特征选择和特征组合能相比其他ML模型具有更强的非线性表达能力。树的可解释性很好分裂可视化以及特征重要性等操作能改善特征工程。进一步优化特征提升模型性能。数据量带来的边际增益不大容易触及天花板。NN模型特点在语义含义统一的稠密数据上拥有全自动化的特征工程的能力包括超强的特征挖掘与特征组合能力。极强的数据记忆能力与外推泛化能力。对异常值敏感对于表格数据强依赖数据预处理。不可解释无法像树模型那种直观展示预测流程无法推演与优化基础特征。过强的非线性中隐含过拟合和噪音。闻道有先后术业有专攻即便强如神经网络也有自己的软肋。但从上述结果其实也可以发现神经网络不适合处理表格数据仅仅是因为我们还没有掌握合适的方法神经网络的强大的建模能力仍毋庸置疑。相信总有一天神经网络模型将一统江湖三界唯尊卖萌屋作者乐乐QvQ。硕士毕业于中国科学院大学前ACM校队队长区域赛金牌。竞赛混子Kaggle两金一银国内外各大NLP、大数据竞赛Top10。校招拿下国内外数十家大厂offer超过半数的SSP。目前在百度大搜担任搜索算法工程师。知乎IDQvQ作品推荐1.13个offer8家SSP谈谈我的秋招经验2.BERT为何无法彻底干掉BM253.训练双塔检索模型可以不用query-doc样本了4.他与她一个两年前的故事5.Bing与DuckDuckGo搜索结果惊人一致Google展现强势差异后台回复关键词【入群】加入卖萌屋NLP、CV、搜推广与求职讨论群 [1] Why do tree-based models still outperform deep learning on tabular data? https://arxiv.org/abs/2207.08815[2] On the Spectral Bias of Neural Networks.https://arxiv.org/abs/1806.08734[3] Deep Neural Networks and Tabular Data: A Survey. https://arxiv.org/pdf/2110.01889.pdf[4] Relational inductive biases, deep learning, and graph networks. https://arxiv.org/abs/arXiv:1806.01261[5] Revisiting Deep Learning Models for Tabular Data. https://arxiv.org/pdf/2106.11959.pdf[6] 遇事不决XGBoost梯度提升比深度学习更容易赢得Kaggle竞赛[7] 数据挖掘竞赛利器——TabNet模型浅析 https://zhuanlan.zhihu.com/p/152211918[8] 为什么在实际的kaggle比赛中GBDT和Random Forest效果非常好https://www.zhihu.com/question/51818176