天津市建设与管理局网站下载,网络结构有哪几种,西安做百度网站的,做网站开发钱小夕#xff1a;hi#xff0c;路人~你知道机器学习中数据的维度太高会带来什么问题吗#xff1f;路人己#xff1a;此时#xff0c;如果样本量不足#xff0c;会容易过拟合啊~小夕#xff1a;为什么呢#xff1f;路人己#xff1a;这还有为什么#xff1f;小夕#… 小夕hi路人~你知道机器学习中数据的维度太高会带来什么问题吗路人己此时如果样本量不足会容易过拟合啊~小夕为什么呢路人己这还有为什么小夕(∇)…路人己不对啊你的标题不是深度学习与大数据吗怎么问起这个来了小夕不要急哦在小夕带你深度解析“为什么高维数据会带来灾难”后一切将迎刃而解啦。 对于一些已经实践过机器学习算法的同学一般都会知道上面路人己的说法。但是有没有同学去探究过这个现象背后的原因呢也就是说为什么训练样本(数据)的维度太高的情况下会导致很难训练出满意的机器学习模型呢 简洁来说两大原因Bellman的维数灾难和Hadamard的不适定问题。Bellman的维数灾难我们知道从概率统计的观点来看数据的每个特征都可以认为是一个服从某种分布的随机变量。因此一个具有m个样本、每个样本有n维的数据集就可以认为是一个n维随机变量的m个采样点 基于上述理解小夕以该n维随机变量服从高斯分布为例进行讲解。(高斯分布就是正态分布) 高中时我们接触的高斯分布的形状一般是这样的偷了个懒从《模式分类》上找了个图 这是两个一维高斯分布的情况请自行删去一个...可以看到大部分数据都集中在某点的两侧该点即该随机变量的期望μ99.7%的数据集中在(μ-3σ, μ3σ)的范围内 容易想象到二维的时候是这样的两个二维高斯分布 也就是立体的看是座尖峰。如果投影到二维平面上也就是从上往下看的话是一个圆上图的底部已画出。可以看到大部分数据都集中在圆心的不远处。 而三维呢可以想象到比圆升高一维那就是球啦。 大部分数据依然很集中集中在球心不远处。 四维呢甚至五维呢看二维和三维的情况到了四、五维的时候也应该是一个圆圆的、球球的东西这个东西被称为“超球”。同样的道理直线-平面-超平面二次曲线双曲线-二次曲面-超二次曲面 如果100维呢依然是这样吗出问题了 当维数足够高时会产生空空间现象(empty space phenomenon)即高维空间的本质是稀疏空间。 因此当维数显著增加时样本集的分布会越来越多的向高斯函数的边界也就是3σ以外移动而不再是集中在中间了换句话说对于高维的样本集大部分数据将分布在超球的外壳而不是超球的球心 显然这就导致高维情况下我们的机器学习模型很难去描述该空间的“形状”和“各个点的密度”本来在低维情况下通过期望μ和标准差σ很好描述的高密度区域到了高维情况却可能完全没有了样本而本来密度很低的辽阔区域却散布着样本集的大部分你让我如何去描述嘛没有描述就没法分类和识别啊喂 所以还抱有一丝幻想的话就要大量增加数据样本才有可能去描述如此空虚的空间以怎样的速率增加呢以指数数量级但是仅仅是大量增加样本就可以吗问题真的如此简单 还有更加严重的灾难! Hadamard的不适定问题这部分讲解会用到一点点泛函分析中的知识。泛函分析可以简单理解为在无限维空间上研究函数的函数的数学学科。但是没有学过的同学也不用担心下面小夕会将其强扯到我们熟悉的机器学习问题上。 Hadamard提出在某些情况下求解线性算子方程AfFf∈F的问题接地气的类比这里的A可以认为是手头的样本集F可以认为是我们要拟合的自然模型也就是数据的真实分布模型而f可以认为是我们要根据样本集来训练的机器学习模型即使方程存在唯一解如果方程右边有一个微小变动也会导致解有很大的变化即导致不适定问题。而我们根据高维数据集来估计机器学习模型的场景正符合这个场景也就是会产生不适定问题 这意味着什么呢意味着如果我们手头的样本集的规模并没有大到可以描述自然模型也就是并没有满足大数据的定义精确的定义见这篇文章那么哪怕我们的数据集只是跟自然模型差一点点了就差一点点就可以完全描述自然模型了那也不行这将导致解有很大的变化也就是将导致我们训练出的机器学习模型f将会有很大的变化或者说有很大的误差也就是说训练出的模型对于未知数据的表现会很差劲即攻城狮口中的过拟合了结论高维情况下Bellman维数灾难中提到的空空间问题使得高维空间非常难以描述哪怕使用非常多的样本勉强描述了Hadamard提到的不适定问题依然将导致高维数据训练出的机器学习模型效果很差即泛化能力很弱出现所谓的过拟合。 所以在高维情形下的唯一解是 严格意义上的大数据。注意不是媒体口中的假大数据严格意义上的大数据其规模和复杂度必须达到可以描述自然模型的程度所以深度学习意味着什么呢意味着作为机器学习模型的神经网络很深很复杂。神经网络很深很复杂意味着什么呢意味着要训练的参数很多。参数很多意味着什么呢意味着数据的维度很高。维度很高意味着什么呢意味着本文所讲的结论。 参考文献毕华, 梁洪力, 王珏. 重采样方法与机器学习[J]. 计算机学报, 2009,32(5): 862-877.Duda R O, 杜达, Hart P E, et al. 模式分类[M]. 机械工业出版社, 2003.Bellman R. Adaptive control processes: a guided tour[J]. 1961.