门户类网站有哪些,岳西县住房和城乡建设局网站,在线短链接生成,代理软件哪个好范数是一个在数学领域中常用的工具#xff0c;同时也是学习机器学习原理中经常碰到的概念。本文将从范数的定义出发#xff0c;逐步带你理解其在机器学习中的应用。首先需要明确的是#xff0c;范数是一个函数#xff0c;在机器学习中我们通常用它来衡量向量的大小。 范数定…范数是一个在数学领域中常用的工具同时也是学习机器学习原理中经常碰到的概念。本文将从范数的定义出发逐步带你理解其在机器学习中的应用。首先需要明确的是范数是一个函数在机器学习中我们通常用它来衡量向量的大小。 范数定义为 1.常见的范数下面简要介绍一些常见的范数到这一步暂且只需要记住它们的形式。1.1 范数当p 2时 范数也被称为欧几里得范数表示从远点出发到向量 确定的点的欧几里得距离。这个范数在机器学习中应用的非常频繁我们先记住它的简化表示: 。 1.2 平方 范数顾名思义就是 范数的平方好处就是它显然比 范数容易计算可以简单的通过点积 计算。1.3 范数有些情况下平方 范数不是很受欢迎因为它在原点附近增长得十分缓慢。有时候区分恰好是零和非零但值很小的元素是很重要的这时候就可以使用各位置斜率相同的 范数 1.4 范数 范数也被称为最大范数表示向量中具有最大幅值的元素的绝对值2.深度学习中的正则化2.1偏差(bias)和方差(variance)在介绍深度学习中的正则化之前我们先要从机器学习的场景出发思考是什么问题促使我们需要用正则化这个工具呢偏差和方差通常可以用来判断模型拟合数据的情况看下面这张图 和 代表两种不同的样本点。第一个坐标系中由于分类器接近于线性拟合数据的能力比较差表现出欠拟合对应高偏差high bias第三个坐标系对于训练数据过拟合对应高方差high variance而中间的坐标系则是恰到好处的我们比较希望得到的泛化能力较强的模型。因此if high bias:{更大的网络/更长的训练时长/更合适的算法}if high variance:{更多的数据/正则化/更合适的算法}我们可以将正则化理解为“对学习算法的修改——目的是为了减少泛化误差以偏差的增加换取方差的减少从而抑制过拟合。”2.2正则化如何抑制过拟合我们将目标函数定义为 ,正则化后的目标函数为 , 。通常只对权重 做正则化惩罚而不针对偏置项b,为了简单起见我们假设没有偏置项 是权衡正则化强度的超参。2.2.1 正则化 范数正则化也被称为权重衰减这时 带入正则化后的目标函数从上文1.2 平方 范数的介绍中得到 因此 与之对应的梯度为 使用梯度下降更新权重 为学习率 即 可以看出加入权重衰减后会引起学习规则的修改在每步梯度更新之前都会先收缩权重向量——将权重向量前边乘上一个小于1的权重因子 也就是说正则化惩罚系数 升高会将权重 拉向0。可以从两个角度进一步理解一下这个操作a.在神经网络中当一些权重趋近于0时则可以理解为去掉了一些逻辑单元简化后的网络虽然小但深度很大。从而将高方差的模型往高偏差的方向拉直到获取一个恰到好处的模型。b.假设神经网络每层的激活函数为 正则化惩罚系数 从而使得 从①③的非线性状态区域进入②接近于线性状态的区域导致每层几乎是线性的线性函数叠加仍然为线性起到抑制过拟合的效果。