企业做可信网站认证的好处,网站后台如何做文件下载连接,网页设计教程23,外吐司做的阿里巴巴的网站首先是对感知器的简单回顾#xff0c;假设现有的训练集为 D#xff0c;共有 n 个训练数据#xff0c;每个数据都有 m 个输入特征和一个输出标签。一个 epoch 就是遍历一次整个训练集#xff0c;对于每一个训练数据#xff0c;都计算其预测、计算误差、更新参数。 在一个 e… 首先是对感知器的简单回顾假设现有的训练集为 D共有 n 个训练数据每个数据都有 m 个输入特征和一个输出标签。一个 epoch 就是遍历一次整个训练集对于每一个训练数据都计算其预测、计算误差、更新参数。 在一个 epoch 中每次针对一个训练数据进行参数更新的方法称为在线方法或者随机梯度下降而在一个 epoch 中将参数在每个训练数据上需要更新的值记录下来最后叠加在一起再对参数进行更新的方法称为批量方法。 最常用的是这两种方法的折中方法小批量方法。它的优点有三个
1、选择子集而不是单个训练数据可以利用向量化来进行并行计算加快计算速度
2、相比于单个训练数据子集的噪声更加小
3、批量方法也拥有以上两个优点但是训练数据集一般都非常大用整个批量的速度太慢且适当的噪声可以帮助我们跳出局部最小值。 用感知器的视角来看待线性回归就相当于是用恒等函数作为激活函数。 线性回归有闭式解但是对大型数据集的矩阵进行求导也是非常困难的此时梯度下降就派上用场了。 将线性回归的随机梯度下降方法与感知器的学习方法进行比较可以发现它们十分相似区别只在于感知器的激活函数是阈值函数线性回归的激活函数是恒等函数感知器直接用误差进行参数更新线性回归则用负梯度值进行参数更新。 线性回归的随机梯度下降方法既可以用向量化的方法求梯度然后用负梯度值更新参数也可以用 for 循环的方法求偏导数然后用负偏导数值更新参数显然前者更优。 假设线性回归中使用的凸损失函数是平方误差函数则其一定存在全局最小值通过梯度下降可以求得这个值而更新步骤会同时受到学习率和梯度的影响学习率决定步长梯度决定陡峭程度方向一定是负梯度方向求最小值 平方损失函数推导该损失函数对各个权重的偏导数写在一起即梯度。记住线性回归中的激活函数就是恒等函数所以导数等于 1。推导过程中使用了两次链式法则。 使用均方误差作为损失函数推导过程同理就是多求了个平均值而已。 最后看下 Adaline感知器的激活函数是阈值函数线性回归的激活函数是恒等函数而 Adaline 的激活函数是恒等函数但它后面也接上了阈值函数相当于恒等函数 阈值函数。