郑州高端建站公司,推广形式有哪几种,网络公司网站策划书,发稿流程目录
梯度
梯度下降
常用的梯度下降算法#xff08;BGD#xff0c;SGD#xff0c;MBGD#xff09;
梯度下降的详细算法
算法过程
批量梯度下降法#xff08;Batch Gradient Descent#xff09;
随机梯度下降法#xff08;Stochastic Gradient Descent#xff09…目录
梯度
梯度下降
常用的梯度下降算法BGDSGDMBGD
梯度下降的详细算法
算法过程
批量梯度下降法Batch Gradient Descent
随机梯度下降法Stochastic Gradient Descent
小批量梯度下降法Mini-batch Gradient Descent 梯度下降的优化算法
存在的问题
梯度下降优化的方法 机器学习中具体梯度下降的优化算法
基于陷入局部最优的问题的优化
Momentum算法
基于学习率方面进行的梯度优化
Adam算法Adaptive Moment Estimation 参考梯度下降Gradient Descent小结
梯度 概念在微积分里面对多元函数的参数求∂偏导数把求得的各个参数的偏导数以向量的形式写出来就是梯度。 意义梯度是函数在当前位置变化最快的方向因此可以使得损失函数很快地找到极值损失一般是找极小值进而用于指导训练模型中参数的更新。 梯度下降 首先来看看梯度下降的一个直观的解释。比如我们在一座大山上的某处位置由于我们不知道怎么下山于是决定走一步算一步也就是在每走到一个位置的时候求解当前位置的梯度沿着梯度的负方向也就是当前最陡峭的位置向下走一步然后继续求解当前位置梯度向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去一直走到觉得我们已经到了山脚。当然这样走下去有可能我们不能走到山脚而是到了某一个局部的山峰低处。 具体实施从整体来看当点下降最快的方向不是由某一个维度的偏导决定的1而是由所有维度的偏导共同决定的这也符合“梯度是变化最快的方向”和“梯度是函数对所有参数求偏导后的值的向量”这两个说法。在实际实施中我们一般是通过偏导来指导不同参数的更新以此来做到函数值下降得最快梯度方向。这就是梯度下降的本质。 从上面的解释可以看出梯度下降不一定能够找到全局的最优解有可能是一个局部最优解。当然如果损失函数是凸函数梯度下降法得到的解就一定是全局最优解。 常用的梯度下降算法BGDSGDMBGD
梯度下降的详细算法 算法过程
一般有两种方法一种迭代一种矩阵运算具体见梯度下降Gradient Descent小结 批量梯度下降法Batch Gradient Descent 优点对于准确率来说因为使用了全部样本的梯度所以准确率会更高
缺点但是使用了全部样本导致在训练速度和收敛速度上都比较慢
随机梯度下降法Stochastic Gradient Descent 优点随机梯度下降就是BGD的极端只是随机选择一个样本的梯度来指导梯度的下降因为使用了一个样本因此其训练速度会很快
缺点但是非常依赖于初始值和步长的影响有可能会陷入局部最优中导致收敛速度慢
小批量梯度下降法Mini-batch Gradient Descent
在深度学习中SGD和MBGD统称为SGD
这个梯度下降算法其实就是结合了BGD和SGD两者采用了小批次的梯度来进行计算。 优点分担了训练压力小批量、加快收敛
缺点初始学习率难以确定、容易陷入局部最优 梯度下降的优化算法
存在的问题
BGD、SGD以及MBGD都是比较常见的梯度算法但是都存在以下问题
1学习步长学习率难以确定是超参数太大导致跳过最优解太小收敛速度慢可能会导致陷入局部最优
2参数初始值的确定不同初始值有可能会产生不同的最优解比如初始值分别在两座山的山顶那得到的山脚位置自然是可能不一样的
3样本特征值的差异性大变化范围大
梯度下降优化的方法 机器学习中具体梯度下降的优化算法
基于陷入局部最优的问题的优化
Momentum算法
Momentum算法是在MBGD的基础上进行了修改即在梯度方向上增加动量Momentum意思指在更新梯度时会保留之前更新的梯度方向然后利用当前批次的梯度进行微调
优点
1能够抑制梯度的震荡在梯度与上次相同的时候梯度下降多一点反之少一点
2有可能跳出局部极值 基于学习率方面进行的梯度优化
Adam算法Adaptive Moment Estimation 优点
1每一次迭代的学习率都在依次确定的范围内 使得参数更新更加地稳定
2使模型更加地收敛适用于深层网络和较为复杂的场景
参考文献
https://blog.csdn.net/liuy9803/article/details/81780543
https://www.cnblogs.com/pinard/p/5970503.html
物体检测书籍