当前位置: 首页 > news >正文

网站关键词排名优化系统网站备案取消

网站关键词排名优化系统,网站备案取消,网站建设外出考察信息,建筑人才网站Optimizer 优化 学习率 l e a r n i n g r a t e : α 学习率learning\;rate: \alpha 学习率learningrate:α 防止除 0 的截断参数 : ϵ 防止除0的截断参数: \epsilon 防止除0的截断参数:ϵ t 时刻的参数 : W t t\;时刻的参数: W_{t} t时刻的参数:Wt​ t 时刻的梯度#xf…Optimizer 优化 学习率 l e a r n i n g r a t e : α 学习率learning\;rate: \alpha 学习率learningrate:α 防止除 0 的截断参数 : ϵ 防止除0的截断参数: \epsilon 防止除0的截断参数:ϵ t 时刻的参数 : W t t\;时刻的参数: W_{t} t时刻的参数:Wt​ t 时刻的梯度 g t t\;时刻的梯度g_{t} t时刻的梯度gt​ t 时刻的神经网络 : f ( x ; W t ) t\;时刻的神经网络: f(x;W_{t}) t时刻的神经网络:f(x;Wt​) t 时刻的梯度 g t 的一阶动量 : m t t\;时刻的梯度g_{t}的一阶动量: m_{t} t时刻的梯度gt​的一阶动量:mt​ t 时刻的梯度 g t 的二阶动量 : v t t\;时刻的梯度g_{t}的二阶动量: v_{t} t时刻的梯度gt​的二阶动量:vt​ 一阶动量历史权重 : β 1 一阶动量历史权重: \beta_{1} 一阶动量历史权重:β1​ 二阶动量历史权重 : β 2 二阶动量历史权重: \beta_{2} 二阶动量历史权重:β2​ 权重衰减项权重 λ 权重衰减项权重\lambda 权重衰减项权重λ 文章目录 Optimizer 优化1 SGD2 mSGD3 AdaGrad4 RMSProp5 Adam6 AdamW7 总结 1 SGD SGD(Stochastic Gradient Descent)随机梯度下降算法在深度学习中是一个最基础的优化算法相比于传统凸优化所使用的梯度下降算法GDSGD是在一个mini-batch中进行的。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) W t W t − 1 − α g t W_{t}W_{t-1}-\alpha g_{t} Wt​Wt−1​−αgt​ 即计算一个mini-batch中的损失函数的梯度之后根据学习率进行更新SGD可能存在的问题是更新幅度与梯度线性相关一方面网络不同层之间参数数值分布可能很不一致这导致学习率的选择困难不同层之间的更新速度不一致另一方面不利于摆脱局部极小值SGD对于局部极小值的摆脱能力来源于Stochastic即mini-batch中的样本随机而非GD的全局选择给予了一定的摆脱能力。 2 mSGD mSGD(Moving Average SGD)是SGD的改进算法在SGD的基础上引入了动量从而平滑了参数的更新并且给予了一定摆脱局部极小值的能力。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t\beta_{1}m_{t-1}(1-\beta_{1})g_{t} mt​β1​mt−1​(1−β1​)gt​ W t W t − 1 − α m t W_{t}W_{t-1}-\alpha m_{t} Wt​Wt−1​−αmt​ 即使参数到达了一个局部最小值点由于动量 m t m_{t} mt​的存在类似于惯性优化参数会冲过一部分的局部极小值或者鞍点。 3 AdaGrad AdaGrad(Adaptive Gradient)算法是一种自适应学习率的算法其根据历史梯度平方和的大小动态调整学习率使得学习率逐渐下降。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) W t W t − 1 − α g t ∑ i 1 t g i 2 ϵ W_{t}W_{t-1}-\alpha \frac{g_{t}}{\sqrt{\sum_{i1}^t g_{i}^2}\epsilon} Wt​Wt−1​−α∑i1t​gi2​ ​ϵgt​​ AdaGrad根据过往的梯度平方和动态调整学习率其优点是学习率自适应缺点是学习率单调下降且受极易历史极端梯度大小影响可能导致后续学习率过小无法跳出局部极小值。 4 RMSProp RMSProp(Root Mean Square Propagation)算法是对AdaGrad的改进引入momentum使得学习率下降更加平滑不易受到极端梯度的影响。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t\beta_{2}v_{t-1}(1-\beta_{2})g_{t}^2 vt​β2​vt−1​(1−β2​)gt2​ W t W t − 1 − α g t v t ϵ W_{t}W_{t-1}-\alpha \frac{g_{t}}{\sqrt{v_{t}}\epsilon} Wt​Wt−1​−αvt​ ​ϵgt​​ RMSRrop改进了AdaGrad也为Adamting算法提供了基础。 5 Adam Adam(Adaptive Momentum)算法身上明显沿用了RMSProp和mSGD的优点同时结合了动量与自适应学习率其同时使用了一阶动量和二阶动量使得Adam算法在收敛速度上优于RMSProp且具有较好的自适应性。 且针对一阶动量和二阶动量的初始化问题若初始化为0则需要很长时间才能累计达到一个基本的学习率因此Adam算法采用了一个随时间变化的补偿项使得一阶动量在刚开始时具有更大的值且在后期逐渐衰减。 公式如下 g t ∇ f ( x ; W t − 1 ) g_{t}\nabla f(x;W_{t-1}) gt​∇f(x;Wt−1​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t\beta_1m_{t-1}(1-\beta_1)g_{t} mt​β1​mt−1​(1−β1​)gt​ v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t\beta_2v_{t-1}(1-\beta_2)g_{t}^2 vt​β2​vt−1​(1−β2​)gt2​ m t ^ m t 1 − β 1 t \hat{m_t}\frac{m_t}{1-\beta_1^t} mt​^​1−β1t​mt​​ v t ^ v t 1 − β 2 t \hat{v_t}\frac{v_t}{1-\beta_2^t} vt​^​1−β2t​vt​​ W t W t − 1 − α m t ^ v t ^ ϵ W_{t}W_{t-1}-\alpha \frac{\hat{m_t}}{\sqrt{\hat{v_t}}\epsilon} Wt​Wt−1​−αvt​^​ ​ϵmt​^​​ 可以看到Adam同时采用了一阶动量和二阶动量并且采用了 1 1 β t \frac{1}{1\beta^t} 1βt1​的形式对于动量进行补偿从而有着极强的自适应能力是如今最常用的优化算法之一。 6 AdamW AdamW算法是对Adam算法的纠错其引入了权重衰减(weight decay)在过往的Adam算法中面对有着正则项的损失函数时往往对于正则项的处理为第一步 g t g_t gt​中 A d a m 处理 ( 错误 ) g t ∇ f ( x ; W t − 1 ) 2 λ W t − 1 Adam处理(错误)g_{t}\nabla f(x;W_{t-1})2\lambda W_{t-1} Adam处理(错误)gt​∇f(x;Wt−1​)2λWt−1​ 而AdamW算法中修正了这一错误将正则项在最后一步权重更新时进行处理即weight decay不参与动量计算公式为 W t W t − 1 − α ( m t ^ v t ^ ϵ 2 λ W t − 1 ) W_{t}W_{t-1}-\alpha (\frac{\hat{m_t}}{\sqrt{\hat{v_t}}\epsilon}2\lambda W_{t-1}) Wt​Wt−1​−α(vt​^​ ​ϵmt​^​​2λWt−1​) 7 总结 以上就是最常用的优化器SGD、mSGD、AdaGrad、RMSProp、Adam、AdamW的总结其中AdamW算法是Adam算法的改进SGD在CNN中还有不错的发挥但在Transformer中却效果一般如今Adam和AdamW算法在Transformer模型中有着更为广泛的应用如Llama、OPT、GPT等即使还有一些新的如Lion等优化器但大体上了解以上优化器就足够了。
http://www.pierceye.com/news/246787/

相关文章:

  • 南京网站建设 雷仁网上海网站制作网络推广方法
  • 营销型网站怎么做安阳县有多少个乡镇
  • 网站评论 设计天气网站建设
  • 潍坊市住房和城乡建设局网站哈尔滨最新发布公告
  • 白云网站 建设信科网络制作网站软件网站
  • 房产网站的建设想发布oa网站 需要备案吗
  • 帮别人做钓鱼网站吗海口网站建设过程
  • 广州php网站建设做网站的公司推荐
  • 百度一下建设银行网站首页网上购物都有哪些网站
  • 装饰公司营销型网站建设idc服务器租赁
  • 广告投放跟网站建设一样吗视频网站能备案吗
  • 哪些网站可以找到兼职做报表的学校网站建设价格明细表
  • 域名购买哪个网站好wordpress 转载插件
  • 网站百度提示风险网站开发 安全
  • 厦门网站建设建网站如何做一个网页项目
  • 锦州市网站建设腾讯企点怎么群发
  • 移动端网站开发哪家好总结格式模板
  • 东山县建设银行网站民宿网站开发的开题报告
  • 北京企业网站seo平台社交网站模板下载
  • 旅游做攻略用什么网站wordpress破解版
  • 杭州做购物网站第一次跑业务怎么找客户
  • 做软件好还是做网站好建筑公司年度工作总结报告
  • 陕西建设 节水 官方网站论坛怎样发帖推广
  • 二合一收款码免费制作网站营销型网站代理
  • 网站建设的技术方案模板淘宝客做网站链接
  • 梅州市网站制作页面简洁的导航网站
  • 绵阳房产网站建设自学广告设计该怎么入手
  • 火星wap建站宏大建设集团有限公司网站
  • 免费搭建业网站西地那非片有延时效果吗
  • 网站制作 手机用c 做的网站怎么打开