当前位置: 首页 > news >正文

网站建设,h5,小程序明珠信息港网站建设专家

网站建设,h5,小程序,明珠信息港网站建设专家,精品资源共享课网站建设,绍兴做网站公司哪家好正向传播与反向传播 1. 正向传播 正向传播是指对神经网络沿着从输入层到输出层的顺序#xff0c;依次计算并存储模型的中间变量#xff08;包括输出#xff09;。 假设输入是一个特征为x∈Rd\boldsymbol{x} \in \mathbb{R}^dx∈Rd的样本#xff0c;且不考虑偏差项#x…正向传播与反向传播 1. 正向传播 正向传播是指对神经网络沿着从输入层到输出层的顺序依次计算并存储模型的中间变量包括输出。 假设输入是一个特征为x∈Rd\boldsymbol{x} \in \mathbb{R}^dx∈Rd的样本且不考虑偏差项那么中间变量 zW(1)x,\boldsymbol{z} \boldsymbol{W}^{(1)} \boldsymbol{x},zW(1)x, 矩阵相乘 其中W(1)∈Rh×d\boldsymbol{W}^{(1)} \in \mathbb{R}^{h \times d}W(1)∈Rh×d是隐藏层的权重参数。把中间变量z∈Rh\boldsymbol{z} \in \mathbb{R}^hz∈Rh输入按元素运算的激活函数ϕ\phiϕ后将得到向量长度为hhh的隐藏层变量 hϕ(z).\boldsymbol{h} \phi (\boldsymbol{z}).hϕ(z). 隐藏层变量h\boldsymbol{h}h也是一个中间变量。假设输出层参数只有权重W(2)∈Rq×h\boldsymbol{W}^{(2)} \in \mathbb{R}^{q \times h}W(2)∈Rq×h可以得到向量长度为qqq的输出层变量 oW(2)h.\boldsymbol{o} \boldsymbol{W}^{(2)} \boldsymbol{h}.oW(2)h. 假设损失函数为ℓ\ellℓ且样本标签为yyy可以计算出单个数据样本的损失项 Lℓ(o,y).L \ell(\boldsymbol{o}, y).Lℓ(o,y). 根据L2L_2L2​范数正则化的定义给定超参数λ\lambdaλ正则化项即超参数λ\lambdaλ即表示惩罚的力度 sλ2(∣W(1)∣F2∣W(2)∣F2),s \frac{\lambda}{2} \left(|\boldsymbol{W}^{(1)}|_F^2 |\boldsymbol{W}^{(2)}|_F^2\right),s2λ​(∣W(1)∣F2​∣W(2)∣F2​), 其中矩阵的Frobenius范数等价于将矩阵变平为向量后计算L2L_2L2​范数。最终模型在给定的数据样本上带正则化的损失为 JLs.J L s.JLs. 我们将JJJ称为有关给定数据样本的目标函数。 2. 反向传播 反向传播用于计算神经网络中的参数梯度。反向传播利用微积分中的链式法则沿着从输出层到输入层的顺序进行依次计算目标函数有关神经网络各层的中间变量以及参数的梯度。 依据链式法则我们可以知道 ∂J∂oprod(∂J∂L,∂L∂o)∂L∂o.\frac{\partial J}{\partial \boldsymbol{o}} \text{prod}\left(\frac{\partial J}{\partial L}, \frac{\partial L}{\partial \boldsymbol{o}}\right) \frac{\partial L}{\partial \boldsymbol{o}}. ∂o∂J​prod(∂L∂J​,∂o∂L​)∂o∂L​. (∂J∂L1,∂J∂s1)\left( \frac{\partial J}{\partial L} 1, \quad \frac{\partial J}{\partial s} 1\right)(∂L∂J​1,∂s∂J​1) 其中prod\text{prod}prod运算符将根据两个输入的形状在必要的操作如转置和互换输入位置后对两个输入做乘法。 ∂J∂W(2)prod(∂J∂o,∂o∂W(2))prod(∂J∂s,∂s∂W(2))∂J∂oh⊤λW(2)\frac{\partial J}{\partial \boldsymbol{W}^{(2)}} \text{prod}\left(\frac{\partial J}{\partial \boldsymbol{o}}, \frac{\partial \boldsymbol{o}}{\partial \boldsymbol{W}^{(2)}}\right) \text{prod}\left(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial \boldsymbol{W}^{(2)}}\right) \frac{\partial J}{\partial \boldsymbol{o}} \boldsymbol{h}^\top \lambda \boldsymbol{W}^{(2)} ∂W(2)∂J​prod(∂o∂J​,∂W(2)∂o​)prod(∂s∂J​,∂W(2)∂s​)∂o∂J​h⊤λW(2) 其中 (∂s∂W(1)λW(1),∂s∂W(2)λW(2))\left(\frac{\partial s}{\partial \boldsymbol{W}^{(1)}} \lambda \boldsymbol{W}^{(1)},\quad\frac{\partial s}{\partial \boldsymbol{W}^{(2)}} \lambda \boldsymbol{W}^{(2)}\right)(∂W(1)∂s​λW(1),∂W(2)∂s​λW(2)) 还有 ∂J∂W(2)prod(∂J∂o,∂o∂W(2))prod(∂J∂s,∂s∂W(2))∂J∂oh⊤λW(2)\frac{\partial J}{\partial \boldsymbol{W}^{(2)}} \text{prod}\left(\frac{\partial J}{\partial \boldsymbol{o}}, \frac{\partial \boldsymbol{o}}{\partial \boldsymbol{W}^{(2)}}\right) \text{prod}\left(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial \boldsymbol{W}^{(2)}}\right) \frac{\partial J}{\partial \boldsymbol{o}} \boldsymbol{h}^\top \lambda \boldsymbol{W}^{(2)} ∂W(2)∂J​prod(∂o∂J​,∂W(2)∂o​)prod(∂s∂J​,∂W(2)∂s​)∂o∂J​h⊤λW(2) ∂J∂hprod(∂J∂o,∂o∂h)W(2)⊤∂J∂o\frac{\partial J}{\partial \boldsymbol{h}} \text{prod}\left(\frac{\partial J}{\partial \boldsymbol{o}}, \frac{\partial \boldsymbol{o}}{\partial \boldsymbol{h}}\right) {\boldsymbol{W}^{(2)}}^\top \frac{\partial J}{\partial \boldsymbol{o}} ∂h∂J​prod(∂o∂J​,∂h∂o​)W(2)⊤∂o∂J​ ∂J∂zprod(∂J∂h,∂h∂z)∂J∂h⊙ϕ′(z)\frac{\partial J}{\partial \boldsymbol{z}} \text{prod}\left(\frac{\partial J}{\partial \boldsymbol{h}}, \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{z}}\right) \frac{\partial J}{\partial \boldsymbol{h}} \odot \phi\left(\boldsymbol{z}\right) ∂z∂J​prod(∂h∂J​,∂z∂h​)∂h∂J​⊙ϕ′(z) 所以可以得到 ∂J∂W(1)prod(∂J∂z,∂z∂W(1))prod(∂J∂s,∂s∂W(1))∂J∂zx⊤λW(1)\frac{\partial J}{\partial \boldsymbol{W}^{(1)}} \text{prod}\left(\frac{\partial J}{\partial \boldsymbol{z}}, \frac{\partial \boldsymbol{z}}{\partial \boldsymbol{W}^{(1)}}\right) \text{prod}\left(\frac{\partial J}{\partial s}, \frac{\partial s}{\partial \boldsymbol{W}^{(1)}}\right) \frac{\partial J}{\partial \boldsymbol{z}} \boldsymbol{x}^\top \lambda \boldsymbol{W}^{(1)}∂W(1)∂J​prod(∂z∂J​,∂W(1)∂z​)prod(∂s∂J​,∂W(1)∂s​)∂z∂J​x⊤λW(1) 在模型参数初始化完成后需要交替地进行正向传播和反向传播并根据反向传播计算的梯度迭代模型参数。在反向传播中使用了正向传播中计算得到的中间变量来避免重复计算同时这个复用也导致正向传播结束后不能立即释放中间变量内存。这也是训练要比预测占用更多内存的一个重要原因。这些中间变量的个数大体上与网络层数线性相关每个变量的大小跟批量大小和输入个数也是线性相关的这是导致较深的神经网络使用较大批量训练时更容易超内存的主要原因。
http://www.pierceye.com/news/897988/

相关文章:

  • 揭阳市建设发展总公司网站自己做的视频网站如何赚钱
  • 泉州自助建站软件天眼查在线查询官网
  • 网站建设书模板校本教研网站建设方案
  • 经销商自己做网站合适吗彩虹网站建设
  • 网站新闻编辑怎么做网站开发人员 组织架构
  • 重庆网站seo诊断婚纱摄影网站模板下载
  • 老板合作网站开发宁波网站建设慕枫科技
  • 做外贸都有哪些好网站河北沙河市规划局或建设局网站
  • 网站设计建设维护专门做网站的app
  • 哈尔滨建站模板大全慈溪高端网站设计
  • 升阳广州做网站公司门户网站建设存在的问题和差距
  • 杭州建设行业网站做兼职网站
  • 连云港市城乡建设管理局网站wordpress怎么设置
  • 如何找做网站的公司网站建站哪家公司好
  • 网站建设性价比高珠海网站建设工程
  • 设计公司网站需要什么条件网站建设与管理课程代码
  • 局域网网站怎么做软件定制开发的发展前景
  • 门户网站关键词旅游网站开发报价单
  • 哪个网站做视频收益高社区服务呼叫系统 网站的建设
  • 网站是如何制作的工厂 电商网站建设
  • 展览设计网站有哪些南海网站智能推广
  • 贵阳做网站需要多少钱凡科网站建设完成下载下载器
  • 虚拟机上做钓鱼网站照片网站怎么做
  • 建网页和建网站编程猫少儿编程app下载
  • 网站首页介绍cms系统架构
  • 建设厅的工程造价网站东莞网站优化方式
  • 微信网站模板源码wordpress如何编辑
  • 做网站p图工具公司网站建设教程
  • 网站 选项卡 图标苏州网站网页设计
  • 柳州网站建设优化推广wordpress 不显示菜单