当前位置: 首页 > news >正文

建设一个网站需要多少钱百度品牌专区怎么收费

建设一个网站需要多少钱,百度品牌专区怎么收费,网站开发需求单,哪些网站做推广好文章目录1. 神经网络概览2. 神经网络的表示3. 神经网络的输出4. 多样本向量化5. 激活函数6. 为什么需要 非线性激活函数7. 激活函数的导数8. 随机初始化作业参考#xff1a; 吴恩达视频课 深度学习笔记 1. 神经网络概览 xW[1]b[1]}⟹z[1]W[1]xb[1]⟹a[1]σ(z[1])\left.\begin… 文章目录1. 神经网络概览2. 神经网络的表示3. 神经网络的输出4. 多样本向量化5. 激活函数6. 为什么需要 非线性激活函数7. 激活函数的导数8. 随机初始化作业参考 吴恩达视频课 深度学习笔记 1. 神经网络概览 xW[1]b[1]}⟹z[1]W[1]xb[1]⟹a[1]σ(z[1])\left.\begin{array}{c}x \\ W^{[1]} \\ b^{[1]}\end{array}\right\} \Longrightarrow z^{[1]}W^{[1]} xb^{[1]} \Longrightarrow a^{[1]}\sigma\left(z^{[1]}\right)xW[1]b[1]​⎭⎬⎫​⟹z[1]W[1]xb[1]⟹a[1]σ(z[1]) 第一层根据输入计算 z[1]z^{[1]}z[1]然后计算第一层的输出 a[1]a^{[1]}a[1] a[1]σ(z[1])W[2]b[2]}⟹z[2]W[2]a[1]b[2]⟹a[2]σ(z[2])⟹L(a[2],y)\left.\begin{array}{r}a^{[1]}\sigma\left(z^{[1]}\right) \\ W^{[2]} \\ b^{[2]}\end{array}\right\} \Longrightarrow z^{[2]}W^{[2]} a^{[1]}b^{[2]} \Longrightarrow a^{[2]}\sigma\left(z^{[2]}\right)\\ \Longrightarrow L(a^{[2]}, y)a[1]σ(z[1])W[2]b[2]​⎭⎬⎫​⟹z[2]W[2]a[1]b[2]⟹a[2]σ(z[2])⟹L(a[2],y) 把第一层的输出 a[1]a^{[1]}a[1] 作为第二层的输入计算 z[2]z^{[2]}z[2]代入 sigmoid 函数得到输出 a[2]a^{[2]}a[2]进而计算损失函数 da[1]dσ(z[1])dW[2]db[2]}⟸dz[2]d(W[2]a[1]b[2])⟸da[2]dσ(z[2])⟸dL(a[2],y)\left.\begin{array}{rl}d a^{[1]}d \sigma\left(z^{[1]}\right) \\ d W^{[2]} \\ d b^{[2]}\end{array}\right\} \Longleftarrow d z^{[2]}d\left(W^{[2]} a^{[1]}b^{[2]}\right) \Longleftarrow d a^{[2]}d \sigma\left(z^{[2]}\right)\\ \Longleftarrow dL(a^{[2]}, y)da[1]dσ(z[1])dW[2]db[2]​⎭⎬⎫​⟸dz[2]d(W[2]a[1]b[2])⟸da[2]dσ(z[2])⟸dL(a[2],y) 还有反向的求导过程 2. 神经网络的表示 3. 神经网络的输出 每个神经网络单元的工作包括两部分计算 zzz然后根据激活函数sigmoid计算 σ(z)\sigma(z)σ(z) z1[1]w1[1]Txb1[1],a1[1]σ(z1[1])z2[1]w2[1]Txb2[1],a2[1]σ(z2[1])z3[1]w3[1]Txb3[1],a3[1]σ(z3[1])z4[1]w4[1]Txb4[1],a4[1]σ(z4[1])\begin{aligned} z_{1}^{[1]} w_{1}^{[1] T} xb_{1}^{[1]}, \quad a_{1}^{[1]}\sigma\left(z_{1}^{[1]}\right) \\ z_{2}^{[1]} w_{2}^{[1] T} xb_{2}^{[1]}, \quad a_{2}^{[1]}\sigma\left(z_{2}^{[1]}\right) \\ z_{3}^{[1]} w_{3}^{[1] T} xb_{3}^{[1]}, \quad a_{3}^{[1]}\sigma\left(z_{3}^{[1]}\right) \\ z_{4}^{[1]} w_{4}^{[1] T} xb_{4}^{[1]}, \quad a_{4}^{[1]}\sigma\left(z_{4}^{[1]}\right) \end{aligned}z1[1]​z2[1]​z3[1]​z4[1]​​w1[1]T​xb1[1]​,a1[1]​σ(z1[1]​)w2[1]T​xb2[1]​,a2[1]​σ(z2[1]​)w3[1]T​xb3[1]​,a3[1]​σ(z3[1]​)w4[1]T​xb4[1]​,a4[1]​σ(z4[1]​)​ [layer] 上标表示第几层下标表示该层的第几个节点 a[1][a1[1]a2[1]a3[1]a4[1]]σ(z[1])a^{[1]}\left[\begin{array}{c}a_{1}^{[1]} \\ a_{2}^{[1]} \\ a_{3}^{[1]} \\ a_{4}^{[1]}\end{array}\right]\sigma\left(z^{[1]}\right)a[1]⎣⎢⎢⎢⎡​a1[1]​a2[1]​a3[1]​a4[1]​​⎦⎥⎥⎥⎤​σ(z[1]) 输入一个样本的特征向量四行代码计算出一个简单神经网络的输出那么多个样本呢往下看 4. 多样本向量化 对于 m 个样本(i)表示第i个样本 z[1](i)W[1](i)x(i)b[1](i)a[1](i)σ(z[1](i))z[2](i)W[2](i)a[1](i)b[2](i)a[2](i)σ(z[2](i))\begin{aligned} z^{[1](i)} W^{[1](i)} x^{(i)}b^{[1](i)} \\ a^{[1](i)} \sigma\left(z^{[1](i)}\right) \\ z^{[2](i)} W^{[2](i)} a^{[1](i)}b^{[2](i)} \\ a^{[2](i)} \sigma\left(z^{[2](i)}\right) \end{aligned}z[1](i)a[1](i)z[2](i)a[2](i)​W[1](i)x(i)b[1](i)σ(z[1](i))W[2](i)a[1](i)b[2](i)σ(z[2](i))​ 为了向量化计算进行堆叠 x[⋮⋮⋮⋮x(1)x(2)⋯x(m)⋮⋮⋮⋮]x\left[\begin{array}{cccc}\vdots \vdots \vdots \vdots \\ x^{(1)} x^{(2)} \cdots x^{(m)} \\ \vdots \vdots \vdots \vdots\end{array}\right]x⎣⎢⎢⎡​⋮x(1)⋮​⋮x(2)⋮​⋮⋯⋮​⋮x(m)⋮​⎦⎥⎥⎤​ Z[1][⋮⋮⋮⋮z[1](1)z[1](2)⋯z[1](m)⋮⋮⋮⋮]Z^{[1]}\left[\begin{array}{cccc}\vdots \vdots \vdots \vdots \\ z^{[1](1)} z^{[1](2)} \cdots z^{[1](m)} \\ \vdots \vdots \vdots \vdots\end{array}\right]Z[1]⎣⎢⎢⎡​⋮z[1](1)⋮​⋮z[1](2)⋮​⋮⋯⋮​⋮z[1](m)⋮​⎦⎥⎥⎤​ A[1][⋮⋮⋮⋮α[1](1)α[1](2)⋯α[1](m)⋮⋮⋮⋮]A^{[1]}\left[\begin{array}{cccc}\vdots \vdots \vdots \vdots \\ \alpha^{[1](1)} \alpha^{[1](2)} \cdots \alpha^{[1](m)} \\ \vdots \vdots \vdots \vdots\end{array}\right]A[1]⎣⎢⎢⎡​⋮α[1](1)⋮​⋮α[1](2)⋮​⋮⋯⋮​⋮α[1](m)⋮​⎦⎥⎥⎤​ z[1](i)W[1](i)x(i)b[1]α[1](i)σ(z[1](i))z[2](i)W[2](i)α[1](i)b[2]α[2](i)σ(z[2](i))}⟹{A[1]σ(z[1])z[2]W[2]A[1]b[2]A[2]σ(z[2])\left.\begin{array}{c}z^{[1](i)}W^{[1](i)} x^{(i)}b^{[1]} \\ \alpha^{[1](i)}\sigma\left(z^{[1](i)}\right) \\ z^{[2](i)W^{[2](i)} \alpha^{[1](i)}b^{[2]}} \\ \alpha^{[2](i)}\sigma\left(z^{[2](i)}\right)\end{array}\right\} \Longrightarrow \left\{ \begin{array}{c} A^{[1]}\sigma\left(z^{[1]}\right) \\ z^{[2]}W^{[2]} A^{[1]}b^{[2]} \\ A^{[2]}\sigma\left(z^{[2]}\right)\end{array}\right.z[1](i)W[1](i)x(i)b[1]α[1](i)σ(z[1](i))z[2](i)W[2](i)α[1](i)b[2]α[2](i)σ(z[2](i))​⎭⎪⎪⎬⎪⎪⎫​⟹⎩⎨⎧​A[1]σ(z[1])z[2]W[2]A[1]b[2]A[2]σ(z[2])​ 列向看对应于不同的特征就是神经网络中的该层的各个节点 行向看对应于不同的训练样本 5. 激活函数 tanh激活函数是 sigmoid的平移伸缩结果其效果在所有场合都优于sigmoidtanh几乎适合所有场合例外是二分类问题的输出层想让结果介于 01之间所以使用 sigmoid 激活函数 tanh、 sigmoid两者的缺点 在特别大或者特别小 zzz 的情况下导数的梯度 或者 函数的斜率会变得特别小最后就会接近于0导致降低梯度下降的速度。 修正线性单元的函数ReLu 激活函数的选择经验 如果输出是0、1值二分类问题输出层 选择sigmoid函数其它所有单元都选择Relu函数 隐藏层通常会使用Relu激活函数。有时也会使用tanh激活函数但Relu的一个缺点是当是负值的时候导数等于0 另一个版本的Relu被称为Leaky Relu当是负值时这个函数的值不等于0而是轻微的倾斜这个函数通常比Relu激活函数效果要好尽管在实际中Leaky ReLu使用的并不多 ReLu、Leaky ReLu的优点 sigmoid函数需要进行浮点四则运算在实践中使用ReLu激活函数学习的更快 sigmoid和tanh函数的导数在正负饱和区的梯度接近于0这会造成梯度弥散而Relu和Leaky ReLu函数大于0部分都为常数不会产生梯度弥散现象。(Relu进入负半区的时候梯度为0神经元此时不会训练产生所谓的稀疏性而Leaky ReLu不会有这问题) 虽然ReLu的梯度一半都是0但是有足够的隐藏层使得 zzz 值大于0所以对大多数的训练数据来说学习过程仍然可以很快 6. 为什么需要 非线性激活函数 线性隐藏层一点用也没有因为线性函数的组合本身就是线性函数所以除非你引入非线性否则你无法计算出更有趣的函数即使网络层数再多也不行 不能在隐藏层用线性激活函数可以用ReLU、tanh、leaky ReLU或者其他的非线性激活函数唯一可以用 线性激活函数的通常就是输出层在隐藏层使用 线性激活函数非常少见 7. 激活函数的导数 sigmoid ag(z);g′(z)ddzg(z)a(1−a)ag(z) ;\quad g^{\prime}(z)\frac{d}{d z} g(z)a(1-a)ag(z);g′(z)dzd​g(z)a(1−a)tanh ag(z);g′(z)ddzg(z)1−a2ag(z) ; \quad g^{\prime}(z)\frac{d}{d z} g(z)1-a^2ag(z);g′(z)dzd​g(z)1−a2 ReLu Rectified Linear Unit g′(z){0if z01if z0undefinedif z0g^{\prime}(z)\left\{\begin{array}{ll}0 \text { if } z0 \\ 1 \text { if } z0 \\ u n d e f i n e d \text { if } z0\end{array}\right.g′(z)⎩⎨⎧​01undefined​ if z0 if z0 if z0​ z0z0z0 时可以让导数为 0或者 1 Leaky ReLU Leaky linear unit g′(z){0.01if z01if z0undefinedif z0g^{\prime}(z)\left\{\begin{array}{ll}0.01 \text { if } z0 \\ 1 \text { if } z0 \\ u n d e f i n e d \text { if } z0\end{array}\right.g′(z)⎩⎨⎧​0.011undefined​ if z0 if z0 if z0​ z0z0z0 时可以让导数为 0.01或者 1 8. 随机初始化 对于一个神经网络如果你把权重或者参数都初始化为0那么梯度下降将不会起作用。 W[1]np.random.randn(2,2)∗0.01,b[1]np.zeros⁡((2,1))W[2]np.random.randn(2,2)∗0.01,b[2]0\begin{aligned} W^{[1]} n p . \text {random.randn}(2,2) * 0.01, \quad b^{[1]}n p . z \operatorname{eros}((2,1)) \\ W^{[2]} n p . \text {random.randn}(2,2) * 0.01, \quad b^{[2]}0 \end{aligned}W[1]W[2]​np.random.randn(2,2)∗0.01,b[1]np.zeros((2,1))np.random.randn(2,2)∗0.01,b[2]0​ 常数为什么是0.01而不是100或者1000sigmoid/tanh 激活函数在很平坦的地方学习非常慢 当你训练一个非常非常深的神经网络你可能要试试0.01以外的常数 作业 01.神经网络和深度学习 W3.浅层神经网络作业带一个隐藏层的神经网络 我的CSDN博客地址 https://michael.blog.csdn.net/ 长按或扫码关注我的公众号Michael阿明一起加油、一起学习进步
http://www.pierceye.com/news/220645/

相关文章:

  • 邵阳做网站哪个公司好接推广网站
  • 媒体网站模版网站添加提醒
  • 平度网站建设公司电话制作动画网站模板
  • 教育手机网站开发郑州网站修改建设
  • 查询网站入口长春网站排名推广
  • 中国建设工程造价网站丰润网站建设
  • 电子项目外包网站可以发描文本的网站
  • 论文中引用网站中wordpress外汇行情
  • 宁城网站建设磁力宝
  • 找人做彩票网站多少钱茶叶网站flash模板
  • 海口制作网站企业深圳网站建设seo推广优化
  • 东莞建设质监网站建设网站方式有哪些
  • 中学网站建设书最好的网站设计开发公司
  • 下载网站源码聊城seo培训
  • 专用于做网站公司推广的方式有哪些
  • 网站如何规划c 手机网站开发模板
  • 哈尔滨网站建设优化公司室内设计网站
  • 厚街做网站的公司wordpress出现百度抓取404页面
  • 四川南充网站建设西安网站建设推广优化
  • 做企业门户网站都连连电商网站开发公司
  • 微商城网站建设价位公司要想做个网站这么弄
  • wordpress文章所属栏目关键词排名优化易下拉教程
  • 网站主题咋做免费网页模板素材网站
  • 网站建设对旅游意义公众号运营策划
  • 成都专业网站制作关于论文网站开发参考文献
  • 免费做代理郑州seo招聘
  • 做网站系统更新后wordpress
  • 兰州网站建站2024免费网站推广
  • 深圳模板建站企业网站出现搜索
  • app开发网站模板该网站正在紧急升级维护中