当前位置: 首页 > news >正文

买域名可以自己做网站吗泰州网站建设制作

买域名可以自己做网站吗,泰州网站建设制作,免费关键词挖掘网站,layui做的网站注#xff1a;书中对代码的讲解并不详细#xff0c;本文对很多细节做了详细注释。另外#xff0c;书上的源代码是在Jupyter Notebook上运行的#xff0c;较为分散#xff0c;本文将代码集中起来#xff0c;并加以完善#xff0c;全部用vscode在python 3.9.18下测试通过书中对代码的讲解并不详细本文对很多细节做了详细注释。另外书上的源代码是在Jupyter Notebook上运行的较为分散本文将代码集中起来并加以完善全部用vscode在python 3.9.18下测试通过同时对于书上部分章节也做了整合。 Chapter8 Recurrent Neural Networks 8.4 Recurrent Neural Networks 对 n n n元语法模型单词 x t x_t xt​在时间步 t t t的条件概率仅取决于前面 n − 1 n-1 n−1个单词。对于时间步 t − ( n − 1 ) t-(n-1) t−(n−1)之前的单词如果我们想将其可能产生的影响合并到 x t x_t xt​上需要增加 n n n然而模型参数的数量也会随之呈指数增长因为词表 V \mathcal{V} V需要存储 ∣ V ∣ n |\mathcal{V}|^n ∣V∣n个数字每个可能的序列对应一个概率值因此不如使用隐变量模型 P ( x t ∣ x t − 1 , … , x 1 ) ≈ P ( x t ∣ h t − 1 ) , P(x_t \mid x_{t-1}, \ldots, x_1) \approx P(x_t \mid h_{t-1}), P(xt​∣xt−1​,…,x1​)≈P(xt​∣ht−1​), 其中 h t − 1 h_{t-1} ht−1​是隐状态hidden state也称为隐藏变量hidden variable它存储了到时间步 t − 1 t-1 t−1的序列信息。通常我们可以基于当前输入 x t x_{t} xt​和先前隐状态 h t − 1 h_{t-1} ht−1​来计算时间步 t t t处的任何时间的隐状态 h t f ( x t , h t − 1 ) . h_t f(x_{t}, h_{t-1}). ht​f(xt​,ht−1​). 对于上式中的函数 f f f隐变量模型可以不是近似值因为 h t h_t ht​可以存储到目前为止观察到的所有数据然而这样的操作可能会使计算和存储的代价都变得昂贵。值得注意的是隐藏层和隐状态是两个不同的概念隐藏层是在从输入到输出的路径上以观测角度来理解的隐藏的层而隐状态则是在给定步骤所做的任何事情以技术角度来定义的输入并且这些状态只能通过先前时间步的数据来计算。 8.4.1 Neural Networks without Hidden States 对只有单隐藏层的多层感知机设隐藏层的激活函数为 ϕ \phi ϕ给定一个小批量样本 X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} X∈Rn×d其中批量大小为 n n n输入维度为 d d d则隐藏层的输出 H ∈ R n × h \mathbf{H} \in \mathbb{R}^{n \times h} H∈Rn×h通过下式计算 H ϕ ( X W x h b h ) . \mathbf{H} \phi(\mathbf{X} \mathbf{W}_{xh} \mathbf{b}_h). Hϕ(XWxh​bh​). 输出层由下式给出 O H W h q b q , \mathbf{O} \mathbf{H} \mathbf{W}_{hq} \mathbf{b}_q, OHWhq​bq​, 8.4.2 RNN with Hidden States 假设我们在时间步 t t t有小批量输入 X t ∈ R n × d \mathbf{X}_t \in \mathbb{R}^{n \times d} Xt​∈Rn×d换言之对于 n n n个序列样本的小批量 X t \mathbf{X}_t Xt​的每一行对应于来自该序列的时间步 t t t处的一个样本。用 H t ∈ R n × h \mathbf{H}_t \in \mathbb{R}^{n \times h} Ht​∈Rn×h表示时间步 t t t的隐藏变量计算公式如下 H t ϕ ( X t W x h H t − 1 W h h b h ) . (1) \mathbf{H}_t \phi(\mathbf{X}_t \mathbf{W}_{xh} \mathbf{H}_{t-1} \mathbf{W}_{hh} \mathbf{b}_h).\tag{1} Ht​ϕ(Xt​Wxh​Ht−1​Whh​bh​).(1) 由于在当前时间步中隐状态使用的定义与前一个时间步中使用的定义相同因此称式(1)的计算是循环的recurrent基于循环计算的隐状态神经网络称为循环神经网络recurrent neural network在循环神经网络中执行循环计算的层称为循环层recurrent layer。对于时间步 t t t输出层的输出类似于多层感知机中的计算 O t H t W h q b q . \mathbf{O}_t \mathbf{H}_t \mathbf{W}_{hq} \mathbf{b}_q. Ot​Ht​Whq​bq​. 循环神经网络的参数包括隐藏层的权重 W x h ∈ R d × h , W h h ∈ R h × h \mathbf{W}_{xh} \in \mathbb{R}^{d \times h}, \mathbf{W}_{hh} \in \mathbb{R}^{h \times h} Wxh​∈Rd×h,Whh​∈Rh×h和偏置 b h ∈ R 1 × h \mathbf{b}_h \in \mathbb{R}^{1 \times h} bh​∈R1×h以及输出层的权重 W h q ∈ R h × q \mathbf{W}_{hq} \in \mathbb{R}^{h \times q} Whq​∈Rh×q和偏置 b q ∈ R 1 × q \mathbf{b}_q \in \mathbb{R}^{1 \times q} bq​∈R1×q。值得一提的是即使在不同的时间步循环神经网络也总是使用这些模型参数因此循环神经网络的参数开销不会随着时间步的增加而增加。 下图展示了循环神经网络在三个相邻时间步的计算逻辑。 import torch from d2l import torch as d2l#循环计算部分的两种计算方法 X, W_xh torch.normal(0, 1, (3, 1)), torch.normal(0, 1, (1, 4)) H, W_hh torch.normal(0, 1, (3, 4)), torch.normal(0, 1, (4, 4)) torch.matmul(X, W_xh) torch.matmul(H, W_hh) torch.matmul(torch.cat((X, H), 1), torch.cat((W_xh, W_hh), 0))8.4.3 Character-Level Language Models Based on RNN 接下来介绍如何使用循环神经网络来构建语言模型。设小批量大小为1批量中的文本序列为machine。为了简化后续部分的训练考虑使用字符级语言模型character-level language model将文本词元化为字符而不是单词。下图演示了如何通过基于字符级语言建模的循环神经网络使用当前的和先前的字符预测下一个字符。 在实践中我们使用的批量大小为 n 1 n1 n1每个词元都由一个 d d d维向量表示。因此在时间步 t t t输入 X t \mathbf X_t Xt​将是一个 n × d n\times d n×d矩阵。 8.4.4 Perplexity 我们可以通过计算序列的似然概率来度量模型的质量然而这难以理解、难以比较因为较短的序列比较长的序列更有可能出现。为了解决这个问题我们可以运用信息论。如果想要压缩文本我们可以根据当前词元集预测的下一个词元。一个更好的语言模型应该能让我们更准确地预测下一个词元即它应该允许我们在压缩序列时花费更少的比特所以我们可以通过一个序列中所有的 n n n个词元的交叉熵损失的平均值来衡量模型的质量 1 n ∑ t 1 n − log ⁡ P ( x t ∣ x t − 1 , … , x 1 ) \frac{1}{n} \sum_{t1}^n -\log P(x_t \mid x_{t-1}, \ldots, x_1) n1​t1∑n​−logP(xt​∣xt−1​,…,x1​) 其中 P P P由语言模型给出 x t x_t xt​是在时间步 t t t从该序列中观察到的实际词元。这使得不同长度的文档的性能具有了可比性。困惑度perplexity是上式的指数 exp ⁡ ( − 1 n ∑ t 1 n log ⁡ P ( x t ∣ x t − 1 , … , x 1 ) ) . \exp\left(-\frac{1}{n} \sum_{t1}^n \log P(x_t \mid x_{t-1}, \ldots, x_1)\right). exp(−n1​t1∑n​logP(xt​∣xt−1​,…,x1​)). 困惑度的最好的理解是“下一个词元的实际选择数的调和平均数”。 在最好的情况下模型总是完美地估计标签词元的概率为1。在这种情况下模型的困惑度为1。在最坏的情况下模型总是预测标签词元的概率为0。在这种情况下困惑度是正无穷大。在基线上该模型的预测是词表的所有可用词元上的均匀分布。在这种情况下困惑度等于词表中唯一词元的数量。事实上如果我们在没有任何压缩的情况下存储序列这将是我们能做的最好的编码方式。因此这种方式提供了一个重要的上限而任何实际模型都必须超越这个上限。
http://www.pierceye.com/news/167576/

相关文章:

  • 来宾网站制作公司网站提交至google
  • 唐山网站建设怎么样专业的个人网站建设哪家
  • 成品网站w灬源码在线看重庆网站制作设计
  • 有没有在家做的兼职网站网站模板如何删除
  • 建站公司用的开源框架家纺网站模板
  • 做情网站甘肃省城乡城乡建设厅网站
  • 开发一个网站做公司内部用一个网站能用asp c
  • 设计师服务平台鱼巴士有哪些网站阜宁网站设计
  • 企业网站开发所需要的模块郴州网警
  • 案例网站网页设计实训报告结束语
  • 重庆网上房地产网站龙岩属于哪里
  • 高水平的番禺网站建设在天猫开店需要什么条件与费用
  • 给网站加个地图的代码wordpress 视频预览
  • 邯郸去哪做网站改版短网址生成器在线
  • 广州手机模板建站互联网公司薪资待遇
  • 网站建设的作用有哪些方面wordpress 首页描述
  • 汕头龙湖网站建设做网站用什么团建
  • 网站建站的技术解决方案高唐网站开发
  • dz网站收款即时到账怎么做的礼县建设局网站
  • 专业做轮胎的网站女同wordpress
  • 宁波公司网站首页优化商城网站前期seo应该怎么做
  • ui设计网站用red5做直播网站
  • 网站开发问题论文王老吉网站建设水平优点
  • 平安银行官方网站制作网站步骤
  • 做个网站好还是做淘宝好宁波网站制作好公司
  • 开发网站需要怎么做嘉兴快速建站合作
  • 阿里云建站后台建站网站降权怎么恢复
  • 天津河西做网站公司怎么设置网站的关键字
  • 做网站会提供源代码吗朝阳网站制作设计
  • 企业做网站找谁有什么建筑网站