上海医院网站建设,南宁网站建设贴吧,房山网站建设怎么样,公司简介展板图片embedding到一个低维向量#xff0c;但是需要回到onehot高维表示#xff0c;所以大部分填词游戏最后都需要加上一个MLP接头。
word2vec如此简单的结构#xff0c;学习到的是embedding
基于计数的统计方法和word2vec融合就形成了glove词嵌入模型
总结#xff1a;通过各种…embedding到一个低维向量但是需要回到onehot高维表示所以大部分填词游戏最后都需要加上一个MLP接头。
word2vec如此简单的结构学习到的是embedding
基于计数的统计方法和word2vec融合就形成了glove词嵌入模型
总结通过各种填词游戏训练最后得到好的embedding 使用负采样代替大矩阵乘法softmax的大量计算抽列sigmoid
负采样使用二分类拟合多分类 只计算出一个值即可接上sigmoid计算二分类loss什么垃圾
因此所有的多分类都可以使用二分类简化因为softmax和sigmoid本质也一样
负采样对负例样本进行采样比如一个100个-代替一个999999个-
负采样对语料库中的高频词进行直观上合理但是数学上为什么合理 一般word embedding和特定任务的训练是分开的即迁移学习但是也可以一起。 woman-queenman-?这种问题就是来评估embedding效果的直接vec-vec查看即可
skip-gram比CBOW好难以直观理解 RNN天然携带position信息还可以处理无限长的序列(RNN是语言模型即计算条件概率P(next|past1, past2, past3)进而计算P(sentence))
transformer由于attention算法没有考虑位置信息所以需要position embedding 关于RNN的一切
RNN只是个数据融合器/有限状态机顾名思义隐含向量叫做状态保存了前文综合信息仅此而已。
做预测还需要接上奶嘴MLP。
embedding RNN 和奶嘴MLP网络是割裂的三个层次积木拼在一起。
所以RNNLSTM只是一个信息融合机和预测下一个词等应用完全无关。
没有什么teacher forcing问题。 hidden hidden.detach()让hidden忘掉了他是从哪里计算得来的于是再使用hidden进行运算hidden就会被当作新的独立变量它的祖先也就得不到梯度更新了。truncated BPTT 预测下一个词的模型的评价指标困惑度e^Loss困惑度本质就是loss罢了 困惑度的物理意义困惑度表示“概率的倒数”正确标签对应的概率倒数也可以解释为分叉度即有几个分叉选择 RNN为什么不擅长长时记忆答BPTT会发生梯度消失/爆炸
RNN通过向过去传递梯度学习长时依赖关系但是中间发生了梯度消失/爆炸于是学不到长期关系。RNN如何学习长期关系答通过向很长时间以前的时刻传递梯度
梯度消失原因1.反复经过激活函数tanh两边都趋于0所以反向经过一次就会梯度变小
梯度消失/爆炸的原因2.反向传播每个时间RNN层中的梯度都乘以相同的权重矩阵于是爆炸/消失 梯度爆炸的应对策略梯度裁剪
梯度消失的解决方案LSTM
原因化矩阵乘积为哈达玛元素乘积且每次向量不一样不会出现累积效应