当前位置：首页 > news >正文

深圳网站设计九曲南宁青秀网站建设

news 2025/11/16 18:01:20

深圳网站设计九曲,南宁青秀网站建设,微信微网站,同一个服务器做两个网站清华大学驭风计划课程链接学堂在线 - 精品在线课程学习平台 (xuetangx.com) 代码和报告均为本人自己实现#xff08;实验满分#xff09;#xff0c;只展示主要任务实验结果#xff0c;如果需要详细的实验报告或者代码可以私聊博主有任何疑问或者问题#xff0c;也欢…清华大学驭风计划课程链接学堂在线 - 精品在线课程学习平台 (xuetangx.com) 代码和报告均为本人自己实现实验满分只展示主要任务实验结果如果需要详细的实验报告或者代码可以私聊博主有任何疑问或者问题也欢迎私信博主大家可以相互讨论交流哟~~ 案例简介 seq2seq是神经机器翻译的主流框架如今的商用机器翻译系统大多都基于其构建在本案例中我们将使用由NIST提供的中英文本数据训练一个简单的中英翻译系统在实践中学习seq2seq的具体细节以及了解机器翻译的基本技术。 seq2seq模型从根本上讲机器翻译需要将输入序列源语言中的单词映射到输出序列目标语言中的单词。正如我们在课堂上讨论的那样递归神经网络RNN可有效处理此类顺序数据。机器翻译中的一个重要难题是输入和输出序列之间没有一对一的对应关系。即序列通常具有不同的长度并且单词对应可以是不平凡的例如彼此直接翻译的单词可能不会以相同的顺序出现。为了解决这个问题我们将使用一种更灵活的架构称为seq2seq模型。该模型由编码器和解码器两部分组成它们都是RNN。编码器将源语言中的单词序列作为输入并输出RNN层的最终隐藏状态。解码器与之类似除了它还具有一个附加的全连接层带有softmax激活用于定义翻译中下一个单词的概率分布。以此方式解码器本质上用作目标语言的神经语言模型。关键区别在于解码器将编码器的输出用作其初始隐藏状态而不是零向量。数据和代码本案例使用了一个小规模的中英平行语料数据并提供了一个简单的seq2seq模型实现包括数据的预处理、模型的训练、以及简单的评测。评分要求分数由两部分组成各占50%。第一部分得分为对于简单seq2seq模型的改进并撰写实验报告改进方式多样下一小节会给出一些可能的改进方向。第二分部得分为测试数据的评测结果我们将给出一个中文测试数据集test.txt其中每一行为一句中文文本需要同学提交模型做出的对应翻译结果助教将对于大家的提交结果统一机器评测并给出分数。请以附件形式提交实验报告改进方向初级改进将RNN模型替换成GRU或者LSTM 使用双向的encoder获得更好的源语言表示对于现有超参数进行调优这里建议划分出一个开发集在开发集上进行grid search并且在报告中汇报开发集结果引入更多的训练语料如果尝试复杂模型更多的训练数据将非常关键进阶改进使用注意力机制注意力机制是一个很重要的NMT技术建议大家优先进行这方面的尝试具体有许多种变体可以参考这个综述在Encoder部分使用了字级别的中文输入可以考虑加入分词的结果并且将Encoder的词向量替换为预训练过的词向量获得更好的性能复杂改进使用beam search的技术来帮助更好的解码对于beam-width进行调优将RNN替换为Transformer模型以及最新的改进变体实验结果 1首先运行原代码,得出结果从 loss 图来看最低达到 3.9 通过翻译的结果对比原始代码的翻译效果几乎没有我认为 RNN 在这次文本翻译中表现较差主要因其难以捕捉长期依赖性、容易出现梯度问题、记忆容量有限、缺乏并行性而造成的。 2将 RNN 模型替换成 GRU 和 LSTM 在模型替换为 GRU 的时候明显 loss 下降了更多而且翻译效果也相对于原来 RNN模型有一定提升。比如句子‘为什么我一直学习不好英语 ’ GRU 模型的翻译为why is i speak english english ?而 RNN 模型的翻译为 why do you want to go ? 可以看出虽然两者都不完全对但是 GRU 模型的翻译很接近正确答案了而 RNN 的翻译基本不沾边所以在这次 RNN 模型替换为 GRU 的实验中效果明显提升。改进为 LSTM 从 loss 图来看比起原始的 RNN 有明显更多的下降从翻译效果来看也是如此。比如句子‘今天天气怎么样’在 LSTM 模型的翻译是 what s the weather today ? 而在 RNN 模型的翻译是 what is you ? to ? 。明显 LSTM 完全翻译正确而 RNN 的翻译压根不搭边所以这次 RNN 模型替换成 LSTM 的效果有明显提升。 RNN 模型替换成 GRU 和 LSTM 的总结 GRU 和 LSTM 相对于 RNN 在这次文本翻译任务中翻译效果更好的原因我认为主要包括以下几点处理长距离依赖关系 RNN 在处理长句子或序列时由于梯度消失 / 爆炸的问题往往难以捕捉长距离的依赖关系。GRU 和 LSTM 引入了门控机制可以更有效地处理长距离依赖因此在翻译中能够更好地捕捉句子中的语法和语义信息。防止梯度消失 GRU 和 LSTM 通过门控单元如遗忘门和更新门可以选择性地记住或忘记先前的信息。这有助于减轻梯度消失问题使模型能够在训练期间更好地传播梯度从而学习到更好的参数。处理序列中的不同时间尺度 GRU 和 LSTM 能够处理不同时间尺度的信息因为它们在每个时间步都有不同的门控单元来控制信息流。这使得它们可以更好地适应不同长度和复杂度的句子而 RNN 不太适合这种任务。更好的记忆能力 GRU 和 LSTM 通过细致的控制信息流具有更好的记忆能力可以更好地处理文本中的长距离依赖和序列中的重要信息。综上所述 GRU 和 LSTM 相对于 RNN 在文本翻译中表现更好因为它们克服了RNN 的一些限制提供了更好的建模能力更好地处理了长句子中的依赖关系因此在这次文本翻译的实验中更有效 3,使用双向的 encoder 获得更好的源语言表示这里我完成了双向的 GRU 和双向的 LSTM 从 loss 图可以看出 loss 明显比原来单向的 GRU 的时候下降更多了最低达到了2.8并且从翻页的结果来看也明显优于原来单向的 GRU 比如在我不能帮你了。翻译成了 i can t help you 而在单向的 GRU 中翻译成了 i can t you you you you 。有明显的效果提升我认为造成这样的原因是因为双向的 GRU 能够同时利用输入序列的前向和后向信息提供更丰富的上下文信息缓解梯度消失问题增加模型的建模能力以及更好地表达输入序列的结构。双向的 LSTM 从 loss 图来看相对于单向的 LSTM 的 loss 下降了更多最低达到 2.95 然后再从翻译结果来看也比单向的 LSTM 要更好一点比如句子‘他不会说法语也不会说英语’单向 LSTM 的翻译结果是 he can t speak speak english 而双向的 LSTM的翻译是 he can t speak french french english . 虽然结果都与实际结果有差距但是也可以看出双向的 LSTM 翻译的更好因为它翻译出来法语英语。而单向的LSTM 只翻译出英语这就是差距。使用双向的 encoder 获得更好的源语言表示结果总结双向 encoder 在这次文本翻译的实验中表现更好因为它具有更好的上下文理解和信息获取能力。以下是我认为的一些原因双向信息获取双向编码器同时处理输入序列的前向和后向信息。这意味着对于每个输入位置它能够考虑其之前和之后的单词从而获得更全面的上下文信息。这对于理解句子中的复杂依赖关系非常重要特别是在涉及长距离依赖的任务中。更好的信息传递在双向编码中前向和后向信息通过不同的隐藏状态进行编码然后合并在一起。这种信息合并允许模型更好地捕捉不同方向上的相关信息有助于更好地表示输入序列。降低信息丢失单向编码器在处理每个单词时只能看到之前的单词这可能导致信息丢失尤其是在句子末尾。双向编码器通过处理输入的两个方向有助于减少这种信息丢失。总之双向 encoder 的能力更强能够更好地捕捉输入序列的语法和语义信息使其的翻译效果比单向 encoder 的更好。 4实现注意力机制实现点积注意力加法注意力乘法注意力在这里我使用 GRU 和注意力机制共同实现因为在前面的实验中GRU 的运行时间和得出的 loss 图都比 LSTM 要更低且两者翻译的结果差别不大的情况下选择 GRU 更适合此次的文本翻译因为 GRU 在于其更简洁的结构和较少的参数量使得模型更具计算效率运行时间更快和抗过拟合能力。此外GRU 还能够有效地处理长序列对于文本翻译中的长句子表现更出色。并且在这次运行中我选择的是点积注意力运算简单速度更快运行结果首先从 loss 图来看最终的下降达到的值比没有加注意力机制的 GRU 要稍微低一点差 0.1 左右从实际的翻译效果看加了注意力机制的更好比如句子今天天气怎么样没有加注意力机制的 GRU 翻译结果是 how s it weather today today而加了注意力机制的 GRU 翻译结果为 what s the weather like today ? 可以说是完全正确。再比如句子‘她喜欢吃草莓味的酸奶’普通 GRU 的翻译结果是 she likes to eat sushi意思是她喜欢吃寿司而加了注意力机制的 GRU 的翻译结果是 she likes to drink milk 意思是她喜欢喝牛奶。明显可以看出加了注意力机制的 GRU 翻译结果更接近真实的意思。注意力机制性能提升总结注意力机制 GRU 的翻译效果比不加注意力机制的 GRU 要好的原因我认为主要有以下两点处理长序列 RNN 在处理长序列时可能会出现梯度消失或爆炸的问题导致信息丢失。注意力机制允许模型根据需要选择性地关注输入序列的不同部分从而更好地捕捉长距离的依赖关系提高性能。提高记忆能力 GRU 本身是一种改进的 RNN 单元它具有较长的记忆窗口但仍然可能无法处理非常长的序列。注意力机制增加了模型的记忆能力因为它可以在生成每个输出时选择性地关注与当前任务相关的信息。 5 对于现有超参数进行调优这里划分出一个开发集在开发集上进行 grid search 并且报告结果最终组合所有的最佳参数来进行训练结果如下学习率 0.0005 层数 2 注意力种类加法注意力 Dropout 概率值 :0.05 强制学习概率 1 不管是从 loss 来看还是翻译结果来看都比之前的好不少这也是我能调出的最好翻译效果。比如句子汤姆不是一个好司机翻译是 tom isn t a good swimmer .意思是汤姆不是一个好游泳员已经很接近正确答案而在之前的改进中这个翻译几乎不沾边还有其他句子也有类似情况最终的超参数调整的改进相对来说还是比较成功的提升了句子翻译的效果。

查看全文

http://www.pierceye.com/news/537596/