对 Sequence to Sequence Learning with Neural Networks的理解

时间:2020-08-03 11:21:59 来源:

【摘要】 对 Sequence to Sequence Learning with Neural Networks的理解考必过小编为大家整理了关于对 Sequence to Sequence Learning with Neural Networks的理解的信息,希望可以帮助到大家!

对 Sequence to Sequence Learning with Neural Networks的理解

标签:图像   实现   googl   https   性能提升   深度   embed   随机   获得   

零、背景及引言

本文是对Sequence to Sequence Learning with Neural Networks文章阅读后的总结。
在不同的学习任务中,传统深度神经网络(DNN)是表现不错的强力模型,如在图像分类、语音识别领域,但DNN由于不能适应输入输出不固定的情况,导致其不能够用于序列到序列的映射任务。 在2014年,Google的三位作者提出基于端到端的序列到序列模型:本质上是由2个4层的LSTM来分别构成编码器和解码器。实验结果表明:在机器翻译领域,达到了SOTA效果,好于传统的统计机器翻译(SMT)。

一、模型及训练

1.1 模型介绍

普通RNN能够有效捕捉序列数据(如文本数据)的语义信息,并映射生成新的序列数据,但RNN对长距离依赖表现不好,同时由于训练时存在梯度弥散和梯度爆炸而难以训练,因此作者使用LSTM代替RNN。
论文中的Seq2Seq模型是由2个4层的LSTM来分别构成编码器和解码器。训练时对对每个句子结尾加入标志 ,通过多层LSTM将源句子(将要被翻译的句子)映射为固定维度(原文用1000维)的向量,并使用另一个多层LSTM将该向量映射为目标句子(待翻译的句子),源句子和目标句子的长度可能不一样。其网络架构图如下图:

1.2 数据集及评价指标

数据集使用WMT‘14 dataset,是英语到法语翻译,文中表示训练了12M的句子,共包括348M个法语词汇和304M个英语词汇,其中涉及最常用的unique英语单词160000个及unique法语单词80000个,对于词表外的单词使用表示

1.3 输入句子反转

原文作者发现使用源句子在训练时,将句子的顺序逆序输入(目标句子不逆序)会获得不错的性能提升,如ppl从5.8变为4.7, BLEU score从 25.9变为30.6

1.4 并行化

LSTM使用C++实现,整个网络共8层LSTM,使用8块GPU计算,并使每块GPU跑一层LSTM, 每秒单词处理数从1700升至为6300

1.5 几点训练细节

二、实验结果

三、个人总结

  1. Seq2Seq整体架构在NLP领域的首提很新颖,对于训练数据逆序输入的trick很令人amazing
  2. 对不同词频rank后的翻译效果先上升再逐步下降,看来是词频对Seq2Seq的MT任务是有影响的,猜测刚开始随词频上升是因为停用词或短句影响结果。

四、参考

对 【Sequence to Sequence Learning with Neural Networks】的理解

标签:图像   实现   googl   https   性能提升   深度   embed   随机   获得   

以上就是对 Sequence to Sequence Learning with Neural Networks的理解的内容,更多资讯请及时关注考必过网站,最新消息小编会第一时间发布,大家考试加油!

上一篇      下一篇
前端相关推荐 更多>>
手写XML转化为JS对象方法 将一个json对象属性值赋值到另一个json中 css画三角形,对角 √ 勾形 对接接口时,组织参数json出现的问题 Asp.Net Core Swagger 接口分组(支持接口一对多暴露) 对 JsonConvert 的认识太肤浅了,终于还是遇到了问题 css对文字的设置 对PHP框架一些新的见解,快速开发那点事
前端热点专题 更多>>
热点问答
国家公务员考试年龄限制是多少 公务员国考和省考考试内容有什么区别 函授大专学历能不能考公务员 国家公务员考试考点能自己选择吗 新闻学专业能报考2022年公务员考试吗 什么是联合培养研究生 什么是破格录取研究生 什么人不适合读研 研究生报名户口所在地填什么 研究生结业和毕业有什么区别
网站首页 网站地图 返回顶部
考必过移动版 https://m.kaobiguo.net