0%

这是由谷歌的三位大神用seq2seq模型实现的基于神经网络的机器翻译(英法互译),基本的方法还是encoder-decoder,作为seq2seq的经典必读论文,本文与其他工作相比主要有创新点有:

  1. 利用了多层的LSTM(本文中是4层)。实验表明使用LSTM对长句子的翻译来说效果很好,主要是因为LSTM本身具有长期依赖的优势。
  2. 与attention不一样,它又回归到原始模型,在编码端将输入句子编码成一个固定的维度的向量。作者说这样可以迫使模型学习捕捉句子的意思,尽管句子的表达方式不同。
  3. 最重要的一点是,实验发现将句子逆序输入可以明显改善LSTM模型的表现。 一个猜测的解释(因为作者也不知道具体的原因)是这样做可以减小“minimal time lag”(最短时间间隔),举例,输入是“ABC”,对应输出是“XYZ”,“A”与对应的“X”的间隔是3,“B”和“C”与其对应的间隔也是3,所以最短时间间隔是3。如果将输入逆序,以“CAB”作为输入,“A”与“X”的间隔是1,最短时间间隔就减小为1。于是作者猜测将输入逆序虽然没有减少源句子(输入)与目标句子(输出)的平均间隔,但是源句子与目标句子是前几个词的距离减少了,于是句子的“最短时间间隔”减少了。通过后向传播可以更快地在源句子和目标句子之间“建立通信”,整体的性能也有了显着的改善。
阅读全文 »

残差网络(百度百科)

残差网络是2015年提出的深度卷积网络,一经出世,便在ImageNet中斩获图像分类、检测、定位三项的冠军。 残差网络更容易优化,并且能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用(退化问题),这样能够通过单纯地增加网络深度,来提高网络性能。

阅读全文 »

标题 说明 附加
《Deep Residual Learning for Image Recognition》 原始论文 2015 解决了神经网络 “退化问题” ResNet网络,本文获得2016 CVPR best paper,获得了ILSVRC2015的分类任务第一名。
《Deep Residual Learning for Image Recognition》HTML 原始论文网页版
《Deep Residual Learning for Image Recognition(译)》 zhwhong 译文 2017
《Deep Residual Learning for Image Recognition(译)》 XlyPb 译文 2017
《论文理论解读》 作者 junlinhe@yeah.net
阅读全文 »