注意力机制

Attention是一种用于提升基于RNN（LSTM或GRU）的Encoder + Decoder模型的效果的的机制（Mechanism），一般称为Attention Mechanism。Attention Mechanism目前非常流行，广泛应用于机器翻译、语音识别、图像标注（Image Caption）等很多领域，之所以它这么受欢迎，是因为Attention给模型赋予了区分辨别的能力，例如，在机器翻译、语音识别应用中，为句子中的每个词赋予不同的权重，使神经网络模型的学习变得更加灵活（soft），同时Attention本身可以做为一种对齐关系，解释翻译输入/输出句子之间的对齐关系，解释模型到底学到了什么知识，为我们打开深度学习的黑箱，提供了一个窗口。

注意，随着研究的深入，注意力的概念已经发生了变化，上述内容只是注意力中的一种而已。

Attention机制中的打分函数

标题	说明	时间
注意力的动画解析（以机器翻译为例）	原文Attn: Illustrated Attention	20190208
模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用	首推知乎	2017
目前主流的attention方法都有哪些？	attention机制详解知乎	2017
Neural Machine Translation (seq2seq) Tutorial	GitHub 以机器翻译为例讲解注意力机制	长期更新
Attention_Network_With_Keras 注意力模型的代码的实现与分析	代码解析简书	20180617
Attention_Network_With_Keras	代码实现 GitHub	2018
各种注意力机制窥探深度学习在NLP中的神威	综述机器之心	20181008
Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures	为什么使用自注意力机制？实验结果证明：1）自注意力网络和 CNN 在建模长距离主谓一致时性能并不优于 RNN；2）自注意力网络在词义消歧方面显著优于 RNN 和 CNN。	20180827
各种注意力总结	本文主要是总结：注意力机制、注意力机制的变体、论文中常见的注意力	20180325

注意力机制分类

全局注意力机制

局部注意力机制

自注意力机制

隐藏向量 $h_t$ 首先会传递到全连接层。然后校准系数 $a_t$ 会对比全连接层的输出 $u_t$ 和可训练上下文向量 u（随机初始化），并通过 Softmax 归一化而得出。注意力向量 s 最后可以为所有隐藏向量的加权和。上下文向量可以解释为在平均上表征的最优单词。但模型面临新的样本时，它会使用这一知识以决定哪一个词需要更加注意。在训练中，模型会通过反向传播更新上下文向量，即它会调整内部表征以确定最优词是什么。

Self Attention与传统的Attention机制非常的不同：传统的Attention是基于source端和target端的隐变量（hidden state）计算Attention的，得到的结果是源端的每个词与目标端每个词之间的依赖关系。但Self Attention不同，它分别在source端和target端进行，仅与source input或者target input自身相关的Self Attention，捕捉source端或target端自身的词与词之间的依赖关系；然后再把source端的得到的self Attention加入到target端得到的Attention中，捕捉source端和target端词与词之间的依赖关系。因此，self Attention Attention比传统的Attention mechanism效果要好，主要原因之一是，传统的Attention机制忽略了源端或目标端句子中词与词之间的依赖关系，相对比，self Attention可以不仅可以得到源端与目标端词与词之间的依赖关系，同时还可以有效获取源端或目标端自身词与词之间的依赖关系

层级注意力机制