Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(2019-1-9)模型介绍模型参考
Transformer最大的问题在于没有办法建模超过最大长度的序列,Transformer-XL主要提出了两个优化点:段级递归和相对位置编码。为了解决固定长度的限制,Transformer-XL提出了一种递归机制,如下图,第一个segment计算完成后,把计算的结果保存下来,在计算第二个片段的时候,把第一个片段的hidden state和第二个片段的hidden state拼接在一起,再进行后续的计算。我们看下具体的计算公式,其中h表示的是hidden state, τ \tau τ表示第 τ