《Transformer-XL_Attentive Language Models Beyond a Fixed-Length Context》论文笔记
一、摘要传统的Transformers受限于固定长度的文本。本文提出了Transformer-XL模型,这个模型使得文本的依赖能够超越固定文本的长度,并且不会产生时间上的错乱。模型由片段级别递归和新型的位置编码方案组成,主要解决了文本长距离依赖和文本碎片化问题,在时间上面也比vanilla Transformer快很多。Transformer-XL模型在enwiki8数据上取得0.99的困惑度,text8上取得1.08困惑度,WikiText-103上取得18.3的困惑度,One Billion