Transformer-XL: 非固定长度上下文的注意力语言模型(Attentive Language Models Beyond a Fixed-Length Context)
Transformers可潜在地学习长期依赖关系,但受到固定上下文的限制,当待处理的文本长度超过固定长度时:训练阶段,需将输入文本分割成不同分段,不同分段独立训练,由于分段未考虑语义边界,可能造成模型缺乏上下文信息预测分段中的前几个字符,产生上下文碎片问题;预测阶段,每次移动一个输入单元,引入大量重复计算,预测效率低;Transformer-XL基于 循环分段机制 和 相对位置编码,克服vanilla Transformers的固定上下文长度的缺陷,并能够解决分段造成的上下文碎片问题。Trans