Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
长度可以不一样的语言模型 (就是依赖下一层和下一层的前一段)https://arxiv.org/pdf/1901.02860.pdftransformer 框架有学习长期依赖的潜能,但是 受限于语言模型设置的固定长度。作为一种解决方法,我们提出一种新颖的网络结构 Transformer-XL,它能使 Transformer...