文献阅读笔记:Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context0.背景1. 介绍2. 相关工作3. 模型4. 实验5. 结论
0.背景机构:CMU、谷歌大脑作者:Zihang Dai、Zhilin Yang发布地方:arxiv面向任务:Language Understanding论文地址:https://arxiv.org/abs/1901.02860论文代码:https://github.com/kimiyoung/transformer-xl0-1 摘要Transformer具有学习长程依赖关系的潜力...