我是靠谱客的博主 自由爆米花,最近开发中收集的这篇文章主要介绍多层transformer结构_ICML2020 oral: 当Transformer遇到强化学习:GTrXL,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一篇来自deepmind的paper: STABILIZING TRANSFORMERS FOR REINFORCEMENT LEARNING

有个疑问:本篇论文没有说在训练和测试的时候state是怎么一步一步输入到这个系统中的。

读后感:transformer在应对比较小的数据集时表现于LSTM相比并没有什么优势,然而在RL中数据集并不会像NLP中这么多,感觉将transformer用在RL效果。。。。

Transformer现在已经证明在处理序列数据,需要提供长期记忆和依赖的环境中的表现比LSTM更好,自然就会想到将transformer用在以前使用LSTM的场合中。

但是经过实验,作者发现将经典的transformer结构代替在RL中的LSTM, 难以优化,训练出来的基本是一个随机的policy。其实transformer训练的困难性在监督学习中同样存在,人们用了一些比如:复杂的学习率调整计划(eg: linear warmup or cosine decay)或者特殊的权重初始化来提高性能,但是这些方法在RL中都没有作用,甚至不能完成最简单的RL任务。

最终作者找到一种使得训练稳定的方法:Gated Transformer-XL(GTrXL): a reordering of the layer normalization coupled with the addition of a new gating mechanism to key points in the submodules of the transformer。实验表明其表现在DMLab-30上超过了LSTM。感觉能找到这种能收敛的方法应该是花了大量人力物力测试了N多次才找出来的,这也应该是transformer提出这么久也没有将其与RL结合的文章的原因

Gated transformer architectures

最后

以上就是自由爆米花为你收集整理的多层transformer结构_ICML2020 oral: 当Transformer遇到强化学习:GTrXL的全部内容,希望文章能够帮你解决多层transformer结构_ICML2020 oral: 当Transformer遇到强化学习:GTrXL所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(36)

评论列表共有 0 条评论

立即
投稿
返回
顶部