概述
强化学习最新论文汇总
- 如有错误,欢迎指正
- 所引用内容链接
- Multi-Agent RL
- 1. Partner Selection for the Emergence of Cooperation in Multi‐Agent Systems using Reinforcement Learning
- 2. Neighborhood Cognition Consistent Multi‐Agent Reinforcement Learning
- 3. SMIX( ): Enhancing Centralized Value Functions for Cooperative Multi-Agent Reinforcement Learning
- 总结
如有错误,欢迎指正
本篇为自我学习过程中的要点记录,仅作学习使用。
所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。
所引用内容链接
感谢这篇汇总
必看!52篇深度强化学习收录论文汇总 | AAAI 2020: https://www.sohu.com/a/367828930_99979179
Multi-Agent RL
1. Partner Selection for the Emergence of Cooperation in Multi‐Agent Systems using Reinforcement Learning
Nicolas Anastassacos (The Alan Turing Institute)*; Steve Hailes (University College London); Mirco Musolesi (UCL)
社会困境已经被广泛研究来解释人类如何在社会中合作。在为社会困境设计人工智能体方面投入了大量的精力,这些人工智能体包含了明确的agent动机,这些动机被选择来支持协调或合作的响应。这种通用方法的流行表明了理解agent的内部设计和外部环境动态的重要性。在这篇文章中,我们研究合作伙伴选择如何促进agent之间的合作行为,这些agent被训练为最大化一个纯粹自私的目标函数。我们的实验表明,经过这种动态训练的agent学会了一种策略,即报复叛逃者,同时促进与其他agent的合作,从而形成亲社会的社会。
2. Neighborhood Cognition Consistent Multi‐Agent Reinforcement Learning
Hangyu Mao (Peking University)*; Wulong Liu (Huawei Noah’s Ark Lab); Jianye Hao (Tianjin University); Jun Luo (Huawei Technologies Canada Co. Ltd.); Dong Li ( Huawei Noah’s Ark Lab); Zhengchao Zhang (Peking University); Jun Wang (UCL); Zhen Xiao (Peking University)
社会心理学和现实经验表明,认知一致性对维持人类社会秩序起着重要作用。如果人们对自己的环境有一个更一致的认知,他们就更有可能实现更好的合作。同时,只有邻里之间的认知一致性才重要,因为人类只与邻居直接互动。受这些观察结果的启发,我们第一步将邻域认知一致性1(NCC)引入多智能体强化学习(MARL)。我们的NCC设计非常通用,可以很容易地与现有的MARL方法相结合。作为例子,我们提出邻域认知一致性深度Q学习和演员批评,以促进大规模多智能体协作。在几个具有挑战性的任务(如包路由、wifi配置和google football player控制)上进行的大量实验证明,与最先进的MARL方法相比,我们的方法具有更好的性能。
3. SMIX( ): Enhancing Centralized Value Functions for Cooperative Multi-Agent Reinforcement Learning
Chao Wen (Nanjing University of Aeronautics and Astronautics)*; Xinghu Yao (Nanjing University of Aeronautics and Astronautics); Yuhui Wang (Nanjing University of Aeronautics and Astronautics, China); Xiaoyang Tan (Nanjing University of Aeronautics and Astronautics, China)
在多智能体强化学习(MARL)中,学习一个稳定的、可推广的集中值函数(CVF)是一个关键但具有挑战性的任务,因为它必须解决在这种情况下,联合动作空间随agent数量呈指数增长的问题。本文提出了一种在灵活的学习者搜索空间内使用有效的off-policy集中训练方法来解决这一问题。由于这种off-policy训练的重要抽样计算量大且数值不稳定,我们建议用λ-返回量作为计算TD误差的代理。在这个新的损失函数目标下,我们采用改进的QMIX网络结构作为训练模型的基础。通过进一步从统一的期望校正观点将其与Q(λ)方法相结合,我们证明了所提出的SMIX(λ)等价于Q(λ),因而具有相同的收敛特性,同时不受上述MARL中固有的维数灾难问题的影响。在星际争霸多智能体挑战(SMAC)基准测试上的实验表明,我们的方法不仅在很大程度上优于几种最先进的MARL方法,而且可以作为一种通用工具,通过提高其他CTDE类型算法的CVF来提高其整体性能。
总结
个人能力有限,在AAAI 2020的文章中只找到3篇有关多智能体的文章。大致浏览了这些强化学习的文章之后,直观感受是做NLP和做信号管理的人比较多,其次就是对Q值或者值函数做文章的人也比较多。读者若是在寻找方向,可以从这几点尝试切入。
第1、2篇文章都是从社会的角度出发,研究了社会中其他角色对agent可以产生的影响。第3篇文章是提出了可推广的值函数计算方法,解决了动作空间指数爆炸的问题。
一致性理论:人有一种驱力促使自己对客体产生一致的认知和行为,当认知失谐时,人们会出现不适感,进而试图去减少它,减少失谐的一个机制:有选择的寻求支持信息或避免不一致的信息。 ↩︎
最后
以上就是炙热枕头为你收集整理的AAAI 2020多智能体强化论文如有错误,欢迎指正Multi-Agent RL总结的全部内容,希望文章能够帮你解决AAAI 2020多智能体强化论文如有错误,欢迎指正Multi-Agent RL总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复