我是靠谱客的博主 纯真狗,最近开发中收集的这篇文章主要介绍maddpg/Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments总结细节,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章目录

  • 总结
  • 细节

总结

ddpg,每个agent的q,输入为所有agent的action及所有agent的obs,即actor是分开的,公用1个critic

细节

actor-critic,multi-agent合作

前置条件:

  1. 每个agent的policy只能使用local info,即自己的obs
  2. env模型不是differentiable
  3. agent之间的交流器不differentiable

更新policy时:
∇ θ i J ( θ i ) = E [ ∇ θ i log ⁡ π i ( a i ∣ o i ) Q ( x , a 1 , … , a N ) ] nabla_{theta_i}J(theta_i) = mathbb{E}[nabla_{theta_i}log pi_i(a_i|o_i)Q(x, a_1, dots, a_N)] θiJ(θi)=E[θilogπi(aioi)Q(x,a1,,aN)]
其中, Q ( x , a 1 , … , a N ) Q(x, a_1, dots, a_N) Q(x,a1,,aN)是单个agent的action-value function,但输入为所有agent的action,且 x x x是所有agent的obs

加上replay buffer和ddpg,有:
∇ θ i J ( θ i ) = E X , a ∼ D [ ∇ θ i log ⁡ μ i ( a i ∣ o i ) ∇ a i Q i ( x , a 1 , … , a N ) ] nabla_{theta_i}J(theta_i) = mathbb{E}_{X, a sim D}[nabla_{theta_i}log mu_i(a_i|o_i)nabla_{a_i}Q_i(x, a_1, dots, a_N)] θiJ(θi)=EX,aD[θilogμi(aioi)aiQi(x,a1,,aN)]
更新 Q i Q_i Qi使用loss:
L ( θ i ) = E [ ( Q i − y ) 2 ] y = r i + γ Q i ( x ′ , a 1 ′ , … , a N ′ ) begin{aligned} mathcal{L}(theta_i) &= mathbb{E}[(Q_i - y)^2] \ y &= r_i + gamma Q_i(x', a_1', dots, a_N') end{aligned} L(θi)y=E[(Qiy)2]=ri+γQi(x,a1,,aN)

最后

以上就是纯真狗为你收集整理的maddpg/Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments总结细节的全部内容,希望文章能够帮你解决maddpg/Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments总结细节所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部