概述
文章目录
- 总结
- 细节
总结
ddpg,每个agent的q,输入为所有agent的action及所有agent的obs,即actor是分开的,公用1个critic
细节
actor-critic,multi-agent合作
前置条件:
- 每个agent的policy只能使用local info,即自己的obs
- env模型不是differentiable
- agent之间的交流器不differentiable
更新policy时:
∇
θ
i
J
(
θ
i
)
=
E
[
∇
θ
i
log
π
i
(
a
i
∣
o
i
)
Q
(
x
,
a
1
,
…
,
a
N
)
]
nabla_{theta_i}J(theta_i) = mathbb{E}[nabla_{theta_i}log pi_i(a_i|o_i)Q(x, a_1, dots, a_N)]
∇θiJ(θi)=E[∇θilogπi(ai∣oi)Q(x,a1,…,aN)]
其中,
Q
(
x
,
a
1
,
…
,
a
N
)
Q(x, a_1, dots, a_N)
Q(x,a1,…,aN)是单个agent的action-value function,但输入为所有agent的action,且
x
x
x是所有agent的obs
加上replay buffer和ddpg,有:
∇
θ
i
J
(
θ
i
)
=
E
X
,
a
∼
D
[
∇
θ
i
log
μ
i
(
a
i
∣
o
i
)
∇
a
i
Q
i
(
x
,
a
1
,
…
,
a
N
)
]
nabla_{theta_i}J(theta_i) = mathbb{E}_{X, a sim D}[nabla_{theta_i}log mu_i(a_i|o_i)nabla_{a_i}Q_i(x, a_1, dots, a_N)]
∇θiJ(θi)=EX,a∼D[∇θilogμi(ai∣oi)∇aiQi(x,a1,…,aN)]
更新
Q
i
Q_i
Qi使用loss:
L
(
θ
i
)
=
E
[
(
Q
i
−
y
)
2
]
y
=
r
i
+
γ
Q
i
(
x
′
,
a
1
′
,
…
,
a
N
′
)
begin{aligned} mathcal{L}(theta_i) &= mathbb{E}[(Q_i - y)^2] \ y &= r_i + gamma Q_i(x', a_1', dots, a_N') end{aligned}
L(θi)y=E[(Qi−y)2]=ri+γQi(x′,a1′,…,aN′)
最后
以上就是纯真狗为你收集整理的maddpg/Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments总结细节的全部内容,希望文章能够帮你解决maddpg/Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments总结细节所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复