动态规划：值函数迭代例子

260 阅读 0 评论 172 点赞

我是靠谱客的博主欣喜大象，这篇文章主要介绍动态规划：值函数迭代例子，现在分享给大家，希望可以做个参考。

最优方程：
$left{R+alphaleft[P_{1} C+V(0)right]right., left.alphaleft[h P_{2} C+(1-h) gamma P_{2} C+(1-h)(1-gamma) P_{1} C+V(h+(1-h) gamma)right]right}$
其中， $P_2>P_1$ 。
值迭代：
$V_{n}(h)=min left{R+alphaleft[P_{1} C+V_{n-1}(0)right]right., left.alphaleft[h P_{2} C+(1-h) gamma P_{2} C+(1-h)(1-gamma) P_{1} C+V_{n-1}(h+(1-h) gamma)right]right}$
其中， $V_0(h)equiv0$ 。
离散化：
因为 $h \in [0, 1]$ ，所以我们要对 $h$ 进行离散化。设 $h \in H = {0.01 k ∣ 0 \leq k \leq 100, k \in N}$ 。
又因为 $h + (1 - h) γ$ 可能不属于 $H$ ，所以我们要将其近似为 $H$ 中最近的元素： $round (100 (h + (1 - h) γ)) / 100$ 。
MATLAB实现：

R = 100;
a = 0.9;
P1 = 0.1;
P2 = 0.5;
C = 20;
gamma = 0.5;

V = zeros(101, 100); % V(i,j)表示第j次迭代中第i个状态所对应的值函数的值
for j = 2:100
    for i = 1:101
        h = (i - 1) / 100;
        V(i, j) = min(R + a * (P1 * C + V(1, j-1)), ...
           a * (h * P2 * C + (1 - h ) * gamma * P2 * C ...
           + (1 - h) * (1 - gamma) * P1 * C)...
           + V(round((h + (1 - h) * gamma) * 100) + 1, j - 1));
    end
end

p = 0:0.01:1;
plot(p, V(:,100))