DRL for Online Computation Offloading in Wireless Powered Mobile-Edge Computing Networks

115 阅读 0 评论 76 点赞

我是靠谱客的博主无私书包，这篇文章主要介绍DRL for Online Computation Offloading in Wireless Powered Mobile-Edge Computing Networks，现在分享给大家，希望可以做个参考。

[1]

L. Huang, S. Bi, and Y.-J. A. Zhang, ‘Deep Reinforcement Learning for Online Computation Offloading in Wireless Powered Mobile-Edge Computing Networks’, IEEE Transactions on Mobile Computing, vol. 19, no. 11, pp. 2581–2593, 2020, doi: 10.1109/TMC.2019.2928811.

建模针对的场景是 1个AP ，N个Device。AP场景是针对TDMA，且在一个时间T内，会有一部分时间能量传递，其时间为a。

问题建模：

目标是最大化rate，注意每个时间段channel gain $textbf{h}$ 是一个变化量。

决策变量：

第一类： offloading 变量x，本文使用的是binary offloading

第二类：时间分配变量，a是能量传递时间，以及 $tau_i$ 是分给各个设备的计算时间。

算法：

问题原本是一个混合非线性非凸规划MINLP。

把问题拆分成两个部分，一个部分是 offloading变量x，另一部分是时间分配变量a和 $tau_i$

用 DRL来解决offloading变量x，因为它是整数变量不好解；解决的时候，DRL的输入是channel gain，即每个时隙T的channel是会发生变化的，然后网络输出以action $widehat{x_t}$ , 注意 $widehat{x_t}$

是一一个N*1的向量，里面的数值是连续的，都在[0,1]之间；

之后，利用 $widehat{x_t}$ ，文中做了一个量化的方案，将 $widehat{x_t}$ 量化为K个不同的offloading solution，然后根据这K个offloading solution，计算凸优化问题得到其对应的Q，将选择k个之中最好的offloading solution $x_t^*$ 作为action，与输入 $h_t$ 组成一个状态-动作对。