概述
目录
动作空间常见类型
动作空间设计原则
动作空间常见类型
离散动作空间通常由有限数量的动作组成,一般包含所有特定任务中所有可用的控制指令。通常采用One-hot向量编码,每个编码位置对应一个动作,并且是完全互斥的关系。
连续动作空间大多数采用多维向量式动作编码,每个编码位置代表一个独立的控制参数,如速度、位置、力矩、电流等。
动作空间设计原则
完备性
动作空间能让agent在环境中充分探索到各种可能性,尤其保证最优解所在区域的良好可达性。
高效性
可以尝试将连续动作空间离散化,牺牲一部分精度换取高效。
合法性
任务是一系列规则描述的,而DRL其实是带约束条件的最优化问题。动作的选择需要遵守规则
最后
以上就是勤奋月亮为你收集整理的【撕书系列DRL】CH2-动作空间设计动作空间常见类型动作空间设计原则的全部内容,希望文章能够帮你解决【撕书系列DRL】CH2-动作空间设计动作空间常见类型动作空间设计原则所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复