老实航空

文章
3
资源
0
加入时间
2年10月21天

MATLAB强化学习工具箱(十三)创建策略和价值函数表示行动者和评论者表示表近似器深度神经网络近似器自定义基础函数逼近器创建智能体或指定智能体表示

创建策略和价值函数表示行动者和评论者表示强化学习策略是一种映射,用于根据对环境的观察来选择智能体采取的行动。 在训练期间,智能体会调整其策略表示的参数以最大化预期的累积长期奖励。强化学习智能体使用分别称为行动者和批评者表示的函数近似器来估计策略和价值函数。 行动者代表根据当前观察选择最佳行动的策略。 评论者代表价值函数,该函数估计当前保单的预期长期累积奖励。在创建智能体之前,必须使用深度神经网络,线性基础函数或查找表创建所需的参与者和评论者表示。 您使用的函数逼近器的类型取决于您的应用程序。有关