懦弱西牛的博客_PowerShell,JavaScript,Windows 7,打印外设,Java编程,强化学习领域博主

懦弱西牛

文章

资源

加入时间

4年5月22天

强化学习笔记：连续控制 & 确定策略梯度DPG1 离散控制与连续控制 2 确定策略梯度 3 算法推导4 整体训练流程

1 离散控制与连续控制之前的无论是DQN,Q-learning,A2C,REINFORCEMENT,SARSA什么的，都是针对离散动作空间，不能直接解决连续控制问题。考虑这样一个问题：我们需要控制一只机械手臂，完成某些任务，获取奖励。机械手臂有两个关节，分别可以在 [0◦, 360◦] 与 [0◦, 180◦] 的范围内转动。这个问题的自由度是 d = 2，动作是二维向量，动作空间是连续集合 A = [0, 360] × [0, 1...

强化学习 2023-06-22 236 点赞 3 评论 357 浏览

Java 8 Stream流强大的原理

本文主要是关于Java 8 Stream流强大的原理和相关实例

Java编程 2022-06-02 305 点赞 4 评论 462 浏览

惠普系列喷墨打印机故障修复

然后卡纸指示灯亮起，不能打印。按一下进纸键，机器恢复正常，机器进纸又能正常打印，这是笔架的问题，主要原因，笔架没有检测到正常的纸

打印外设 2022-04-24 258 点赞 3 评论 390 浏览

超简单实用Windows 7文件夹保护技巧

如果你希望避免闲人翻看个人隐私文件，那么，不必通过加密过程，你可以通过基本的批处理代码来创建一个密码保护的文件夹。这个批处理文件

Windows 7 2022-04-17 289 点赞 4 评论 437 浏览

他的专栏

PowerShell（0）

JavaScript（0）

Windows 7（1）

打印外设（1）

Java编程（1）

强化学习（1）

他的归档

2023年06月（1）

2022年06月（1）

2022年04月（2）