专注发卡

文章
9
资源
0
加入时间
3年0月8天

强化学习之确定性策略网络和随机策略网络1 确定性策略2 随机策略2.1 分类策略2.2 对角高斯策略

强化学习当中策略可以分为随机策略和确定性策略两类。1 确定性策略确定性策略是输入一个状态s,策略会给出一个确定的动作a,可以用以下形式表示。u表示的是确定性策略。t时刻的状态写作st。t时刻在st状态下采取的动作为at。实现时,只需要建立一个神经网络,输入状态,输出一个确定的动作就行。使用了确定性策略的算法有:DDPG、TD3。DQN中的目标策略一般也是贪婪的确定性策略。2 随机策略随机策略是输入一个状态s,输出的是动作分布。随机策略通常用π表示。对于st条件下,每一个动作都是以概率被选取

记录下关于qt使用windeployqt.exe打包程序之后运行报错无法定位程序输入点

在网上有很多的教程,如果是在编译器中运行程序,包错无法定位程序输入点,可以将编译器的bin路径配置进入环境变量。使用windeployqt.exe打包完成之后,发现自己把所有的dll文件都加入进去了,还是报错无法定位程序输入点。网上基本就是配置环境变量。解决方案:1.查看自己编译程序所使用的编译器2.查看自己环境变量配置的是哪一个编译器的路径,环境变量中尽量只配置一个编译器的目录。3.编译器的版本和配置在环境变量中的路径对应上,在使用打包工具进行打包,然后添加缺少的dll文件,基本上就能直接运

easypoi 大数据 百万_【springboot+easypoi】大数据量excel导出

01上次写了一行代码解决导出导入,没看的小伙伴建议先看下《一行代码做Excel导入导出》,但是实际业务中遇到一个问题,如果数据里比较大的时候,例如10w+数据一次导出,就会出现卡死情况,继续看官方文档,有大数据量导出方法,实现如下@RequestMapping("export")public void export(HttpServletResponse response) {Map param...

金额 输入校验 正则表达式

<br /> <br />写个金额的正则表达式 校验金额的格式<br /> <br />  Pattern pattern = Pattern.compile("^((([1-9]{1}//d{0,9}))|([0]{1}))((//.(//d){2}))?$");<br />  Matcher matcher = pattern.matcher("3333333333.99");<br /

xavs中子像素差值汇编实现的坑

编码器功能实现之后,一般都需要进行效率优化。其他手段用完之后,最终避免不了还需要汇编优化。用oprofile或者vtune等工具进行分析,把耗时大头揪出来改写汇编,收益比较大。下面记录的是xavs汇编改写过程中,子像素差值部分改写汇编遇到的问题。将mc_luma调用的pixel_avg用汇编代码实现。(十几年前还是MMX、SSE指令集)其中有两种情况:(1)idx为1,3,4,12和5,7,13,15这两种情况每次处理8组数据,这些情况最大值为255552=0x31CE不会有溢出问题;(2)id

java求小数高精度运算

java求小数高精度在实际编码中,会遇到很多高精度的事例,比如,在计算金钱的时候就需要保留高精度小数,这样计算才不会有太大误差有以下实现可以得证:当两个float型的数字相加,得到的结果和我们的预期结果是有误差的float x = 2.01f;float y = 124.01f;System.out.println(x + y);//预期输出:126.02 实际输入:126.020004System.out.println(x);System.out.println(y);//预期输出:2