尊敬大侠

文章
3
资源
0
加入时间
2年10月21天

强化学习中的两种探索-平衡策略强化学习中的两种探索-平衡策略

强化学习中的两种探索-平衡策略ε-greedy方法UCB(Upper Confidence Bound)方法为了解决强化学习中的一个经典问题:exploration and exploitation tradeoff 即:到底我们应该花精力去探索从而对收益有更精确的估计,还是应该按照目前拥有的信息,选择最大收益期望的行为?这样看上去可能不好理解,一个小例子帮助理解:假如你想在淘宝上买一本书,你一输入书的名字就看到,第一个链接的价格为10元,第二个链接为9.9元,第三个为11元,此时你有两

fetch,解决高德地图公共api,跨域问题

目录1.功能需求2.遇到的问题3.解决的办法1.功能需求功能需求是需要做一个可以选择各街道的滚动功能,但是由于后端没有街道数据,只有自己去第三方寻找,最后用的高德地图的api. 预期效果如下2.遇到的问题不知什么情况,我在请求高德公共api的时候,遇到了跨域问题 CORS error.如下图3.解决的办法通过查阅 fetch文档,并使用fetch解决了改跨域问题,如下图...