称心龙猫的博客_windows,Photoshop教程,Windows 8,硬盘存储,C#,linux,Lee Hung-yi强化学习,对话系统领域博主

称心龙猫

文章

资源

加入时间

4年5月21天

【对话系统】对话系统评价方法综述-阅读笔记对话系统发展概述任务型对话评价方法非任务型对话系统评价方法

对话系统发展概述1950s：图灵测试1960s：第一个人机对话系统ELIZA1990s：第一个chatbot型人机对话系统ALICE2010s：互联网公司推出各类智能人机对话系统任务型对话评价方法90s PARADISE系统建立多种特征线性方程的满意度指标实际操作中对话系统成功率和最小化对话长度作为对话系统评测的指标对话系统成功率：最小化对话长度：2010s，基于标注语料的数据驱动类对话评价模型成为主流。用户模拟系统模拟真实用户，在制定轮次下没有给出答案则认为对话失败

对话系统 2024-05-24 220 点赞 3 评论 333 浏览

Lee Hung-yi强化学习 | (5) Q-learning用于连续动作 (NAF算法)

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv，原专栏地址课程视频课件地址普通的Q-learning比policy gradient比较容易实现，但是在处理连续动作（比如方向盘要转动多少度）的时候就会显得比较吃力。因为如果action是离散的几个动作，那就可以把这几个动作都代到Q-function去算Q-value。但是如果action是连续的，此时action就是一个vector，vector里面又都有对应的value，那就没办法穷举所有的action去算

Lee Hung-yi强化学习 2023-06-07 205 点赞 3 评论 310 浏览