对话系统发展概述
- 1950s:图灵测试
- 1960s:第一个人机对话系统ELIZA
- 1990s:第一个chatbot型人机对话系统ALICE
- 2010s:互联网公司推出各类智能人机对话系统
任务型对话评价方法
- 90s PARADISE系统建立多种特征线性方程的满意度指标
- 实际操作中对话系统成功率和最小化对话长度作为对话系统评测的指标
对话系统成功率:
最小化对话长度:
- 2010s,基于标注语料的数据驱动类对话评价模型成为主流。
用户模拟
系统模拟真实用户,在制定轮次下没有给出答案则认为对话失败。
人工评价
雇佣大量的测评人员。可以使用外包的模式。如AMT:雇佣人按照指令和系统进行对话,每次对话后给出反馈信息(标记)。该方法可以产生大量的真实的对话数据。
动态系统
在真实环境中应用对话系统,需要在真实环境中达到用户的需求。
非任务型对话系统评价方法
客观指标
词重叠矩阵
词重叠:生成的回复和标准答案之间的次重叠率。
BLEU
最后
以上就是称心龙猫最近收集整理的关于【对话系统】对话系统评价方法综述-阅读笔记对话系统发展概述任务型对话评价方法非任务型对话系统评价方法的全部内容,更多相关【对话系统】对话系统评价方法综述-阅读笔记对话系统发展概述任务型对话评价方法非任务型对话系统评价方法内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复