概述
SpeechIO TIOBE Benchmark
场景测试:同声传译现场 时政
1、素材来源
YouTube 爬取美联储、白宫发布会、政要座谈会等时政素材的中文同传现场,原始时长约两个半小时。
场景上,本期测试的特点为英文、中文声音交叠,同时进行。本类素材,源语言说话人的音量一般会被压制得非常低,可听见,但听不清内容,从语音识别的角度来讲更像是一种噪声。这种人声噪声,对频谱造成的干扰比一般噪声要复杂得多,对语音系统的挑战也更大。内容上,本期测试内容很简单,主要是一些时政新闻中的常见词汇和话题。
2、场景特点
-
环境
-
同传室,制作棚,同传人员周边安静,无噪声。
-
-
拾音设备
-
专业麦克风,近场
-
-
说话人
-
同传翻译员
-
-
说话方式
-
语速中等偏快
-
吐字清晰
-
组织语言常见卡顿,重复
-
-
方言
-
标准化
-
-
内容领域
-
时政
-
3、测试结果
测试时间:2021.10
本场景会进行定期重测(每3个月),关注最新滚动测试报告查看最新结果。
Company | Platform | Accuracy(%) = 1-CER |
AISpeech | 思必驰 | 96.98 |
Alibaba | 阿里云 | 90.3 |
Baidu | 百度智能云 | 91.82 |
iFLYTEK | 讯飞开放平台 | 90.26 |
Microsoft | Azure | 95.3 |
Sogou | AI开放平台 | 96.35 |
Tencent | 腾讯云 | 94.56 |
YITU Tech | 语音开放平台 | 97.12 |
* 讯飞目前被低估,目前为听写服务,转写服务接入调试中。详见(SOTA)
4、简评
本场景为英文到中文的同传现场,场景目标是识别中文内容,由标注员负责切分并标注中文同传声音的片段。虽然英文音量非常低,但与切分出的中文部分有少量交叠(同传卡顿间隔,反应延时等等)。讯飞和阿里的引擎对低音量灵敏且对英文比较灵敏,经常识别出零散的英文乱码词汇,错误率较高。
历史评测系列:
发布日期 | 文章 |
2020.03 | 引篇 |
2020.04 | Specification & Guideline |
场景:新闻联播 | |
场景:访谈节目 鲁豫有约 | |
滚动测试报 2020.04 | |
2020.05 | 场景:天下足球 世界杯往事 |
场景:场馆演讲 罗振宇跨年演讲 | |
场景:李永乐老师 在线讲堂 | |
滚动测试报 2020.05 | |
2020.06 | 场景:直播 王者荣耀 张大仙&骚白 |
场景:直播 带货 李佳琪&薇娅 | |
场景:线下培训 老罗语录 | |
滚动测试报 2020.06 | |
2020.07 | 标注修复:直播&老罗 |
滚动测试报 2020.07 | |
2020.08 | 场景:播客 故事FM |
场景:播客 创业内幕 | |
滚动测试报 2020.08 | |
2020.09 | 场景:在线教育 罗翔 刑法法考 |
场景:在线教育 张雪峰 考研 | |
滚动测试报 2020.09 | |
2020.10 | 场景:短视频 电影剪辑 谷阿莫&牛叔说电影 |
场景:短视频 美食 贫穷料理&琼斯爱生活 | |
指标:"当我们谈SOTA时,我们在谈论什么?" | |
滚动测试报 2020.10 | |
2020.11 | 场景:评书 单田芳 白眉大侠 |
场景:相声 德云社专场 | |
场景:脱口秀 吐槽大会 | |
滚动测试报 2020.11 | |
2020.12 | 场景:少儿卡通 小猪佩奇&熊出没 |
滚动测试报 2020.12 | |
2021.01 | 场景:体育赛事解说 NBA |
场景:纪录片 篮球人物 | |
滚动测试报 2021.01 | |
2021.02 | 场景:经济 金融 货币 |
2021.04 | 场景:短视频 汽车之家 汽车评测 |
场景:短视频 小艾大叔 豪宅带看 | |
滚动测试报 2021.04 | |
2021.07 | 场景:短视频 产品开箱视频 Zealer&无聊开箱 |
场景:短视频 付老师 农业种植 | |
场景:短视频 线下培训 石国鹏 古希腊哲学 | |
滚动测试报 2021.07 | |
2021.10 | 场景:张震鬼故事 |
场景:华语大学生辩论赛 | |
场景:同声传译现场 时政 | |
滚动测试报 2021.10 |
开源评测平台 Leaderboard:
发布日期 | 文章 |
2021.04 | Leaderboard 开源测试平台发布 |
2021.08 | 加入开源 Kaldi 预训练模型 Kaldi-multicn |
加入 AISHELL-1 测试集 | |
加入 AISHELL-2 测试集 | |
加入开源 WeNet-multicn 模型 |
最后
以上就是优美裙子为你收集整理的语音之家SOTA | 同声传译现场 时政SpeechIO TIOBE Benchmark的全部内容,希望文章能够帮你解决语音之家SOTA | 同声传译现场 时政SpeechIO TIOBE Benchmark所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复