概述
一、语料库
存放语言材料的仓库,现代的语料库是指存放在计算机里的原始语料文本或加工后带有语言学信息标注的语料文本。
1.特征
- 存放的是在实际使用中真实出现过的语言材料
- 是以计算机为载体承载语言知识的基础资源,但并不等于语言知识
- 真实语料需经过分析、处理和加工,才能成为有用的资源
2.作用
支持语言学研究和语言教学研究、支持NLP系统的开发
3.类型
按内容构成和目的构成:异质的(最简单的语料收集方法,没有事先规定和选材原则)、同质的、系统的(充分考虑语料动态和静态问题、代表性和平衡问题以及语料库规模等问题)、专用的
按语言种类划分:单语的、双语的或多语的
按是否加工处理过(标注)划分:生语料库、熟语料库
共时语料库与历时语料库:共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。历时语料库是为了对语言进行历时研究而建立的语料库。
最后
以上就是秀丽老鼠为你收集整理的自然语言处理第二章语料库与语言知识库一、语料库的全部内容,希望文章能够帮你解决自然语言处理第二章语料库与语言知识库一、语料库所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复