机器学习-文本处理基础知识文本转换分词工具:jieba
基础知识语料库(corpus):语料库有三点特征语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;语料库是承载语言知识的基础资源,但并不等于语言知识;真实语料需要经过加工(分析和处理),才能成为有用的资源。北京大学语料库(http://icl.pku.edu.cn/ )北大计算语言学研究所俞士汶教授主持,北大、富士通、人民日报社共同开发《人民日...