淡然嚓茶

文章
3
资源
0
加入时间
2年10月21天

文本挖掘 - 分词

分词即对词语进行划分。分词的基本方法包括:最大匹配法,最大概率分词法,最短路径分词法分词的难点:分词歧义,未登录词识别(冷启动)1. 最大匹配法最大匹配法实际上是一种贪心算法,它同时还利用现实中人们使用的词语长度都是在一个比较固定的范围内。利用这个长度的限制来逐步贪心。1.1 正向最大匹配算法从左到右截取词组并判断是否为一个词语。s: 待分的句子te