潇洒绿草

文章
6
资源
0
加入时间
2年10月21天

Hanlp中使用纯JAVA实现CRF分词

与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。开源项目本文代码已集成到HanLP中开源:http://hanlp.com/CRF简介CRF是序列...