用MeCab打造自己的分词器(二)
按照用MeCab打造自己的分词器(一)操作,已经安装好了MeCab。接下来安装指定方式组织语料、词典和配置文件,打造自己的分词系统。利用backoff2005中微软研究院的中文分词语料来训练一个简单的分词系统,逐步深入完成我们的总目标。当前目录为$WordSeg,下载微软的语料到当前目录下,解压,并创建msr_mecab_test目录。~/Project/WordSeg$ lsi...