NLP_learning 中文基本任务与处理(分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别)介绍、jieba工具库1、分词2、停用词和N-gram3、 更多任务(词性标注、依赖分析、NER、关键词抽取)4、 jieba工具库使用
很多时候我们需要针对自己的场景进行分词,有一些领域内的专用词汇出现可以使用jieba.load_userdict(filename)加载用户字典;少量词汇可以自己用下面方法手动添加:·用add_word(word, freq=None, tag=None)和del_word(word)在程序中动态修改词典·用suggest_freq(segment, tune=True)可调节单个词语的词频,使其能(不能)被分出来。