Python数据预处理--文本特征提取(以Jieba工具包为例)
需求场景:基于分词技术,实现对文本数据中命名实体(如人名、地名等)的提取,或者自动计算文本中的TF(词频)和TF-IDF(词频-逆向文件频率)。主流工具包:目前业界主流的分词工具包有“jieba”和“HanLP”等好几种。其中jieba是目前Python社区中最广泛使用的,HanLP作为Java开发的工具包,使用Python调用时需要先加载jpype模块。本文主要介绍Jieba工具,...