python分词统计词频_基于结巴分词做的全文分词统计词频小脚本
受朋友之托,写一个小脚本,断断续续做了两天,写一下两天的收获。起因有个朋友说专业文档很枯燥难懂,需要一个能把全文的关键词找出来并排序的东西,找不到现成的,问我能不能做一个。我前些天也听车神说有关分词的东西,用这个机会认识一下中文分词也不错。本来还想弄下 PDF 2 TXT的,不过没找到合适的工具,先弄这个吧。要实现把全文的关键词找出来并排序,就需要识别文中的词而不是字,有了词才能进行排序。中文和其...