Java---利用互信息方式进特征选择,用于文本分类
Java—利用互信息方式进特征选择任务定义 原始材料:多个类别文件,每个文件包含若干样本 目标:从每个类别文件中提取若干词语,这些词具有**类区分度**,即在类A中常出现,在类B中不常出现。 方法:使用互信息方式进行词语提取。步骤1、构建字典:Map<词语,出现的该词的文档数>。 构建两种字典:大字典---所有文本;小字典---单个类别文件。 逐个读取文件夹内的每个类...