文本特征选择算法:卡方检验和信息增益
转载自:http://blog.sina.com.cn/s/blog_6622f5c30101datu.html 特征提取步骤: 1. 卡方检验1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现频率。 1.3 计算每个词的卡方值,公式如下:1.4 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即