文本分类--普通分类1 基本概念2 问题3 解决思路4 实现5 参考文献6 需要解决的问题
1 基本概念文本分类文本分类(text classification),指的是将一个文档归类到一个或多个类别的自然语言处理任务。文本分类的应用场景非常广泛,包括垃圾邮件过滤、自动打标等任何需要自动归档文本的场合。文本分类在机器学习中属于监督学习,其流程是:人工标注文档类别、利用语料训练模型、利用模型训练文档的类别。2 问题3 解决思路3.1 文本的特征提取特征选择是特征工程中的重要一环,其主要目的是从所有特征中选出相关特征 (relevant feature),或者说在不引起重要信息丢失的前