文本分类与聚类(text categorization and clustering)
1. 概述广义的分类(classification或者categorization)有两种含义:一种含义是有指导的学习(supervised learning)过程,另一种是无指导的学习(unsupervised learning)过程。通常前者称为分类,后者称为聚类(clustering),后文中提到的分类都是指有指导的学习过程。给定分类体系,将文本集中的每个文本分到某个或者某几