(5)文本挖掘(二)——中英文分词
英文分词需要用到词干提取算法PorterAlgorithm,请参考http://blog.csdn.net/fighting_no1/article/details/50927162。停用词是我自己整理的。import java.io.File;import java.util.ArrayList;import java.util.HashSet;import java.util.List;