利用simhash算法原理和HanLP分词原理计算文本相似度工具类前言一、计算文本相似度工具类SimHashUtils总结
前言该方法是采用HanLP分词原理参考大佬们的代码与原理:(部分)simhash算法及原理简介海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)一、计算文本相似度工具类SimHashUtilspackage com.siboo.util;import java.io.BufferedReader;import java.io.IOException;import java.io.Reader;import java.math.BigInteger;imp