R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)一、基本概念界定上的区别二、hash函数拓展simhash、minhash算法三、局部敏感哈希(Locality Sensitive Hashing,LSH)算法拓展一:应用场景
私认为,文本的相似性可以分为两类:一类是机械相似性;一类是语义相似性。机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现,应用场景在:文章去重;语义相似性代表着,两个文本语义上的相似程度,比如“苹果”和“公司”的相似性,本篇不做这一讨论,可参考笔者的另外一篇博客: NLP︱句子级、词语级以及句子-词语之间相似性(相关名称: