局部敏感哈希LSH(Locality-Sensitive Hashing)——海量数据相似性查找技术
一、 前言    最近在工作中需要对海量数据进行相似性查找,即对微博全量用户进行关注相似度计算,计算得到每个用户关注相似度最高的TOP-N个用户,首先想到的是利用简单的协同过滤,先定义相似性度量(cos,Pearson,Jaccard),然后利用通过两两计算相似度,计算top-n进行筛选,这种方法的时间复杂度为$O(n^2)$(对于每个用户,都和其他任意一...