文档的相似度(3)--局部敏感哈希算法
此篇博客将会接着上一篇博客继续文档相似度的分析。在上篇博客中我们已经可以利用最小哈希签名对文档间的相似度进行分析了,但是我们应该要发现,及时可以使用最小哈希签名将大文档压缩成小的签名同时保持任意对文档之间的预期相似度,但是高效寻找具有最大相似度的问的那个对仍是不可能的。主要原因在于,即使文档本身的数目并不很大,但需要比较的文档对的数目可能很大。例如: 假定有100万篇文档