会撒娇导师

文章
6
资源
1
加入时间
2年10月24天

局部敏感哈希算法的实现

近来由于工作需要,需要将字符串的相似度的计算速度进行提升。之前曾采用最长公共子序列、编辑距离等算法实现过,但总满足不了实时比较的性能及速度需求。前些天由同事推荐局部敏感哈希算法,便尝试了一把,结果发现速度还不错,本着记录与分享的精神,简单总结下实现的过程及思路。【Shingle】将待查询的字符串集进行映射,映射到一个集合里,如字符串“abcdeeeefg", 映射到集合”(a,b,c,d,