健壮溪流

文章
5
资源
0
加入时间
2年10月24天

数据结构与算法---布隆过滤器、跳表布隆过滤器布隆过滤器(Bloom Filter)跳表

布隆过滤器需求如果需要编写一个网络爬虫,去爬10亿个网站数据,为了避免爬到重复的网站,如何判断某个网站是否爬过?首先,10亿个网站数据量很大,使用哈希表有些不合适。哈希表确实可以做到O(1)级别找到对应的元素,但10亿级别的数据量,空间复杂度太大,就不合适了。因此,我们需要尝试使用新思路、新方法:布隆过滤器。set之所以可以做到O(1)级别的查找某个元素是否存在,是因为其底部使用的是Hash表,而hash表底层是使用的数组。hashMap之所以可以做到O(1)级别的查找某个元素的对应元素,是因