布隆过滤器需求如果需要编写一个网络爬虫,去爬10亿个网站数据,为了避免爬到重复的网站,如何判断某个网站是否爬过?首先,10亿个网站数据量很大,使用哈希表有些不合适。哈希表确实可以做到O(1)级别找到对应的元素,但10亿级别的数据量,空间复杂度太大,就不合适了。因此,我们需要尝试使用新思路、新方法:布隆过滤器。set之所以可以做到O(1)级别的查找某个元素是否存在,是因为其底部使用的是Hash表,而hash表底层是使用的数组。hashMap之所以可以做到O(1)级别的查找某个元素的对应元素,是因
数据结构与算法
2023-09-01
49 点赞
0 评论
74 浏览