甜甜口红

文章
8
资源
0
加入时间
2年10月21天

一个神器,大幅提升爬虫爬取效率!

来源:进击的Coder在做爬虫的时候,我们往往可能这些情况:网站比较复杂,会碰到很多重复请求。有时候爬虫意外中断了,但我们没有保存爬取状态,再次运行就需要重新爬取。还有诸如此类的问题。那怎么解决这些重复爬取的问题呢?大家很可能都想到了“缓存”,也就是说,爬取过一遍就直接跳过爬取。那一般怎么做呢?比如我写一个逻辑,把已经爬取过的 URL 保存到文件或者数据库里面,每次爬取之...