2024年07月归档_甜甜口红的博客_python编程,Windows 7,ASP,fpga开发,《数据结构与算法分析》,ubuntu折腾,php 检测session,秃头hua的题解,布局,数据库领域博主

甜甜口红

文章

资源

加入时间

2年10月21天

一个神器，大幅提升爬虫爬取效率！

来源：进击的Coder在做爬虫的时候，我们往往可能这些情况：网站比较复杂，会碰到很多重复请求。有时候爬虫意外中断了，但我们没有保存爬取状态，再次运行就需要重新爬取。还有诸如此类的问题。那怎么解决这些重复爬取的问题呢？大家很可能都想到了“缓存”，也就是说，爬取过一遍就直接跳过爬取。那一般怎么做呢？比如我写一个逻辑，把已经爬取过的 URL 保存到文件或者数据库里面，每次爬取之...