如何提高爬虫工作效率?
对于大规模爬虫来说,效率是最核心的问题,没有效率,就没有意义。没有哪个公司或者个人愿意等一个月或者几个月才能爬取几十万上百万的页面。所以,对于大规模爬虫来说,优化流程、提升效率是十分重要的。一、尽量减少访问次数。单次爬虫任务的主要耗时在于网络请求等待响应,所以能减少网络请求就尽量减少请求,既能减少目标网站的压力,也能减少代理服务器的压力,同时还能减少自己的工作量,提高工作效率。二、精简流程,减少重复。大部分网站并不是严格意义上互不交叉的树状结构,而是多重交叉的网状结构,所以从多个入口深入的网页会