知识笔记 - 将scrapy改造为通用分布式全站爬虫(基于RedisCrawlSpider)前言一、如何实现RedisCrawlSpider?二、将 RedisCrawlSpider 改为通用爬虫(修改源码)总结
目标:自动化抓取大批量静态网站的全站数据解决方式:实现 RedisCrawlSpider 通用分布式爬虫技术选型思路:1. 抓取全站数据 ——> 选择scrapy框架的crawlspider爬虫;2. 提高抓取效率 ——> 选择基于redis的分布式,即RedisCrawlSpider;3. 自动化处理每一个进来的网站 ——> 实现通用式爬虫。网上相关的文章比较少,希望这篇文章可以给到大家一些帮助,若有不对的地方请多指教。......