[234]scrapy分布式爬虫scrapy-redis(一)
分布式爬虫原理首先我们来看一下scrapy的单机架构: 可以看到,scrapy单机模式,通过一个scrapy引擎通过一个调度器,将Requests队列中的request请求发给下载器,进行页面的爬取。那么多台主机协作的关键是共享一个爬取队列。所以,单主机的爬虫架构如下图所示: 前文提到,分布式爬虫的关键是共享一个requests队列,维护该队列的主机称为master,而从机...