分布式爬虫系统分布式爬虫系统
分布式爬虫系统一、架构二、原理 1.分布式原理: 利用scrapy-redis实现分布式,利用主从模式,把自己核心服务器称为master,用于跑爬虫程序的机器称为slave。我们知道,采用scrapy框架抓取网页,需要首先给定一些start_urls,爬虫首先访问start_urls里面的url,再根据具体逻辑对里面的元素、或者其他二级、三级页面进行抓取。而要实现分布式,...