基于Redis的分布式爬虫对等分布式爬虫的实现主从分布式爬虫的实现
项目的目标是爬取电子工业出版社网上书店中图书排行榜栏目下所有分类的图书信息详情页汇总的作译者、出版时间、页数、ISBN和定价是爬虫程序的目标。这是一种拥有递进关系的网站,从栏目页到列表页,再到详情页。如果采用对等分布式,那么程序会将栏目页URL、列表页URL和详情页URL都放到待爬队列中,每个爬虫程序的作用都是相同的。如果采用主从分布式,那么主机上的爬虫程序负责将栏目页URL和列表页URL放入待爬队列,而从机上的爬虫程序则负责从待爬队列中取出URL,向其发出请求并从响应内容中抽取数据即可。对等分