Scrapy性能调优及检测性能问题的步骤
前面已经说过,Scrapy的瓶颈被设置在下载器这个地方。要获得最高的性能,可以从一个低的CONCURRENT_REQUESTS开始,一直增加这个值,直到达到了以下某个限制:CPU使用率达到80-90%目标网站的延迟显著上升scraper(即爬虫和pipeline)中的所有Response对象占用的总内存大小不超过5MB同时还要保证以下条件:在任何时候都要保证调度器的队列(mqs/dqs)中