【python】多线程来提升scrapy的速度
scrapy在单机跑大量数据的时候,在对settings文件不进行设置的时候,scrapy的爬取速度很慢,再加上多个页面层级解析,往往导致上万的数据可能爬取要半个小时之久,这还不包括插入数据到数据库的操作。下面是我在实验中测试并且验证爬取速度大幅度提升,不过前提你要注意到你爬取的目标网站有没有反IP的可能。settings文件设置以下参数:DOWNLOAD_DELAY = 0CONCURRENT_REQUESTS = 100CONCURRENT_REQUESTS_PER_DOMAIN = 100