概述
1、增加并发(增加并发线程数)
scrapy默认开启的线程为32个,可以适当增加。在setting文件中修改为 100
2、降低日志级别
在运行scrapy时会有大量日志信息输出,为了减少日志信息的输出,降低CPU的使用率,可以设置
输出错误日志 LOG_LEVEL='ERROR' 或者 'INFO'
3、禁止cookie
如果不是真的需要cookie,则在爬取数据时可以禁止cookie,从而减少CPU的使用率。在
setting中写 COOKIES_ENABLED=False
4、禁止重试:
对失败的HTTP进行重新请求会降低爬取速度,因此可以禁止重试;设置 RETRY_ENABLED=False
5、减少下载超时
如果对一个非常慢的连接进行爬取,减少下载超时可以能让卡主的连接快速被放弃,从而提升
效率。设置: DOWNLOAD_TIMEUT=10 (超时时间为10s)
最后
以上就是尊敬大船为你收集整理的02-27 提高scrapy爬取效率的方法的全部内容,希望文章能够帮你解决02-27 提高scrapy爬取效率的方法所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复