我是靠谱客的博主 感性奇迹,最近开发中收集的这篇文章主要介绍让爬虫更加友好,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

        写一个爬虫去互联网上采集数据这件事情,看似好像对别人没有坏处,其实如果爬虫不断的去爬数据的话,会给爬取对象的网站造成很大的压力。所以我们往往会限制爬虫爬取的速度。

        之前最原始不用框架爬取交大的图书馆数据,后来整个实验室不能上图书馆的网了;使用了scrapy框架之后,没有做限速设置,后来又这样了。这次又改了一下。

        在spider同级目录下有一个settings.py文件,其中有一个配置,AUTOTHROTTLE_ENABLED=True.默认情况下这个是被注释掉的。这个功能一打开,scrapy会自动检测最合适的限制速度,很神奇的机制哦。

        于是我又把我的爬虫放出去了,看看还会不会被屏蔽。

最后

以上就是感性奇迹为你收集整理的让爬虫更加友好的全部内容,希望文章能够帮你解决让爬虫更加友好所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部