python爬虫反爬-爬虫怎么测试反爬？

389 阅读 0 评论 257 点赞

我是靠谱客的博主粗犷鼠标，这篇文章主要介绍python爬虫反爬-爬虫怎么测试反爬？，现在分享给大家，希望可以做个参考。

网站有没有反爬，如果你没有用爬虫抓取过，你是不可能知道的。

就算要测试，你还要尝试不同的delay。

如果设置的 delay 在网站的反爬频率外，那就测不出来。

如果在频率内，那就被封。或者封ip，或者封账号。

如果一定要测出来，就简单粗暴的方法，你不要设置delay，就不间断的抓，最后出现两种情况，

1、网站有反爬，你被封。

然后呢，这个结果没意义，除非你能准备测试出网站反爬的那个频率，才能针对的做出一些防反爬的措施。

2、网站没反爬，没被封。

这个好像是你要的结果。但是这个也有不同情况，你要测多长时间，才能触发到网站的反爬机制。

还有，相同的delay，相同的网站，用不同工具抓取，也会出现不同的效果。

其实，不管你抓什么网站，就道德方面，你都要把网站当成有反爬来对待。如果因为网站没反爬，你就不设置delay，不停的抓取，占据网站的带宽，那正常的用户，可能就会出现一些无法响应等的异常情况，这不道德啊。

如果你是编程的话，设置随机delay，隔段时间切换ip。

如果你是使用工具，比如火车头、八爪鱼、webscraper的话，我建议使用webscraper

webscraper是个谷歌插件，有如下优点——免费

不受操作系统限制，只要安装Chrome浏览器即可运行

操作简单，易上手。（很多没有技术背景的同学，都可以快速学会）

功能强大：不仅可以抓静态网页，对于js动态加载的数据，也很容易抓取

根据已经测试的经历，下列类型网站均可抓取——58同城、大众点评、美团、链家等

微信公众号、简书、知乎、博客等

淘宝、阿里巴巴、网易严选等可以在浏览器查看到的数据，99%均可抓取。

而且防反爬比其他工具好很多，据实践研究，用其他工具很容易被封的网站，用webscraper就没事。

下面这个网站有学习webscraper的系统资料，有兴趣可以看看。不用写代码的爬虫技能 | 知识星球精选站www.zsxq100.com

以上就是粗犷鼠标最近收集整理的关于python爬虫反爬-爬虫怎么测试反爬？的全部内容，更多相关python爬虫反爬-爬虫怎么测试反爬内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。