我是靠谱客的博主 粗犷鼠标,最近开发中收集的这篇文章主要介绍python爬虫反爬-爬虫怎么测试反爬?,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

网站有没有反爬,如果你没有用爬虫抓取过,你是不可能知道的。

就算要测试,你还要尝试不同的delay。

如果设置的 delay 在网站的反爬频率外,那就测不出来。

如果在频率内,那就被封。或者封ip,或者封账号。

如果一定要测出来,就简单粗暴的方法,你不要设置delay,就不间断的抓,最后出现两种情况,

1、网站有反爬,你被封。

然后呢,这个结果没意义,除非你能准备测试出网站反爬的那个频率,才能针对的做出一些防反爬的措施。

2、网站没反爬,没被封。

这个好像是你要的结果。但是这个也有不同情况,你要测多长时间,才能触发到网站的反爬机制。

还有,相同的delay,相同的网站,用不同工具抓取,也会出现不同的效果。

其实,不管你抓什么网站,就道德方面,你都要把网站当成有反爬来对待。如果因为网站没反爬,你就不设置delay,不停的抓取,占据网站的带宽,那正常的用户,可能就会出现一些无法响应等的异常情况,这不道德啊。

如果你是编程的话,设置随机delay,隔段时间切换ip。

如果你是使用工具,比如火车头、八爪鱼、webscraper的话,我建议使用webscraper

webscraper是个谷歌插件,有如下优点——免费

不受操作系统限制,只要安装Chrome浏览器即可运行

操作简单,易上手。(很多没有技术背景的同学,都可以快速学会)

功能强大:不仅可以抓静态网页,对于js动态加载的数据,也很容易抓取

根据已经测试的经历,下列类型网站均可抓取——58同城、大众点评、美团、链家等

微信公众号、简书、知乎、博客等

淘宝、阿里巴巴、网易严选等可以在浏览器查看到的数据,99%均可抓取。

而且防反爬比其他工具好很多,据实践研究,用其他工具很容易被封的网站,用webscraper就没事。

下面这个网站有学习webscraper的系统资料,有兴趣可以看看。不用写代码的爬虫技能 | 知识星球精选站​www.zsxq100.com

最后

以上就是粗犷鼠标为你收集整理的python爬虫反爬-爬虫怎么测试反爬?的全部内容,希望文章能够帮你解决python爬虫反爬-爬虫怎么测试反爬?所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部