我是靠谱客的博主 碧蓝樱桃,最近开发中收集的这篇文章主要介绍一般的网站反爬策略及应对,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

反爬机制和破解方法汇总
一什么是爬虫和反爬虫?
爬虫:使用任何技术手段,批量获取网站信息的一种方式。
反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。
二  Headers and referer 反爬机制
*headers进行反爬是最常见的反爬虫策略。
*还有一些网站会对 Referer (上级链接)进行检测(机器行为不太可能通过链接跳转实现)
从而实现爬虫。

三 ip限制
限制ip访问频率和次数进行反爬.

解决措施:构造自己的 IP 代理池,然后每次访问时随机选择代理(但一些 IP 地址不是非常稳定,需要经常检查更新)


四 UA限制
UA使用户访问网站时候的浏览器标识.
解决措施,构建自己的UA池,每次python做requests访问时随机挂上UA标识,更好的模拟浏览器行为.
超级简单的请求头fake_useragent库(https://www.jianshu.com/p/b76df35aec93)

五.验证码反爬虫或者模拟登陆
图片验证码:通过简单的图像识别是可以完成
验证码识别的基本方法:截图,二值化、中值滤波去噪、分割、紧缩重排(让高矮统一)、字库特征匹配识别。

六  Ajax动态加载
Ajax动态加载的工作原理是:从网页的 url 加载网页的源代码之后,会在浏览器里执行JavaScript程序。
这些程序会加载出更多的内容,并把这些内容传输到网页中。这就是为什么有些网页直接爬它的URL时却
没有数据的原因。
解决方案:若使用审查元素分析”请求“对应的链接(方法:右键→审查元素→Network→清空,点击”加载更多

最后

以上就是碧蓝樱桃为你收集整理的一般的网站反爬策略及应对的全部内容,希望文章能够帮你解决一般的网站反爬策略及应对所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(34)

评论列表共有 0 条评论

立即
投稿
返回
顶部