反爬技术研究 — 网站常用的反爬技术有哪些？反爬技术研究 — 网站常用的反爬技术有哪些？

339 阅读 0 评论 224 点赞

我是靠谱客的博主鳗鱼红酒，这篇文章主要介绍反爬技术研究 — 网站常用的反爬技术有哪些？反爬技术研究 — 网站常用的反爬技术有哪些？，现在分享给大家，希望可以做个参考。

反爬技术研究 — 网站常用的反爬技术有哪些？

user-agent

数据请求头，最初级的反爬，只要在请求中模拟请求头即可轻松飘过。

验证码

验证码是最常用的反爬虫措施，但简单验证码通过机器学习自动识别，通常正确率能达到50%以上甚至更高。
复杂验证码通过提交到专门的打码平台进行人工打码，依据验证码的复杂度，打码工人平均每码收1-2分钱，成本比较低。也同样容易被绕过，使得数据容易被爬取。

封IP

这是最有效也最容易误杀的方案。该策略建立在 IP 稀有的前提下，目前通过代理池购买，ADSL，或者拨号 VPS 等方式，可以低成本获取数十万的 IP 池，导致单纯的封IP策略效果越来越差。

滑块验证

滑块验证结合了机器学习技术，只需要滑动滑块，而不用看那些复杂到有时人眼也无法分辨的字母。但由于部分厂商实现时校验算法较为简单，导致经常只需要相对简单的模拟滑动操作就能绕过，从而使得数据被恶意爬取。
类似案例：淘宝，阿里云，淘宝联盟

关联请求上下文

反爬虫可以通过 Token 或网络请求上下文是否进行了完整流程的方式来判断是否真人访问。但对具有协议分析能力的技术人员来说进行全量模拟并没有太大困难。
类似案例：知乎，百度登录过程。

JavaScript 参与运算

简单的爬虫无法进行 js 运算，如果部分中间结果需要 js 引擎对 js 进行解析和运算，那么就可以让攻击者无法简单进行爬取。但爬虫开发者依然可以通过自带 js 引擎模块或直接使用 phantomjs ，chrome等无端浏览器进行自动化解析。

提高数据获取成本

当面对的是职业选手时，只能通过提升对方人力成本来实现，比如代码混淆、动态加密方案、假数据，混淆数据等方式，利用开发速度大于分析速度的优势，来拖垮对方的意志。如果对方咬定不放松，那只能持续对抗，直到一方由于机器成本或人力成本放弃。
典型案例：汽车之家字体替换，去哪儿网网隐藏在CSS元素坐标中
https://blog.csdn.net/zwq912318834/article/details/80243056
https://blog.csdn.net/zwq912318834/article/details/80268149

最后

以上就是鳗鱼红酒最近收集整理的关于反爬技术研究 — 网站常用的反爬技术有哪些？反爬技术研究 — 网站常用的反爬技术有哪些？的全部内容，更多相关反爬技术研究内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(224)

本文分类：python爬虫
浏览次数：339 次浏览
发布日期：2024-07-08 22:55:02

相关文章

反爬技术研究 — 网站是通过什么方式来发现爬虫的？反爬技术研究 —— 网站是通过什么方式来发现爬虫的？

反爬技术研究 — 网站是通过什么方式来发现爬虫的？反爬技术研究 —— 网站是通过什么方式来发现爬虫的？

Python爬虫技巧！网站有反爬？我们有selenium！Selenium：代码运行效果如下：selenium用途

Python爬虫技巧！网站有反爬？我们有selenium！Selenium：代码运行效果如下：selenium用途

网站常见的反爬虫和应对方法

常见的反爬虫和应对方法

反爬技术研究 — 网站常用的反爬技术有哪些？反爬技术研究 — 网站常用的反爬技术有哪些？

反爬技术研究 — 网站常用的反爬技术有哪些？反爬技术研究 — 网站常用的反爬技术有哪些？

如何判断爬虫程序是否被反爬？python爬虫基础知识 | 网页状态码学习（小白必看）

如何判断爬虫程序是否被反爬？python爬虫基础知识 | 网页状态码学习（小白必看）

python爬虫分布式怎么构造_Python干货丨理想型分布式爬虫架构是怎样的？

python爬虫分布式怎么构造_Python干货丨理想型分布式爬虫架构是怎样的？

python反爬虫策略有哪些_python爬虫 urllib模块反爬虫机制UA详解

python反爬虫策略有哪些_python爬虫 urllib模块反爬虫机制UA详解

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部