我是靠谱客的博主 殷勤耳机,最近开发中收集的这篇文章主要介绍scrapy反爬虫与反反爬虫总结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

scrapy反爬虫与反反爬虫文章比较多,都简谈不全,现在搜集好多资料,梳理一下思路,总结了一下内容。

1. 反爬虫技术

首先我们来思考一下,为什么要反爬虫?

  • 网络中充斥大量爬虫的情况下,会使得整个网络的数据不可靠。

  • 网站在面对高并发爬虫的攻击时,很容易被击溃。

  • 版权数据被爬取,对于网站来说是巨大的损失。
    基于以上原因,反爬虫技术孕育而生,主要包含以下最常用的反爬技术:

  • 封IP
    后台对访问进行统计,如果单个IP访问超过阈值,则封锁该IP。

  • 封UserAgent
    后台对访问进行统计,如果单个UserAgent访问超过阈值,则封锁该UserAgent。

  • 封Cookie
    后台对访问进行统计,如果单个cookies访问超过阈值,则封锁该cookie.

  • 设置请求时间间隔
    设置请求时间间隔,规避过于频繁的请求访问,避免爬虫短时间爬取大量数据。

  • robots.txt协议
    robots.txt是一个限制爬虫的规范,该文件是用来声明哪些东西不能被爬取; 设置robots.txt协议,位于robots.txt中的UserAgent不可请求网站数据。

  • 验证码验证
    发生大量请求时,弹出验证码验证,通过验证方可继续访问。

  • JavaScript渲染网页
    将重要信息放在网页中但不写入html标签中,而浏览器会自动渲染标签中的js代码&#x

最后

以上就是殷勤耳机为你收集整理的scrapy反爬虫与反反爬虫总结的全部内容,希望文章能够帮你解决scrapy反爬虫与反反爬虫总结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部