scrapy反爬虫与反反爬虫总结

177 阅读 0 评论 117 点赞

我是靠谱客的博主殷勤耳机，这篇文章主要介绍scrapy反爬虫与反反爬虫总结，现在分享给大家，希望可以做个参考。

scrapy反爬虫与反反爬虫文章比较多，都简谈不全，现在搜集好多资料，梳理一下思路，总结了一下内容。

1. 反爬虫技术

首先我们来思考一下，为什么要反爬虫？

网络中充斥大量爬虫的情况下，会使得整个网络的数据不可靠。
网站在面对高并发爬虫的攻击时，很容易被击溃。
版权数据被爬取，对于网站来说是巨大的损失。
基于以上原因，反爬虫技术孕育而生，主要包含以下最常用的反爬技术：
封IP
后台对访问进行统计，如果单个IP访问超过阈值，则封锁该IP。
封UserAgent
后台对访问进行统计，如果单个UserAgent访问超过阈值，则封锁该UserAgent。
封Cookie
后台对访问进行统计，如果单个cookies访问超过阈值，则封锁该cookie.
设置请求时间间隔
设置请求时间间隔，规避过于频繁的请求访问，避免爬虫短时间爬取大量数据。
robots.txt协议
robots.txt是一个限制爬虫的规范，该文件是用来声明哪些东西不能被爬取；设置robots.txt协议，位于robots.txt中的UserAgent不可请求网站数据。
验证码验证
发生大量请求时，弹出验证码验证，通过验证方可继续访问。
JavaScript渲染网页
将重要信息放在网页中但不写入html标签中，而浏览器会自动渲染标签中的js代码&#x