海量数据采集一般有哪些反爬策略？

165 阅读 0 评论 109 点赞

我是靠谱客的博主心灵美鞋垫，这篇文章主要介绍海量数据采集一般有哪些反爬策略？，现在分享给大家，希望可以做个参考。

在海量数据采集中，很多人以为引入代理IP就行，其实不然。在大量高频的对目标网站进行请求，要面临的一个很大的问题就是如何突破目标网站的防爬机制，这直接影响到我们的爬取效率（头条系、阿里系、腾讯系无疑是防反爬技术的一梯队），而突破防爬机制引入代理IP池只是一种初级手段，必须配合我们的反爬策略：
１、没有对无头浏览器（selenium webdriver）做复杂反爬的网站，直接用程序控制无头浏览器不断的清空缓存和cookie，然后随机ua访问目标网站（中间尽量模拟人工，间隔），网站会通过js生成复杂的cookie，保持下这个cookie和对应的ua
1.1 建议对cookie+ua在程序内部做失败次数统计，超过一定失败次数后需要暂时停用这个cookie+ua组合，如果超过一个更高的阀值后，直接删除不适用该cookie+ua组合
1.2 控制好每组cookie+ua的使用频率，做到间隔和均匀
2、对于严格限制无头浏览器（阿里、点评），使用鼠标精灵等控制浏览器在虚拟机里面完整【1】里面的步骤
3、更加严格的网站（工商企业信息查询），需要模拟鼠标抖动等人工特性，进行采集
4、完全不允许匿名的网站，需要准备大量账号，登录后爬取。

在此也感谢亿牛云提供爬虫代理产品的测试支持！