概述
在海量数据采集中,很多人以为引入代理IP就行,其实不然。在大量高频的对目标网站进行请求,要面临的一个很大的问题就是如何突破目标网站的防爬机制,这直接影响到我们的爬取效率(头条系、阿里系、腾讯系无疑是防反爬技术的一梯队),而突破防爬机制引入代理IP池只是一种初级手段,必须配合我们的反爬策略:
1、没有对无头浏览器(selenium webdriver)做复杂反爬的网站,直接用程序控制无头浏览器不断的清空缓存和cookie,然后随机ua访问目标网站(中间尽量模拟人工,间隔),网站会通过js生成复杂的cookie,保持下这个cookie和对应的ua
1.1 建议对cookie+ua在程序内部做失败次数统计,超过一定失败次数后需要暂时停用这个cookie+ua组合,如果超过一个更高的阀值后,直接删除不适用该cookie+ua组合
1.2 控制好每组cookie+ua的使用频率,做到间隔和均匀
2、对于严格限制无头浏览器(阿里、点评),使用鼠标精灵等控制浏览器在虚拟机里面完整【1】里面的步骤
3、更加严格的网站(工商企业信息查询),需要模拟鼠标抖动等人工特性,进行采集
4、完全不允许匿名的网站,需要准备大量账号,登录后爬取。
在此也感谢亿牛云提供爬虫代理产品的测试支持!
最后
以上就是心灵美鞋垫为你收集整理的海量数据采集一般有哪些反爬策略?的全部内容,希望文章能够帮你解决海量数据采集一般有哪些反爬策略?所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复