可靠板栗

文章
7
资源
0
加入时间
4年1月24天

企业如何反爬虫?

防爬虫,简单来说,就是在尽量减少对正常用户的干扰的情况下尽可能的加大爬虫的成本。而反防爬虫,或者说制造隐蔽性强的爬虫,就是尽量模拟正常用户的行为。这两者是动态博弈的。大公司基本都有防爬的项目,以保护数据安全。你去试试爬几个大网站就知道了。比如,github用的是ratelimit,就搜索接口而言,对非登录用户限制非常严格,一小时只允许几十次搜索。而对登录账号则很宽松。这样就把行为统计规约到了账号上,毕竟换账号成本比ip高。而谷歌则更复杂,比如它会在网页中执行一段js,js中做一些校检,然后服务器