概述
robots.txt
robots协议(全名为“网络爬虫排除标准”)(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
对于robots协议如何遵守,当前较为普遍的观点是:
对于小程序这样爬取量少的小型爬虫,可以无视robots协议。(我们编程爱好者知道这一点就足够了)
一般对于像搜索引擎这样,对全网进行爬取的大型爬虫,如果无视robots协议是有法律风险的。
robots协议一般位于网站的根目录之下,我们要查看某个网站的robots协议,可以在该网站的根目录的url后面加"/robots.txt"。
例如:(以下是几个知名网站的robots协议地址)
http://www.baidu.com/robots.txt
http://www.qq.com/robots.txt
http://www.sina.com/robots.txt
如果网站没有robots协议,就说明其默许任何爬虫对其网站信息进行爬取(这样也有好处,可以便于所有搜索引擎将你的网站上的信息提供给每一个人)
如何理解robots协议的内容?
我们访问一个含有robots协议的网页,
User-agent: 后面是所限制的爬虫的名称,如果是一个"*"号,则表示针对所有爬虫
而后面的Disallow则是限制的内容,"/"表示根目录
我们访问链家网的robots协议(如下):
User-agent: Baiduspider Allow:/ User-agent: Googlebot Allow:/ User-agent: 360Spider Allow:/ User-agent: haosouspider Allow:/ User-agent: bingbot Allow:/ User-agent: msnbot Allow:/ User-agent: msnbot-media Allow:/ User-agent: Sosospider Allow:/ User-agent: Sogou News Spider Allow:/ User-agent: Yahoo! Slurp China Allow:/ User-agent: Yahoo! Allow:/ User-agent: YoudaoBot Allow:/ User-agent: YodaoBot Allow:/ User-agent: Sogou News Spider Allow:/ User-agent: bingbot Allow:/ User-agent: YisouSpider Allow:/ User-agent: ia_archiver Allow:/ User-agent: EasouSpider Allow:/ User-agent: JikeSpider Allow:/ User-agent: EtaoSpider Allow:/ User-agent:* Disallow:/
什么意思呢?意思就是以上列举的爬虫是“友好爬虫”,链家网对这些爬虫允许其爬取所有资源,而对于非友好爬虫,则禁止其爬取任何资源(但是小程序除外,可以无视robots协议,只要不把数据用作商业用途即可)
转载于:https://www.cnblogs.com/Shiko/p/10827585.html
最后
以上就是忧心钻石为你收集整理的“盗”亦有道,关于robots协议robots.txt的全部内容,希望文章能够帮你解决“盗”亦有道,关于robots协议robots.txt所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复