我是靠谱客的博主 忧心钻石,最近开发中收集的这篇文章主要介绍“盗”亦有道,关于robots协议robots.txt,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

robots.txt

robots协议(全名为“网络爬虫排除标准”)(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

对于robots协议如何遵守,当前较为普遍的观点是:

对于小程序这样爬取量少的小型爬虫,可以无视robots协议。(我们编程爱好者知道这一点就足够了)

一般对于像搜索引擎这样,对全网进行爬取的大型爬虫,如果无视robots协议是有法律风险的。

robots协议一般位于网站的根目录之下,我们要查看某个网站的robots协议,可以在该网站的根目录的url后面加"/robots.txt"。

例如:(以下是几个知名网站的robots协议地址)

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

http://www.sina.com/robots.txt

如果网站没有robots协议,就说明其默许任何爬虫对其网站信息进行爬取(这样也有好处,可以便于所有搜索引擎将你的网站上的信息提供给每一个人)

如何理解robots协议的内容?

我们访问一个含有robots协议的网页,

User-agent: 后面是所限制的爬虫的名称,如果是一个"*"号,则表示针对所有爬虫

而后面的Disallow则是限制的内容,"/"表示根目录

我们访问链家网的robots协议(如下):

 

User-agent:	Baiduspider
Allow:/

User-agent:	Googlebot
Allow:/

User-agent:	360Spider
Allow:/

User-agent:	haosouspider
Allow:/

User-agent:	bingbot
Allow:/

User-agent:	msnbot
Allow:/

User-agent:	msnbot-media
Allow:/

User-agent:	Sosospider
Allow:/

User-agent:	Sogou News Spider
Allow:/

User-agent:	Yahoo! Slurp China
Allow:/

User-agent:	Yahoo!
Allow:/

User-agent:	YoudaoBot
Allow:/

User-agent:	YodaoBot
Allow:/

User-agent:	Sogou News Spider
Allow:/

User-agent:	bingbot
Allow:/

User-agent:	YisouSpider
Allow:/

User-agent:	ia_archiver
Allow:/

User-agent:	EasouSpider
Allow:/

User-agent:	JikeSpider
Allow:/

User-agent:	EtaoSpider
Allow:/

User-agent:*
Disallow:/

什么意思呢?意思就是以上列举的爬虫是“友好爬虫”,链家网对这些爬虫允许其爬取所有资源,而对于非友好爬虫,则禁止其爬取任何资源(但是小程序除外,可以无视robots协议,只要不把数据用作商业用途即可)

 

转载于:https://www.cnblogs.com/Shiko/p/10827585.html

最后

以上就是忧心钻石为你收集整理的“盗”亦有道,关于robots协议robots.txt的全部内容,希望文章能够帮你解决“盗”亦有道,关于robots协议robots.txt所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(40)

评论列表共有 0 条评论

立即
投稿
返回
顶部