概述
搞网站,多少都要懂一些SEO。继续学习相关的知识,结合本站小研究了一下。
下图是本站游戏作坊 http://www.bcbgame.com 统计图中截取的。
先看第一条数据,也就是排行老大,Googlebot 也就是Google的机器人(还是叫蜘蛛吧),爬了我二千多文件,且日期比较新,就是昨天的,说明还是比较活跃的哈。
而且成功访问robots 达到17次,这点也说明了Google对本站的收录还是比较得力的,我是和百度相比而已。 毕竟Google 已经收录了上千条。从这里的数据也就看出来了。
再看第二条数据,访问蛮频繁,但是不知到来路,难道是病毒?这个留待以后再调查。排行第三的就是百度蜘蛛:Baiduspider 。
还有一个访问robots比较频繁的就是另外一个无名蜘蛛了,是不是病毒啊啥的。
还有那个Bspider不知道哪里的蜘蛛,不知道来路,暂且留着吧。反正没耗多少流量,爱爬就爬吧。嘻嘻~~但是如果那种未知的蜘蛛耗费流量大了,就要想办法干掉。
再说说Msnbot,难怪Bing收录的少呢,原来这个蜘蛛太懒,半个月才爬一次,不过今天处理了下,过几天看下效果。
alexa蜘蛛也不积极,难怪本站排名又下降了20万,呵呵。
关于robots,下面的资料供参考,利用google的网站管理员工具对此可以检测。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt文件的格式
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址
我们常用的搜索引擎类型有:
(User-agent区分大小写)
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
此外,其实robots也是是支持网站地图这个功能的
Sitemap: http://www.bcbgame.com/sitemaps/sitemaps_1.xml
最后
以上就是要减肥猫咪为你收集整理的SEO学习笔记之实例解析Robots和各种蜘蛛的全部内容,希望文章能够帮你解决SEO学习笔记之实例解析Robots和各种蜘蛛所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复