我是靠谱客的博主 要减肥猫咪,最近开发中收集的这篇文章主要介绍SEO学习笔记之实例解析Robots和各种蜘蛛,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

 

搞网站,多少都要懂一些SEO。继续学习相关的知识,结合本站小研究了一下。

下图是本站游戏作坊 http://www.bcbgame.com 统计图中截取的。

 


 

先看第一条数据,也就是排行老大,Googlebot 也就是Google的机器人(还是叫蜘蛛吧),爬了我二千多文件,且日期比较新,就是昨天的,说明还是比较活跃的哈。
而且成功访问robots 达到17次,这点也说明了Google对本站的收录还是比较得力的,我是和百度相比而已。 毕竟Google 已经收录了上千条。从这里的数据也就看出来了。


再看第二条数据,访问蛮频繁,但是不知到来路,难道是病毒?这个留待以后再调查。排行第三的就是百度蜘蛛:Baiduspider 。

还有一个访问robots比较频繁的就是另外一个无名蜘蛛了,是不是病毒啊啥的。

还有那个Bspider不知道哪里的蜘蛛,不知道来路,暂且留着吧。反正没耗多少流量,爱爬就爬吧。嘻嘻~~但是如果那种未知的蜘蛛耗费流量大了,就要想办法干掉。


再说说Msnbot,难怪Bing收录的少呢,原来这个蜘蛛太懒,半个月才爬一次,不过今天处理了下,过几天看下效果。


alexa蜘蛛也不积极,难怪本站排名又下降了20万,呵呵。

 

关于robots,下面的资料供参考,利用google的网站管理员工具对此可以检测。


robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt文件的格式  
User-agent: 定义搜索引擎的类型  
Disallow: 定义禁止搜索引擎收录的地址  
Allow: 定义允许搜索引擎收录的地址  

我们常用的搜索引擎类型有:
(User-agent区分大小写)  
google蜘蛛:Googlebot  
百度蜘蛛:Baiduspider  
yahoo蜘蛛:Yahoo!slurp  
alexa蜘蛛:ia_archiver  
bing蜘蛛:MSNbot  
altavista蜘蛛:scooter  
lycos蜘蛛:lycos_spider_(t-rex)  
alltheweb蜘蛛:fast-webcrawler  
inktomi蜘蛛: slurp  
Soso蜘蛛:Sosospider  
Google Adsense蜘蛛:Mediapartners-Google  
有道蜘蛛:YoudaoBot

 

robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符  
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录  
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 
 Disallow: /*?* 禁止访问网站中所有的动态页面  
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片  
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。  
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录  
Allow: /tmp 这里定义是允许爬寻tmp的整个目录  
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。  
Allow: .gif$ 允许抓取网页和gif格式图片

此外,其实robots也是是支持网站地图这个功能的

Sitemap: http://www.bcbgame.com/sitemaps/sitemaps_1.xml

最后

以上就是要减肥猫咪为你收集整理的SEO学习笔记之实例解析Robots和各种蜘蛛的全部内容,希望文章能够帮你解决SEO学习笔记之实例解析Robots和各种蜘蛛所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(43)

评论列表共有 0 条评论

立即
投稿
返回
顶部