搜索引擎蜘蛛爬行网站足迹解读

410 阅读 0 评论 271 点赞

我是靠谱客的博主美丽钥匙，这篇文章主要介绍搜索引擎蜘蛛爬行网站足迹解读，现在分享给大家，希望可以做个参考。

你把IIS日志从空间下到本地，然后用文本工具打开;

　　2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

　　分析下 200 0 0组成部分 sc-status(协议状态) sc-substatus(协议子状态) sc-win32-status(Win32状态码)

　　sc-status(协议状态)： 200 连接成功

　　sc-substatus(协议子状态) ：0 成功

　　sc-win32-status(Win32状态码)：0 代表抓取成功并带回数据库 ; 64 指定的网络名不再可用

　　1: 在这个访问记录里面121.187.5.143是你服务器的IP地址，220.181.7.74 是bd蜘蛛的IP，/category-8-b0-min1100-max2200.html 为蜘蛛访问你的页面　80是端口　GET是打开方式　W3SVC1是记录的文件夹，这里说明，bd蜘蛛已经访问了你的category-8-b0- min1100-max2200.html 这个页面，那么最重要的是最后面的这个参数200 0 0。

　　2、200 0 0 成功访问该页面，0代表抓取成功并带回数据库。这个时候你就放心了，这个页面已经被bd收录，但是还没有释放出来，bd更新时就可能释放出来。

　　3：200 0 64 网络上流传着这么三种解释第一：64为K站的前兆。第二64的出现只是64位操作系统。第三：网络不可达，由于某种原因无法完全打开页面，或者网络不稳定这些原因，导致蜘蛛无法带回页面或者说不抓取该页面，所以200 0 64的解释也应该为：访问了该页面，但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。

　　4：304 0 0这个返回码代表蜘蛛访问的页面没有更新，和他之前来的时候是一样的，所以看到这个不要担心，蜘蛛来过，只不过你没有更新，所以他也不愿意带走这个页面。

　　5：404 0 0这个是代表404页面，但是有个很严重的问题，这个返回码告诉我们，蜘蛛来到了404页面并把他带走了，崩溃～～～～，要是这样的话基本上你要倒霉了，要你有太多的404，那么蜘蛛就会不断是抓取，不断的带走，这样会造成无数的重复页面，最终导致K站或者降权，正确的返回骂是404 0 64　这就代表蜘蛛没有抓取你这个页面。

　　6：500错误500错误是服务器内部错误，是由程序的错误造成的，我不懂程序，但是500错误是会给你减分的，这点基本的逻辑都可以想的到，要发现500错误，马上查看是哪个页面的，然后去修正以下错误吧!

　　7：302要在日志中发现302的返回码也是需要注意的，302为临时重定向，要你是长期的将这个页面重定向到另一个页面，麻烦你使用301永久重定向，要是302的话bd蜘蛛下次来还会访问这个页面，这样又会造成复制大量页面的问题，结果肯定是K，所以，抽空检查以下。

　　陈中平的回复：

　　每个网络蜘蛛都有自己的名字，在抓取网页的时候，都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求，这个请求中就有一个字段为User-agent，用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot，Baidu网络蜘蛛的标识为BaiDuSpider，Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录，网站管理员就能知道，哪些搜索引擎的网络蜘蛛过来过，什么时候过来的，以及读了多少数据等等。

　　通过ftp，查看到后台有一个包含“log”的文件。这个文件就是日志。通过查看日志中是否有baiduspider的脚印。有baiduspider就说明bd蜘蛛来过网站。

　　小刀SEO 的回复：

　　网站日志一般存放在虚拟主机的logfiles文件夹下，可以通过FTP工具将网站日志下载下来，通过txt文档方式查看。