谈从iis日志中探寻搜索引擎蜘蛛活动痕迹

  在站点的优化过程中个并不是说所有的站点问题都可以直接从站长工具上得到信息,往往站长工具上得到的信息都是在站点出现问题后才能察觉到。作为一名SEOer,我们更需要学会站点的隐性信息。例如,这几天做的外链效果怎样?我们的内容那些方面更加容易受到搜索引擎蜘蛛的喜爱?搜索引擎蜘蛛对于我们站点的爬行积极度如何?等等,这些都是隐藏在站点内容部的一些关键信息。这些信息通过站长工具我们很难分析。而这些信息恰恰可以从我们的站点IIS日志上找到答案。

  一:为何IIS日志在分析站点隐性信息中如此重要

  1:借由该日记记录我们可以更加清楚的分析搜索引擎蜘蛛在网站上的爬行信息,这些信息包含有蜘蛛的爬行路线以及爬行深度。通过这一些数据信息,我们可以分析近期我们建设的外链效果如何。因为我们知道外链就像是引导蜘蛛爬行的蜘蛛丝,如果外链建设的好的话,蜘蛛爬行的自然而然频繁,而且我们可以记录下从哪一个“入口”进入蜘蛛的频率高。

  2:网站的内容更新与蜘蛛爬行存在一定的关系,一般只要我们更新稳定频繁,蜘蛛的就会爬行得更加的勤。对此我们可以借助日志中的蜘蛛来访频率对网站内容的更新频率做一个细调。

  3:通过日志我们可以发现空间存在的一些故障,这些故障可能是一些站长工具无法察觉到的。就比如近阶段很火的美橙空间因为技术员误操作导致空间屏蔽了百度了蜘蛛事件,假如站长们事先分析一下分析一下空间日志,或许可以发现这一错误。

  二:如何获得日志文件以及应注意的事项

  1:要获得该日志文件我们的空间需要有iis日志记录的功能,假如我们的空间有这一功能的话,一般该日志文件会记录在weblog文件夹中,我们可以直接从这一文件夹中下载我们站点的日志文件。

  2:在使用这一功能时我们需要注意日志的生成时间设置,笔者的建议是如果站点是一个小型的站点可以让它一天生成一次,假如是比较大的站点我们可以让其每小时更新,以免生成的文件出现过大的情况。

  三:如何分析解读蜘蛛行为

  我们可以记事本的方式打开我们站点的日志文件,使用记事本的搜索功能搜索百度和谷歌的蜘蛛,分别是BaiduSpider和Googlebot 。

  百度蜘蛛

  谷歌蜘蛛

  我们可以分段进行分析:

  2012-04-5 00:47:10 是在这一个事件点蜘蛛爬进了我们的站点

  116.255.109.63 这个ip是指我们的站点

  GET紧跟其后的就是蜘蛛爬行的页面,从这边我们可以了解近期我们的什么页面被爬行过。。

  220.187.51.144 这一IP搜索引擎蜘蛛的ip地址,当然这边就可能会出现真假两种地址。那么我们要如何识别这一个地址是真的蜘蛛还是伪装的呢?笔者本文就分享自己的一个小方法,我们可以打开命令窗口,在窗口中执行nslookup+这一个所谓蜘蛛的地址。加入是货真价实的蜘蛛,那么就会有自己的服务器,反之则是无法找到信息。

  真蜘蛛

  假蜘蛛

  那么为什么日志中会有伪造的蜘蛛呢?原因就是有其他站点伪造成假蜘蛛来爬行抓取你的站点内容。如果任由这些假蜘蛛横行的话,会对站点的服务器消耗造成一定的影响。对此我们可以使用这个方法找到并屏蔽他们,当然我们还需要细心处理,否则把真蜘蛛拒之门外就不好了。

  200 0 0代表的是网页正常的状态码,当然还有其他不同数值的状态码,如500表示服务器超时等等。我们可以借由这些状态码来分析站点空间近来的表现情况。

  我们可以分析日志文件中蜘蛛最常光顾的几个页面,记录下来,并且找到为何会受到蜘蛛青睐的内外部原因。

  作为站长大多数人可能比较熟悉那些直观的数据如流量、收录、反链等的分析,对于日志文件的分析可能较为生疏。但是日志对于站点却至关重要,希望本文能够帮助大家更好的分析日志文件。

类别:服务器技术  来源:本站原创  作者:HDUT  日期:2013-01-17 17:19

上一条:乱序执行的原理——减轻数据灾难的影响
下一条:全站HTTPS来了!有何优势、与HTTP有何不同?