老生常谈ROBOTS.TXT的写法

  记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假。所以说学好技术,可以更好的知道真相。

  首先,我们先来认识我们亲爱的蜘蛛们吧:

  国内的搜索引擎蜘蛛

  百度蜘蛛:baiduspider

  搜狗蜘蛛:sogou spider

  有道蜘蛛:YodaoBot和OutfoxBot

  搜搜蜘蛛: Sosospider

  国外的搜索引擎蜘蛛

  Google蜘蛛: Googlebot

  Yahoo蜘蛛:Yahoo! Slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛(MSN):msnbot

  Robots.txt的几个常用英文意思

  • User-Agent: 适用下列规则的漫游器

  • Allow: 充许被抓取的网页

  • Disallow: 要拦截的网页

  Robots.txt的两个常用符号

  “*”: 匹配0或多个任意字符(也有所有的意思)

  “$”:匹配行结束符。

  介绍得差不多了,下面来进入正题,Robots.txt:

  一、充许所有的蜘蛛抓取:

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  (*号可以理解为所以的意思)

  二、禁止所有的robot抓取

  User-agent: *

  Disallow: /

  三、禁止某一蜘蛛抓取:

  User-agent: 蜘蛛名(上面介绍得有)

  Disallow: /

  四、只充许某一蜘蛛抓取:

  User-agent: 蜘蛛名(上面介绍得有)

  Disallow:

  User-agent: *

  Disallow: /

  上半部分是禁止该蜘蛛抓取,下半部分是充许所有,总体意思就是禁止此蜘蛛,充许其它蜘蛛。

  五、禁止蜘蛛抓取某些目录

  如禁止抓取admin和manage目录

  User-agent: *

  Disallow: /admin/

  Disallow: /manage/

  六、禁止蜘蛛特定后缀文件,这个用“*”号

  如禁止抓取.htm的文件

  User-agent: *

  Disallow: *.htm(*号后面然后是点文件名,如.asp,.php)

  七、仅充许抓取特定后缀文件,这个用“$”号

  如仅充许.htm的文件

  User-agent: *

  Allow: .htm$

  Disallow: /

  (图片也可以参考第六条和第七条这个样子)

  八、禁止抓取动态网页

  User-agent: *

  Disallow: /*?*

  这个在论坛很有用,一般伪静态后,就不需要搜索引擎再收录其动态地址了。做论坛的朋友们注意了。

  九、声明网站地图sitemap

  这个告诉搜索引擎你的sitemap在哪

  Sitemap: http://你的域名/sitemap.xml

  做完这些我们如何检查我们的robots.txt这个文件的有效性呢?推荐使用 Google管理员工具,登录后访问“工具 ->分析 robots.txt”,检查文件有效性。

类别:HTML,ASP,JSP,PHP  来源:互联网  作者:hpping  日期:2010-12-16 11:03

上一条:关于网站地图
下一条:HTML5定稿了,为什么原生App世界将被颠覆