前两天邮箱里收到google adsense的邮件,名为优化网站的抓取与收录,其中包含4条内容:1、去除URL中的用户相关参数;2、控制无限空间;3、阻止Google爬虫抓取他们不能处理的页面;4、一人一票。 一个 URL, 一段内容。

其中第二条,控制无限空间让我颇有触动。

控制无限空间。你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。

我们玩WP过程中,一般模板上都会加一个日历表,每个写博的日子都会增加一个data的页面,正是这种情况。看到这篇文章后SITE了一下自己的域名,发现有几个data的页面已经抢到了主页的前面…罪过罪过…细节决定成败…

以下是英文站推广交流的robots.txt的写法,屏蔽了对data页面的抓取。

禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容。

User-agent: *  
Disallow: /cgi-bin  
Disallow: /wp-admin  
Disallow: /wp-content/plugins  
Disallow: /wp-content/themes  
Disallow: /wp-includes  
Disallow: /feed/  
Disallow: /comments/feed  
Disallow: /page/  
Disallow: /category/*/page/*  
Disallow: /tag/  
Disallow: */trackback/  
Disallow: /comments/  
Disallow: /category/  
Disallow: /data/ 

Sitemap: http://www.aiezu.com/sitemap.xml

最后到http://tool.motoricerca.info/robots-checker.phtml验证一下robots.txt是否规范。