首页 > SEO/SEM > SEO优化网站的抓取与收录

SEO优化网站的抓取与收录

2013年4月11日 发表评论 阅读评论

前两天邮箱里收到google adsense的邮件,名为优化网站的抓取与收录,其中包含4条内容:1、去除URL中的用户相关参数;2、控制无限空间;3、阻止Google爬虫抓取他们不能处理的页面;4、一人一票。 一个 URL, 一段内容。

其中第二条,控制无限空间让我颇有触动。

控制无限空间。你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。

我们玩WP过程中,一般模板上都会加一个日历表,每个写博的日子都会增加一个data的页面,正是这种情况。看到这篇文章后SITE了一下自己的域名,发现有几个data的页面已经抢到了主页的前面…罪过罪过…细节决定成败…

以下是英文站推广交流的robots.txt的写法,屏蔽了对data页面的抓取。

禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容。

  1. User-agent: *  
  2. Disallow: /cgi-bin  
  3. Disallow: /wp-admin  
  4. Disallow: /wp-content/plugins  
  5. Disallow: /wp-content/themes  
  6. Disallow: /wp-includes  
  7. Disallow: /feed/  
  8. Disallow: /comments/feed  
  9. Disallow: /page/  
  10. Disallow: /category/*/page/*  
  11. Disallow: /tag/  
  12. Disallow: */trackback/  
  13. Disallow: /comments/  
  14. Disallow: /category/  
  15. Disallow: /data/ 

Sitemap: http://www.aiezu.com/sitemap.xml

最后到http://tool.motoricerca.info/robots-checker.phtml验证一下robots.txt是否规范。

分类: SEO/SEM 标签:
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.