我们做SEO的时候,常常希望知道搜索引擎爬虫什么时候光顾了我们的网站,这时我们就可以同下面的方法,将搜索引擎的抓取日志单独放在一个日志文件中。

1、 识别搜索引擎:
在“/etc/httpd/conf/httpd.conf”文件“LogFormat”前面添加如下内容,用来判断是蜘蛛抓取还是真实用户访问:
SetEnvIfNoCase User-Agent "(Googlebot|Mediapartners-Google|Baiduspider|MSNBot|sogou spider|Sosospider|YodaoBot|Yahoo|Yahoo)" robot
2、 定义日志格式:
在“httpd.conf”文件“LogFormat”下面添加一行,设置一个新的日志格式:
LogFormat "%{%Y-%m-%d %H:%M:%S}t %>s %V %h %b %r \"%{User-agent}i\" \"%{Referer}i\"" big
3、 记录搜索引擎日志:
如果服务器上面架了多个站点,就在"VirtualHost"中新增下面一行,否则就在httpd.conf中“CustomLog”下面新增下面一行:
CustomLog logs/weiyule.cn-robot big env=robot

上面的big是第二步定义的日志格式,robot是第一步的判断是否为搜索引擎的变量。

4、测试配置文件并重新加载配置文件:
httpd -t
service httpd reload