网站优化之]iis日志分析

IIS日志是我们分析站点近况的关键数据,是我们制定

一:IIS的重要性

1:通过站点的IIS日志我们可以了解搜索引擎对我们站点的爬行情况,包括搜索引擎的爬行轨迹和爬行量,进而分析出我们建设的外链对爬行的影响,我们把外链形容为搜索引擎蜘蛛进入我们站点的入口,同时IIS记录则会记录下搜索引擎蜘蛛从入口爬入的记录。

2:通过IIS日志可以体现出站点的空间存在着某些目前外表所不能识别的错误,而这些错误可以第一时间由IIS日志反映出来。我们可以通过日志及早的发现问题并解决问题。

3:站点的更新频率与搜索引擎的抓取频率存在着一定的关系,一般来说,更新的频率高则搜索引擎爬行得越勤。我们可以利用IIS日志中的搜索引擎爬行频率进行内容更新的微调。

4:同时通过IIS日志我们可以分析出我们的内容中,有什么是搜索引擎所青睐的,什么是搜索引擎正眼不瞧的。通过这些数据进行内容的微调。

 


二:站点IIS日志获取及设置的注意事项

1:站点的IIS日志一般是在weblog(LOG)文件中,我们可以直接从这一文件中获取站点的日志文件。

2:同时我们需要注意的是,笔者建议日志的生产我们最好设置成每小时一次。如果是站点内容较少的中小型站点可以设置为一天。如果我们的内容很多,设置为一天生成一次的话,那么日志文件就可能会出现文件过大的情况。

三:IIS日志分析

1:对日志文件的解体分析

 

我们可以使用记事本打开日志文件,同时Ctrl+F搜索其中的BaiduSpider和Googlebot这两个搜索引擎蜘蛛 。如下图所示

 

百度蜘蛛

 

 

谷歌蜘蛛

我们可以分段进行分析

2012-04-5 00:47:10 是指搜索引擎蜘蛛爬行这个页面的时间点

116.255.109.37 这个地址是指我们站点的IP地址

GET 代表事件 ,位于其后的是蜘蛛爬行的页面,而/代表的是首页。

220.187.51.144 这一IP是指搜索引擎蜘蛛的服务器的IP地址。而这一地址有时并不是真正的搜索引擎蜘蛛的IP地址,那么我们如何区分呢?笔者就分享自己的一个方法。我们可以打开

 

真蜘蛛

 

 

假蜘蛛

 

 

而为什么会出现加的蜘蛛IP呢?那时因为有人冒充搜索引擎蜘蛛到你的站点对你的内容进行采集。而如果有过度的采集将会消耗你的主机资源。对此我们可以根据之一假的IP进行屏蔽他们。

200 0 0是状态码,不同的状态码有着不同的意思,如200表示下载成功,500表示服务器超时等等。这些在一定程度上反映着我们主机的状况。

2:我们可以通过日志分析出蜘蛛爬行最频繁的几个页面,记录下来,并且分析出他们被搜索引擎蜘蛛青睐的原因。​

3:有时候我们的URL地址不统一出现URL地址带斜杠和不带斜杠的问题,搜索引擎蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的URL进行统一。​

4:搜索引擎蜘蛛对于我们站点页面的抓取是根据权重的递减分等级的,一般顺序为首页、目录页、内页。​

未经允许不得转载:445IT之家 » 网站优化之]iis日志分析

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏