1.分析爬行率以验证模糊经验理论
在分析搜索引擎蜘蛛时,首先要考虑的参数之一是爬行量。一般我们把蜘蛛一天的爬行量看作一个时间段,所以经常会考虑一天的爬行率。当然,你也可以根据自己的需要调整时间限制,比如分成每小时一次,这样可以充分了解蜘蛛在每个时间段的抓取情况,然后有针对性地进行一些调整。其中,我认为一种分析可以给我们带来很大的成就感,那就是对一些模糊经验理论的验证。
比如我们经常听到这样一句话:“做网站内容的时候,要定时定量的更新,培养搜索引擎蜘蛛的抓取习惯,随意改变更新时间,可能会影响蜘蛛对网站内容的抓取。“这句话对不对?这里我们可以利用网站日志来分析搜索引擎蜘蛛的爬行率。具体操作方法是对一个月内每天每小时的蜘蛛爬行情况进行拆分统计(注意数据样本选择的合理性),然后对每个时间段进行分析,并进行对比,找出搜索引擎蜘蛛经常来的时间段,再与自己更新内容的情况进行对比,从而快速得出结论。
2.提高爬行频率,提高包含度
搜索引擎蜘蛛的抓取频率往往由网站的内容质量决定,因为只有内容更新鲜、更好的网站才能吸引蜘蛛反复抓取。比如很多大型的基于内容的网站每天都会更新大量的内容,这样蜘蛛就一直留在站内,页面抓取的频率自然会增加。在提高抓取频率的同时,搜索引擎蜘蛛会更快地抓取页面中内容和链接的更新,可以更充分地记录网站的页面内容信息。
很多朋友说他们的网站快照没有更新,或者落后好几天。个人认为也是蜘蛛爬行频率不足造成的。想要快速更新快照,尤其是新站,必须在前期做更多的内容建设。如果内容页面上没有内容更新,蜘蛛可能不会爬网和记录,或者爬网但不返回数据。下次用户搜索时,他们可能会调用存储在搜索引擎数据库中的一些数据。
3.研究蜘蛛爬行习惯,优化习惯
至于后面提到的搜索引擎蜘蛛的爬行深度、饱和度、优先爬行、冗余、爬行路径,都是对蜘蛛的爬行习惯和爬行策略的研究,因为没有具体的实践分析,所以只能在理论上谈一些自己的想法。
如果说搜索引擎蜘蛛的抓取深度不够深,主要原因是网站没有考虑到蜘蛛是可以完全抓取还是层层抓取,所以涉及到链接入口的布局,也考虑了一些蜘蛛先抓取的入口。在许多情况下,一些大型网站被诊断为改善其流量和记录。主要战略布局是优化蜘蛛爬行优先入口。实现方法是使用nofollow标签屏蔽一些页面。需要分析的大概是抓取的饱和性,因为单页抓取太多是浪费蜘蛛资源。如果能适当控制这些资源的分配,对页面的抓取和列表肯定会有很大的帮助。