深入剖析搜索引擎蜘蛛工作对SEO的提升

搜索引擎蜘蛛是搜索引擎本身的一个程序。它的功能是访问网站的网页,抓取网页的文字、图片等信息,建立数据库,反馈给搜索引擎。用户搜索时,搜索引擎会对收集到的信息进行过滤,通过复杂的排序算法将最有用的信息呈现给用户。深入分析网站的SEO表现,一般我们会考虑搜索引擎蜘蛛的抓取质量,以下与蜘蛛抓取相关的概念可能会涉及到帮助我们优化网站:

1.爬行率:蜘蛛在给定时间内获得的页数。

2.爬行频率:搜索引擎多久对一个网站或单个网页发起一次新的爬行?

3.爬行深度:蜘蛛从起始位置点击的深度。

4.爬行饱和度:获得的唯一页数。

5.先爬行:哪些页面最常被用作蜘蛛入口。

6.爬行冗余:有多少蜘蛛同时爬行网站。

7.爬行映射:蜘蛛爬行路径恢复。

这些概念也是我们可以用来做数据分析的几个方面,那么如何应用到SEO中呢?现在我就简单说一下我自己的一些具体想法。

1.分析爬行率以验证模糊经验理论

在分析搜索引擎蜘蛛时,首先要考虑的参数之一是爬行量。一般我们把蜘蛛一天的爬行量看作一个时间段,所以经常会考虑一天的爬行率。当然,你也可以根据自己的需要来调整时间限制,比如分成每小时一次,这样可以充分了解蜘蛛在每个时间段的抓取情况,然后进行一些针对性的调整。其中,我认为一种分析可以给我们带来很大的成就感,那就是对一些模糊经验理论的验证。

比如我们经常听到这样一句话:“做网站内容的时候,要定时定量的更新,培养搜索引擎蜘蛛的抓取习惯,随意改变更新时间,可能会影响蜘蛛对网站内容的抓取。“这句话对不对?这里我们可以利用网站日志来分析搜索引擎蜘蛛的爬行率。具体操作方法是对一个月内每天每小时的蜘蛛爬行情况进行拆分统计(注意数据样本选择的合理性),然后对每个时间段进行分析,并进行对比,找出搜索引擎蜘蛛经常来的时间段,再与自己更新内容的情况进行对比,从而快速得出结论。

2.提高爬行频率,提高包含度

搜索引擎蜘蛛的抓取频率往往由网站的内容质量决定,因为只有内容更新鲜、更好的网站才能吸引蜘蛛反复抓取。比如很多大型的基于内容的网站每天都会更新大量的内容,这样蜘蛛就一直留在站内,页面抓取的频率自然会增加。在提高抓取频率的同时,搜索引擎蜘蛛会更快地抓取页面中内容和链接的更新,可以更充分地记录网站的页面内容信息。

很多朋友说他们的网站快照没有更新,或者落后好几天。个人认为也是蜘蛛爬行频率不足造成的。想要快速更新快照,尤其是新站,必须在前期做更多的内容建设。如果内容页面上没有内容更新,蜘蛛可能不会爬网和记录,或者爬网但不返回数据。下次用户搜索时,他们可能会调用存储在搜索引擎数据库中的一些数据。

3.研究蜘蛛爬行习惯,优化习惯

至于后面提到的搜索引擎蜘蛛的爬行深度、饱和度、优先爬行、冗余、爬行路径,都是对蜘蛛的爬行习惯和爬行策略的研究,因为没有具体的实践分析,所以只能在理论上谈一些自己的想法。

如果说搜索引擎蜘蛛的抓取深度不够深,主要原因是网站没有考虑到蜘蛛到底能不能完全抓取,还是一层一层的抓取。这涉及到链接入口的布局,也考虑了一些蜘蛛最先爬行的入口。在许多情况下,一些大型网站被诊断为改善其流量和记录。主要战略布局是优化蜘蛛爬行优先入口。实现这一点的方法是使用nofollow标签来屏蔽一些页面。需要分析的大概是抓取的饱和性,因为单页抓取太多是浪费蜘蛛资源。如果能适当控制这些资源的分配,对页面的抓取和列表肯定会有很大的帮助。

至于冗余和爬行路径,我们可能需要进一步分析。如果以后有进一步的文章,我们会和大家一起讨论蜘蛛爬行。

本文来自:http://www.yzdir.com最优站分类目录