百度蜘蛛怎样抓取和识别网站

我们在做网站结构相关SEO工作时,都应该考虑以下几个问题:

1.蜘蛛能找到所有的网页吗

2.蜘蛛知道哪个网页重要吗

3.蜘蛛能成功提取网页内容吗

4.蜘蛛能从网页中提取有用的信息吗

一、友好的网站结构

1平或树

说到网站结构,大家都会提到横向组织和树形结构,指的是物理结构,即由内容聚合目录和文件位置决定的结构。其实对于百度搜索引擎来说,只要结构合理,逻辑严密,内容有规律,就是友好的。

2链接结构

相对于物理结构,要讲逻辑结构:即内部链接形成的链接结构,这是搜索引擎最关注的。对于一个网站来说,网页只能通过首页-目录1-目录2,层层链接远远不够。一个优秀的链接结构应该是网状的。

1)首页链接应链接到重要渠道页面,渠道页面应链接到以下节点页面或普通页面。同时,频道页面、节点页面和普通页面应该能够链接回首页。

2)无论哪些页面相互链接,都需要一个描述得当的锚文本。

3)不要把链接放在JS、FLASH等搜索引擎看不见的地方。百度搜索引擎目前只支持解析部分JS和FLASH,放置在JS和FLASH中的链接大部分无法获取。此外,使用图片作为链接条目应该会改善alt标签。

4)为重要页面留有更多入口。百度搜索引擎认为获得更多内部投票相对更重要。

5)离主页越近,百度越容易关注。这个“近”指的是页面和主页之间的点击距离。即使网址位于深目录级别,只要主页上有入口,百度就认为是非常重要的页面。

6)不要创建可怕的孤岛页面。虽然百度在提交门户、社交挖掘等方面做了大量工作,但抓取链接仍然是百度获取新页面最重要的渠道。

第二,通过导航让百度更好地了解网站

1导航内容搜索引擎可见

对于用户来说,导航要解决的问题是:我在网站上的什么位置,想看到更高层次甚至更高层次的更多内容的入口在哪里。对于spider来说,导航需要解决的问题是:这个页面属于哪个领域,表达什么主题。因此,一个清晰的导航系统不仅有助于提升用户体验,对SEO也有着重要的意义。所有SEO做得好的网站基本上都有清晰的导航。

有些网站的导航很漂亮,对用户很友好,但百度看不见。目前百度无法处理所有JS和FLASH。为了安全起见,最好使用HTML。图片虽然漂亮,但作为导航对搜索引擎不友好。

2导航稳定

导航内容要相对固定,不要让导航变成“滚动条”。

3尽可能多地导航到重要网页

百度认为,领先导航中出现的链接,在重要性上仅次于网站首页,所以要尽量把重要页面排在领先导航中。当然,主导航中放不下多少内容是不可能的,哪些链接可以在主导航中使用需要SEO人员来平衡。

4巧用面包屑导航

如上所述,导航为用户解决了“想在下一级甚至上一级看到更多内容”的问题,这个导航就是指面包屑导航。广度导航可以让结构复杂的大中型网站清晰轻便。当spider解析页面时,它会关注面包屑导航的内容,这是非常推荐的。

第三,合理的领域结构

除了网站建设,网站管理员还会考虑是使用二级域名还是子目录,以及在网站运营时是否将子目录内容拆分为二级域名。因为很多SEO人员认为二级域名相对独立,它的首页会得到百度的关注,获得更好的排名——其实这是一种片面的错误观点。百度会通过很多指标来判断同一个域名下的二级域名和子目录的重要性,不会武断地认为谁生下来就比谁强。

当SEO认为网站内部结构阻碍了网站的快速发展时,会考虑改版。最常见的修订是将子目录移出主站点,单独形成二级域名。但众所周知,改版肯定会影响网站的排名和流量,所以一定要慎重。什么情况下真的需要把子目录改成二级域名?其实只有一点:子目录的内容足够丰富,与主域主题的关联性不强!

四、URL结构很重要

1.url结构正规化:同一网页上不同的URL会导致多个URL同时被用户推荐,造成权重分散。同时,百度最终选择显示的URL可能并没有达到你的预期。网站应该尽量不要在网址中放入不必要的内容,如sessionid和统计代码。如果有必要,可以禁止百度通过机器人抓取这些非标准网址。

2.最好让用户从网址判断网页内容,方便蜘蛛解析,在用户间传播。

3.网址应该尽可能短

●蜘蛛喜欢:http://www.baidu.com/#wd=分类目录

●蜘蛛不喜欢:http://www.Baidu.com/# wd = % E5 % 88% 86% E7 % B1 % bb % E7 % 9b % AE % E5 % BD % 95 &:RSV _ SPT = 1 & amp;issp=1和。f = 3 & amprsv _ bp = 0 & amprsv _ idx = 2 & ampie=utf-8&tn = baiduhome _ pg & amprsv _ enter = 0 & amprsv _ sug3 = 4 & amprsv _ sug4 = 410 & amprsv _ sug1 = 3 & ampRSV _ pq = c 415 a 6400001991 b & amp;RSV _ t = 65FajhPeg1opewqyrvbjhhrzvjetujiteletwbnt2 nrulgz % 2bsmrujj0x h 81 wsj 7rm 5 VO & amp;rsp = 3 & ampinputT = 5530 & amprsv_sug=2

4.不要添加蜘蛛无法解析的字符,例如

http://mp3.XXX.com/albumlist/234254;;;;;;;﹣和;行政长官:WF。超文本标记语言

5.不要有太多复杂的动态参数。目前百度已经很好的处理了动态URL,但是参数太复杂的URL可能会被蜘蛛抛弃,因为它们认为自己不重要。

动词 (verb的缩写)拜杜斯皮德抓握异常的原因

有一些优质内容的网页,用户可以正常访问,但是Baiduspider无法正常访问和抓取,导致搜索结果覆盖不足,对百度搜索引擎和网站都是一种损失。百度称这种情况为“异常爬行”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站在用户体验上存在缺陷,降低对网站的评价,在抓取、索引、排序等方面都会受到一定程度的负面影响,最终影响网站从百度获得的流量。