坑一:flash的一些网站首页是大闪。网站一旦打开,真的很华丽。你有没有想过html代码只有一个指向flash文件的链接,没有其他文本内容,那么蜘蛛会抓取吗?此外,一些网站的主页横幅上也有flash,并添加了活动链接。虽然用户可以直接看到活动内容,但蜘蛛无法识别。有什么用?第二个坑:sission ID有些网站会用sission ID来跟踪用户访问。每个用户的访问都会生成一个唯一的sission ID,甚至蜘蛛的访问也会被视为一个新用户,url上会记录一个不同的sission ID。 搜索引擎每次都会得到不同的网址。你觉得可靠吗?第三个坑:除了301跳,搜索引擎蜘蛛对跳转非常敏感,比如java脚本跳转、302跳转等等 对于必须转弯的人,建议使用可靠的301转弯 对于其他转弯,最好不要把它们作为最后的手段,这对蜘蛛爬行没有好处 4号坑:在框架结构网站建设开发的初期,大家都比较喜欢用框架结构设计页面。现在很少有站长会用它,因为它不利于蜘蛛爬行 5号坑:动态url动态url值是由数据库驱动的网站生成的URL,带有问号、等号等特殊符号 众所周知,动态网址非常不利于搜索引擎蜘蛛爬行。就算百度能识别,也不能保证每次都能识别