可能有很多新闻相关网站近段时间已经在谷歌网站管理员工具发现网站的谷歌蜘蛛抓取统计数据下降了。这并不是一个偶然的情况,也已经持续一段时间了,如果你还没有发现那也没事。 因为谷歌最近公布谷歌新闻添加了if-Modified-Since请求头标签的支持,并指出这就是3月份到现在新闻类站点抓取变化的原因。大家大可不必担心,这是谷歌蜘蛛更强高效的一个表现,Matt Cutts也指出,谷歌新闻的蜘蛛在爬行中做得更聪明更智能化了,从而更加高效。那么什么是If-Modified-Since呢? If-Modified-Since是一个标准的HTTP的请求头标签。在发送HTTP请求时,If-Modified-Since把浏览器端缓存页面的最后修改时间一起发到服务器去,服务器会把这个时间与服务器上存储的实际文件的最后修改时间进行比较。
如果时间一致,则返回HTTP状态码304(不返回文件内容);如果时间不一致,将返回HTTP状态代码200和新的文件内容。这样可以大大缩短蜘蛛的爬行时间,提高蜘蛛的爬行效率。如果时间一致,就不用再爬了,如果不一致,就继续爬新文件。这大大提高了蜘蛛在站点的工作效率,让蜘蛛抓取更多需要抓取的内容,站长们不用担心,蜘蛛只需要不抓取更少的数据就可以了。