与Google搜索结果有关的几个时间

作者:feir 发表于:2009-05-07,#2条评论。

昨天提供了可以在Google搜索结果页面显示网页发布时间的firefox搜索插件,很多朋友都有下载,我想安装使用应该没有什么大问题的。Kmior朋友留言关于Google搜索结果里面的更新时间问题。在回答这两个问题之前,我们先来了解下与Google搜索结果有关的几个时间——网页发布时间、Google爬虫访问页面的时间、网页被Google收录的时间、Google缓存时间。

网页发布时间就是某个具体URL诞生的日子,这个很好理解。有些网页上会有标明,我们也可以通过这个插件查看到,或者通过Google高级搜索也可以看到(但是后两个方法获得的时间不一定准确)。

Google爬虫访问页面的时间,是指Google爬虫光顾过页面的时间,不表示Google收录该页面。爬虫访问时间在apache日志里面可以查看到。Google爬虫会不定期的访问某个页面,其中最近的访问时间就是Google快照里的缓存时间(Cache)。

网页被Google收录的时间是指Google将网页收录到数据库里的时间。目前我们在Google里搜索的时候,会看到某些结果旁边有标记时间,譬如下图。
googlee694b6e5bd95e7bd91e9a1b5e79a84e697b6e997b4
对于新页面来说,这个页面是初次被收录的时间——很多时候这个页面与新网页的发布时间比较近,因为Google现在技术很NB;对于老页面而言,这个页面是Google数据库对该页面的最新更新时间——老页面只有在被发现有重大更新的时候,Google才会重新下载页面内容并做相关更新,比如搜索结果里面的更新时间显示、Cache页面更新等等。

如果Google的爬虫在访问某个页面的时候,收到304回应,那GG就不会重新下载页面的内容,因为304代码表示页面未有变动。但如果是非304反馈的时候,GG就会下载页面内容,与数据库里的旧版本比较后决定是否采取对应行动,因为页面上的改动有些是非常微小不重要,是不需要GG采取任何更新动作的。所以页面的更新时间意义不大,也不是每次修改页面内容都会对搜索引擎有影响作用。

不知道这篇内容能否对Kmior朋友的困惑有帮助。因为写这篇文章的时间比较紧张,所以如果发现有什么错误或者问题,欢迎留言讨论。

{ 2 comments… read them below or add one }

smile 2009-05-07 at 4:47 pm

如何让GOOGLE像百度一样,可以明确的显示出快照日期和时间?而不用打开缓存页面查看。我感觉这样比较方便,你有这样的FF插件吗?

谢谢!

Reply

天真 2009-05-08 at 12:23 pm

Smile你好,我没有用过这类插件。不过刚才搜索了下,发现这个插件可以查看具体某个页面的google cache时间,但是不是在gg搜索结果里面显示的。

Reply

Leave a Comment

Previous post: 让Google搜索结果显示网页发布时间及firefox插件下载

Next post: 网页收藏、书签网站真的有用吗?