#1 楼
要了解URL的年龄,可以通过以下链接来替换此链接:将www.example.com
替换为所需的URL:https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
例如,这是Google针对Meta网站的结果堆栈溢出的原因:
否则,Wayback机器也是一个很好的解决方案,但根据我的经验,它不够精确。
评论
Google的功能也可以用英语提供吗?您已链接到法语版本。
–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年12月3日在16:46
@StephenOstermiller只需将tld从.fr更改为.com。
– MDMoore313
2014年12月3日17:52
@Zistoloen +1为您解答,但我对您的查询有疑问。就像您说的那样,我使用示例查询搜索了www.stackexchange.com,但未显示任何结果。我同时也删除了www,搜索时显示的是2014年12月1日的结果,该日期是最近的日期,不能为URL的使用期限。我搜索不正确吗?或缺少任何东西?
– Sathiya Kumar
2014年12月3日18:34
我“偷”了这个答案,并将其添加到我的答案中,并提供了更好的解释。 Zistoloen,这真是个绝招。
–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年12月3日在18:39
@Stephen&Zistoloen:通常不是Google首次将该页面编入索引的日期。根据一些测试,通过此方法显示的日期似乎是从页面内容中拉出的(如果Google认为它看起来像是“发布日期”或“最后修改日期”),或者如果没有,根据Google上次观察到页面(实质性?)更改的日期在内容中找到日期。当然,如果该页面在首次发布后从未更改过,则该日期可能恰好与发布日期相同,但不能保证这一点。
–伊尔马里(Ilmari Karonen)
2014年12月3日19:07
#2 楼
Zistoloen找到了一种方法,让Google在首次索引页面内容时显示日期。我也将其添加到我的答案中,因为我想我可以更清楚地解释它。使用“搜索工具”从“任意时间”下拉列表中选择“自定义范围...”
将日期范围大,例如1/1/1900至1/1/2020
,Google将在搜索结果中显示其发现页面上内容的日期。
如果页面使用新内容更新,则Google也会更新该日期。因此,它更像是“首先为该内容建立索引”日期,而不是“首先为该内容建立索引”日期。
页面的Google缓存显示了该页面上次被索引的时间。您可以看到Stack Exchange主页是今天上次被索引的:这样可以显示过去的页面外观。您可以弄清楚何时首次发布页面。首次发布后不久,Google和Internet存档都会抓取并使用该页面。
评论
您的第一选择会为所有网址提供准确的结果吗?我按照您的解释搜索了bing.com,但没有获得bing.com的第一个索引日期。对不起,如果我错了?
– Sathiya Kumar
2014年12月3日18:53
只要页面上的内容没有更改,它似乎就是准确的。如果网页进行了大修,Google可能会重置该日期。我的主页被列为2002年2月1日,即使内部页面被列为2001年2月1日。该页面在那时也进行了重新设计,而内部页面自2001年以来就没有太大变化。
–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年12月3日18:58
@SathiyaKumar Bing.com使用此方法为我提供了2014年3月19日的日期。请注意,任何未通过google索引的内容(通过robots.txt或其他方式)显然不会通过这种方式显示。
– Thebluefish
2014年12月3日23:28
#3 楼
可能没有任何方法可以确定Google何时对任意网页首次建立索引-当然,我不知道有什么方法可以这样做。 Google可能根本不存储该信息,因为没有真正的理由需要它们。此外,即使他们确实存储了这些信息,他们也没有特别的理由让第三方免费使用。(如果这是您自己的页面,并且您可以访问旧的Web服务器访问日志,这很容易-只需在日志中搜索Googlebot对该页面的首次访问即可。但是,否则无法确定。)
无论如何,上述方法由Zistoloen和Stephen Ostermiller撰写的答案通常不会透露Google首次为特定网址建立索引的日期。相反,它显示Google认为URL上的内容被发布或最后更新的日期,并且通常基于Google或多或少可靠的从页面内容本身“嗅探”日期的尝试。
在此视频中,Google的Matt Cutts简要介绍了如何选择这些日期。为了方便起见,我在下面录制了视频的相关片段(大约从2:09到2:22):
“ ...您经常会看到日期,当我们推断出来时,或者当我们第一次看到它时,无论何时我们爬行该页面,或者如果我们可以在页面上的某个位置找到它,并且可以提取该日期,您都将在摘要的开头看到它。 “
对于博客文章,Wiki页面或Stack Exchange问题之类的页面,如果软件运行站点自动在页面本身上报告准确的创建/修改日期,则Google报告的日期为可能匹配它。但是,对于其他类型的页面,Google的日期嗅探器必须更努力地工作,而且它并不总是正确的(在这种情况下,“正确”可能意味着什么)。
特别是,这些日期对于确定页面被索引多久基本上没有用,原因有两个:
如果页面最近被修改,并且修改日期为即使修改完全是微不足道的,Google也会将其显示为页面的“日期”,即使该修改完全是微不足道的。 Google目前将日期定为2014年11月10日,即最近一次编辑的日期(如页面底部所示),索引日期为2003年。那天发生的变化?只需从页面底部删除一个链接即可。
相反,如果Google在页面上找到了很旧的“发布日期”,即使是那些“发布日期”,Google似乎也很乐意接受
例如,此页上的旧编程竞赛由Google日期为1986年9月15日,实际上是该页上描述的活动日期。同样,此页面记录了1970年的一次学生罢工,其日期由Google日期为1970年5月10日(页面上扫描文档之一的日期),更荒谬的是,此Linux手册页面的日期为Google 11月4日。 ,1989年(页面上使用的随机示例日期)。
通过使用Stephen和Zistoloen描述的自定义日期范围搜索,您可以找到更多此类示例,但将范围的上限设置为例如1991年8月6日。
评论
好吧,在您的回答中,您主要反对Stephen和Zistoloen的回答,但对于OP的问题“我如何找到Google首次为URL编制索引时如何找到?”,我找不到任何适当的答案。在你的回答!
– Sathiya Kumar
2014年12月3日20:24
可能没有任何答案,除了“您不能”或“没人知道如何”。但是您是对的,让我将其编辑为我的答案。
–伊尔马里(Ilmari Karonen)
2014年12月3日在20:30
@llmariKaronen +1用于编辑和添加OP实际问题的答案。
– Sathiya Kumar
2014年12月3日20:34
评论
答案很可能是“否”。 Google甚至可能不会存储此信息(因为没有特别的原因,他们必须这样做),或者即使这样做,也可能不会将其公开给第三方。就像其他人提到的那样,您无法获得此信息。如果您有权访问服务器日志,则可以看到它第一次被爬网的时间,但这并不意味着它随后被索引了。