当我打开网站的源代码时,我看不到任何内容特殊标签或任何指示发布日期的内容。它仅以常规div编写,没有特殊标记,不会告诉SE它是发布日期(我也可以在页面上有其他日期的其他日期)。
所以是是将它硬编码到Google中WordPress的发布日期在DOM树中的确切位置,还是我遗漏了一些东西?
我正在使用自己的CMS建立一个新网站,并且我试图了解如何实施日期发布识别。
#1 楼
您应该浏览xml网站地图或RSS feed版本,以通过主要搜索引擎(例如Google,Yahoo和MSN)索引您的发布数据。为您的网站生成XML网站地图,并将其提交到Web主工具中以供索引。#2 楼
我只是有一个问题,我的所有主要页面都显示为4年前已更新,即使Google知道那不是真的,因为这些页面已经被索引了那么长的时间,并且每个月都有很大的变化。经过真正的困惑,然后真正的烦恼,然后再次困惑,我终于找到了问题所在。我们的法律条款在隐藏的div中显示为“最新更新:2007年10月30日”,并且div几乎已加载到我们的所有页面上。 (因为它会在注册时弹出),所以我删除了它,现在我认为该日期将消失或更正为更合理的日期。一个警告性的故事和他们检查的另一条证据网站的语义不仅仅是技术细节或自己的索引历史。
评论
您是否在页面,RSS提要或XML站点地图上的其他任何位置包括页面的上次修改日期?
–怀特先生
2012年5月9日,0:47
我不是,因为该网站不是新闻网站,所以我不想强调它。理想情况下,我的主页没有日期。另外,我想他们可能会在lastmod中撒上一大粒盐,我知道如果我是他们的话。
–mmdanziger
2012年5月9日12:09
#3 楼
我非常怀疑帖子或文章的发布日期是基于XML网站地图中的<lastmod>
条目(正如其他人所建议的那样)或基于此问题的Last-Modified HTTP标头。 XML Sitemap只是建议性的,不是权威性的。文档的最后修改日期可能与文章的(原始)发布日期不同。而且,正如我在页面顶部的评论中提到的那样,文档的最后修改日期对于缓存和确定爬网速度可能更为重要。动态生成页面的Last-Modified HTTP标头通常非常接近实际日期/时间(对于WordPress博客而言)。另一方面,RSS / Atom提要确实包含此特定日期/时间。信息块。实际上,在内容中不包含发布日期的Wordpress网站上,发布日期仍会出现在Google的搜索结果中。据我所知,这与RSS Feed中的日期匹配。
EDIT#1:但是,RSS feed不一定包含所有页面。在大多数情况下,它应仅包含最新或最近更新的页面。但是没有理由让Google忘记已经阅读的内容,并且只要该页面的内容没有改变,那么最后修改的日期也不会改变。
如果没有RSS feed,我认为Google足够聪明来分析页面内容。特别是如果在微格式的帮助下“日期”标记了日期。 Google将以下内容视为该文章的权威发布日期是完全可行的:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google当然可以读取微格式-hCard,hReview,等
只是要补充一点,除非Google能够找到可以暗示这一点的权威性信息,否则我认为Google不会声明其发布日期。不会在推测性数据上推断出“发布日期”,因为不正确的“发布日期”对任何人都没有用,而Google会为此坚持很多!
(如果@Tom表示其他建议:)我认为帖子/文章应具有可见的发布日期。许多人没有,这可能会使读者感到沮丧,尤其是在研究技术问题时,您会发现在文章中途阅读已经过时了!
EDIT#2:我从那以后就经历了@mmdanziger在他的回答中详细说明了类似的烦恼。在我的一个旧站点中,每个页面的顶部都有“ Site Last Updated Sun 2012年6月17日”文本(未用任何特殊方式标记)(使用JavaScript写入页面!!)。相同的日期已由Google收取,现在出现在SERPS中出现的几个(但不是全部)页面旁边-当然,这不是该页面的发布日期。看来Google只是在页面上抓取了“最后更新(日期字符串)”形式的字符串(已经处理了JavaScript!)。该特定站点没有RSS feed。该站点确实有一个Sitemap.xml文件,但是日期不同。
我在其他站点上也注意到了类似的行为。
评论
如何从中识别出正确的日期?
#4 楼
我认为Google使用Sitemap和RSS feed来识别发布日期。您可以通过根据标准创建xml网站地图来在CMS中实现此功能。
<lastmod>2011-08-18</lastmod>
#5 楼
根据Google的Jonh Mueller的说法:我们使用各种信号来确定要显示哪个日期,或者根本不显示一个日期;
John Mueller-Twitter
但是,我发现Google最有可能在以下位置查找网页上的日期:
使用机器学习在页面上清晰可见
Schema.org结构化数据,尤其是如果在页面上也可以清晰地看到数据的话
#6 楼
我认为它会智能地在页面上查找任何日期,并且确信它是它使用的相关日期。有时会有些困难,因为我认为它会对SERP点击产生负面影响。功能,我想如果它是最近的文章/文章,可能会对您产生暂时的积极影响,但是我很确定如果没有它,我的网站将会更好(但是,如果没有它,Google搜索者可能会更好!)
只有通过您自己的方法,才能通过Google控制它。您可以:
用动态生成的图像替换日期,以试图阻止Google发现它,但这可能导致其他问题,例如视觉对齐/一致的字体显示/可访问性等。
从页面上剥离所有日期(如果访问者/用户希望获得有关信息的年龄,那么当他们想要发现来源的年龄时,这可能再次令人沮丧。)
由于这些原因,我会只是忽略它。
评论
我不是要删除日期:)我是想将日期功能添加到我正在构建的新站点中。
–Poyrazoğlu可以吗
11年8月18日在12:59
评论
您肯定会缺少一些东西:您只看过HTML,但是也有HTTP标头,指出页面被修改的时间。他们为您的文章的永久链接报告了什么?我猜想Google会将其与页面更改量的记录结合起来使用,但是我没有实际证据-因此是注释而不是答案。是的,我的尝试是“粗糙”的尝试。我将研究非HTML元素/标题和站点地图,就像其他人建议的那样
@Peter毫无疑问,HTTP标头(特别是Last-Modified标头)是SE使用的度量标准。但是,我怀疑它在确定文章的“发布日期”中起很大作用-至少不是Google显示的发布日期。 (其他SE似乎没有显示“发布日期”?)文章的发布日期可能不是文档的最后修改日期。动态网站上的大多数页面(甚至包括wordpress帖子)似乎都返回到当前日期/时间附近。 IMO的Last-Modified标头主要用于缓存。
我认为这与站点地图有关。.
HTTP上次修改的stackoverflow.com/questions/204010/…或一些半标准的HTML元数据:stackoverflow.com/questions/4575967/…还有其他可能性,但是我不确定Google是否真的使用它们。