我认为Google在确定谁先发布文本以及谁进行复制方面或多或少准确。但是,当我使用“搜索工具:自定义间隔”时,结果却很奇怪。我已经找到了一个网站,该网站的历史可以追溯到2002年。什么是?



如果stackexchange.com是2009年创建的,那怎么可能? hermeneutics.se比堆栈溢出更早!

评论

有人在您之前拥有域名吗?您要在Google中进行比较的页面是什么?

我用SE数据更新了问题。时间戳记不准确。

哇。我不确定。我通常了解这种机制,但是Google所做的仍然是个谜。网上关于Google如何确定日期的信息很少。我们有一个关于Google不久前如何确定修改日期的问题。我做了一些研究,几乎没有。不过,我会再看一次。但是可能要花几天时间。请记住,CMS软件以及SE代码可能不会像Apache的HTML页面那样返回创建和修改日期。这可能就是答案。

不必是Google,但我真的很想知道我的用户是在抄袭还是被抄袭。 = /

到目前为止,看起来Google尚不了解HTML中的日期格式,但这不是结论性的。第一个示例页面的源代码未向Google提供明确的日期线索。 Google(至少)按照以下顺序查找或日期:URL,标题,正文(内容),元标记,HTTP响应中的最后修改日期。 HEAD请求返回创建日期和上次修改日期。同样,带有if-modified-since的GET返回资源为200 Ok或返回304 Not Modified。 SE代码可能不会返回这些,并且仅URL,标题,内容和元标记可用。

#1 楼

我以这种方式研究了这个问题的答案:使用Google(因为这是我的示例),Google如何获取创建日期和修改日期以及Google可以识别的日期格式。请理解,仅在几页上就没有此信息,因此我不得不从很多来源中筛选出数据,其中一些似乎并不直接适用并将其组合在一起。在某些情况下,信息是从多个来源获得的,并非总是引用。

Google按照此顺序查找页面日期;至少就Google Search Appliance而言,URL,标题标签,正文(内容),元标签,HTTP响应标头。在其他文档的其他段落中,没有记录任何命令,但是对该列表进行了讨论,似乎可以确认该列表。如果您考虑一下,这反映了搜索引擎的顺序。一个-发现您的页面(链接),第二-从上至下(标题,正文和元标记)阅读页面,但元标记(小细节)和HTTP响应标头除外。以下是涉及该设备的列表:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

注意:起始日期是Google首次请求该页面的日期。在没有创建日期的情况下,将使用起始日期。

1]任何搜索引擎都可以通过HTTP GET请求来请求资源,并且Web服务器返回响应标头中的最后修改日期,并带有

2]任何搜索引擎都可以通过HTTP HEAD请求来请求资源的标头信息,并且Web服务器返回响应标头中的修改日期,而数据中不包含资源小包。

3]任何搜索引擎都可以通过使用HTTP GET请求资源(如果if-modified-since设置为日期)来请求自某个日期以来是否已修改资源。如果自设置日期以来该资源已被修改,则Web服务器将以200 Ok响应进行响应并返回该资源,或者如果自设置日期以来未对该资源进行修改,则Web服务器将以304未修改进行响应而不返回该资源。 。

Google使用方法3发出许多请求以节省带宽。您将在Web服务器日志文件中看到这些文件。

注意:内容管理系统(CMS)或其他软件可能无法在响应标头中适当地提供日期。

这些日期示例也来自Google Appliance文档,但在其他与常规搜索有关的地方也存在。我从设备文档中获取了这些详细信息,仅仅是因为可以将其剪切并粘贴为列表,而在其他地方它并不是那么整洁。

4] Google在URL中查找日期。它寻找以下格式; YYYMMDDHH-YYYY-YYYYMM。

5] Google在标题标签中查找日期。它寻找以下格式; YYYMMDDHH-YYYY-YYYYMM,尽管我怀疑可以识别其他格式。见下文。

6] Google在body标签(内容)中查找日期。它寻找以下格式; YYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-YYMMMDD-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY,尽管我怀疑可以识别其他格式。请参见下文。

注意:众所周知,Google专门查找第一个H1标签下的日期。这是因为博客经常在此位置放置日期。

7] Google寻找这样的元标记。 <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

据说Google也可以识别以下日期格式。

YYYY-MD-YYYY.MD-YYYY / M / D-MD-YYYY-MDYYYY-M / D / YYYY-YY-MM-DD-YY.MM.DD-YY / MM / DD-WK,D MON, YR-WK,MON D,YR-D MON,YR-MON YYYY-MON D,YR-MON YY-YYYY-DM-YYYY.DM-YYYY / D / M-DM-YYYY-DMYYYY-D / M / YYYY-DD-MM-YY-MM-DD-YY-DD / MM / YY-MM / DD / YY-YYYYMMDDHH-YYYYMMDD-YYYYMM-YYYY-DDMMYYYY-MMDDYYYY-YYMMDD-DDMMYY-MMDDYY

我发现的研究没有回答时间问题。

在引用的示例中,页面没有提供日期线索,只是span标签中的日期线索可能被忽略。 SE软件/ Web服务器可能无法在任何响应标头中返回创建和修改的日期。

Google为什么以及如何得出这些日期是一个好问题,永远无法解决。我会继续寻找。

评论


您是否对“ Google以此顺序查找页面日期; URL,标题标签,正文(内容),元标签,HTTP响应标头”有任何参考?您有这项研究的任何数字或统计信息吗?如果您可以在此处发布参考文献,那对我们所有人都更好。

– PatomaS
2014年3月19日在7:02

感谢您的询问。我发现的很多东西都是零零碎碎的。在多个位置找到了该列表,但是在Google Search Appliance的文档中找到了该顺序,并且似乎在其他位置的段落中对此顺序进行了备份。我从字面上看了几十个文档,这些文档花了很多时间才能找到。我试图小心地说,我不得不汇总来自各种来源的数据,因为似乎没有任何直接的信息。我将编辑该语句以使其更清楚。

– closetnoc
2014年3月19日15:46

我还可以确认Google最近选择了一些article.post> div.post-content> h2> p级别中包含的以下日期格式字符串,并用于显示日期:“最新更新:2018年10月7日”

–马特·博尔哈(Matt Borja)
18-10-19在13:01

#2 楼

如果您想查看域的年代,请在Google上搜索备用计算机。该站点是您正在寻找的站点:http://archive.org/web/。

如果您想发现窃,此链接将为您提供帮助:http://copyscape.com/ signup.php?pro = 0&o = f

此外,在Google上搜索“抄袭检查器”。

希望我能帮上忙。

评论


尊重您,您需要重新阅读该问题。

– closetnoc
2014年3月18日15:07



问题是“如何知道页面的年龄?”请点击我的链接,您会看到答案很好。感谢您阅读本文。

–快捷方式
2014年3月18日15:46

您没有阅读问题。您正在阅读标题。回程机器无法回答问题。

– closetnoc
2014年3月18日15:50

没错,我已经编辑了问题。

–快捷方式
2014年3月18日在15:57

Wayback机器会跟踪域中的页面。比较特定页面之间的日期没有用。我正在寻找准确的方法来告诉谁首先发布。

–雷南
2014年3月18日在17:25