我已经用示例页面和数据(lorem ipsum等)设置了我的网站,而Google已抓取了这些页面。我删除了所有这些页面,并实际添加了真实内容,但是在网站管理员工具中,Google仍然尝试抓取这些页面时仍然遇到很多404错误。我已将它们设置为“标记为已解决”,但某些页面仍返回404。

此外,当我在Google上搜索自己的网站时,我仍然列出了许多示例页面。如何删除它们。我认为这些无关的网页正在损害我的评分。

我实际上想删除所有这些页面,并开始将我的网站编入新的索引,但是我无法读到吗? (我已经提交了站点地图,并使用了“以Google身份获取”。)

#1 楼

好的。首先是第一件事。不要将404标记为已修复。您实际上是在延长问题。在放弃之前,Google会尝试获取多次返回404的页面。这是因为404错误表示暂时的情况,其中410错误表示页面已消失。因此,每次将404标记为已修复时,实际上是在告诉Google重试,从而重新开始清除过程。

让这些页面404一段时间,Google将会停止寻找它们,并将其从索引中删除。这将花费一些时间,但是缺少410错误,这是最简单的方法。 410错误会加快处理速度,但是很难显示410错误,默认值是404,这使其成为一种更轻松自然的解决方案。

您删除的页面将在30-60天内消失天,如果您可以等待。这取决于Google访问您的页面的频率。它可能会花费更长的时间,但是一旦找到404,Google就会喜欢先对网站进行现场检查,然后根据其中有404的位置,可能会更积极地抓捕您的网站。

使用站点地图实际上并不会通常可以解决索引的任何问题。它只会使搜索引擎的工作变得更简单。它永远不会被视为任何网站的所有页面的最终列表。如果搜索引擎读取了站点地图,但仍找到未在站点地图中列出的页面,它将继续为这些页面建立索引。

如果可行的话,一种选择是在机器人中列出这些页面.txt文件。如果没有太多(这意味着您可以做些事情,并且robots.txt文件不会太长),那将是一个更快的解决方案。否则,我将等待并让404错误自行消失。

最后一个。你会没事的。真。如果您有耐心的话,对您来说一切都会很好。

评论


将404页添加到robots.txt听起来是不好的做法。这只会使爬虫感到困惑,并且会花费很多完全不必要的家政服务。

– Dorus
2014年6月4日上午11:29

@Dorus一点也不。一个与另一个无关。将任何页面添加到robots.txt文件中都会很快将其从索引中删除。同样,搜索引擎将不会尝试访问文件,因此不会访问404。

– closetnoc
2014年6月4日14:12

如您所说,如果将其添加到robots.txt中,搜索引擎将不会尝试访问该页面,但该页面仍然存在。因此,如果有一天您将其从机械手中删除,索引将返回。最好让404或410完成工作。

–user44345
15年5月28日在11:16

@closetnoc这是什么意思,很难显示410错误?

–Evgeniy
16年5月11日在8:35

@Evgeniy默认情况下会给出404错误(至少Apache和旧版IIS)。 410错误必须是故意的,并且需要进行一些工作。从技术上讲,这不是一项艰巨的任务,但是它确实需要一些专业知识,尽管不是很多。干杯!!

– closetnoc
16年5月11日在13:52

#2 楼

发布页面后,Google将永远不会忘记它。我有15年前从中删除过网页的网站。 Googlebot仍然会回来并偶尔检查这些页面。

为了防止这些页面出现在搜索引擎中,您的404错误将可以胜任。 Googlebot下一步对其进行爬网之后,Google可能需要一天的时间才能从索引中删除该页面。如果要更快地将其删除,请改为返回“ 410 Gone”状态。 Google会在抓取它们后立即删除410个页面,而无需等待一天。 Google不会立即删除404页,以防止网站管理员按照Matt Cutts的描述射击自己。


因此,对于404s,以及我认为401s和403s,如果我们看到一个页面,然后得到一个404,我们将在抓取系统中将其保护24小时,因此我们稍等片刻,然后说这也许是一个暂时性的404,也许它本来不是一个页面找不到。


您可以考虑的另一种方法是重定向。 301将旧页面重定向到替换页面将阻止它在Google网站站长工具中显示为错误。仅当每个旧页面都有一些新页面时,才有可能。将所有测试页重定向到您的首页都无济于事,因为Google认为重定向到首页是“软404”错误,该错误仍将显示在该报告中。

在404中存在404错误网站站长工具不会伤害您。您的网站上出现一些404错误甚至可能对您有所帮助,因为它会向Googlebot显示您的网站配置正确。以下是Google的John Mueller(从事网站管理员工具和站点地图的工作)所说的关于网站管理员工具中出现的404错误的信息:


帮助!我的网站有939个检索错误!1

我每周都会遇到几次这样的问题。您并不孤单-许多网站都有抓取错误。



无效URL上的404错误不会以任何方式损害您网站的索引或排名。不管是100还是1000万,它们都不会损害您网站的排名。 http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
在某些情况下,抓取错误可能来自您网站或CMS中的合法结构性问题。你怎么说?仔细检查爬网错误的来源。如果您的网站上的静态HTML页面中的链接断开,则始终值得修复。 (感谢+ Martino Mosna)
“明显损坏的”时髦URL呢?当我们的算法喜欢您的网站时,他们可能会尝试在网站上找到更多精彩的内容,例如,尝试在JavaScript中发现新的网址。如果我们尝试使用这些“ URL”并找到404,那就太好了。我们只是不想错过任何重要的事情(在此处插入过度连接的Googlebot Meme)。 http://support.google.com/webmasters/bin/answer.py?answer=1154698

您不需要在网站站长工具中修复抓取错误。 “标记为固定”功能仅在希望跟踪进度的情况下为您提供帮助;它不会改变我们的网络搜索渠道中的任何内容,因此如果您不需要它,可以随时忽略它。
http://support.google.com/webmasters/bin/answer.py?answer= 2467403

我们基于几个因素,按优先级列出了网站站长工具中的抓取错误。如果抓取错误的第一页显然无关紧要,则可能在其他页面上找不到重要的抓取错误。
http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html

无需“修复”您网站上的抓取错误。对于正常,配置良好的网站来说,找到404错误是正常现象。如果您有一个等效的新URL,则将其重定向到它是一个好习惯。否则,您不应该创建虚假内容,不应该重定向到您的首页,robots.txt也不应该禁止这些网址-所有这些使我们更难以识别您的网站结构并对其进行正确处理。我们将这些错误称为“软件404”错误。
http://support.google.com/webmasters/bin/answer.py?answer=181708

显然-如果这些抓取错误正在显示查找您关心的URL,例如Sitemap文件中的URL,那么您应该立即采取行动。如果Googlebot无法抓取您的重要网址,则它们可能会从我们的搜索结果中删除,并且用户也可能无法访问它们。



评论


那根本不是我的经验。 Google需要一个新的索引并相当快地删除页面。我所看到的似乎与您所描述的相似,过去其他使用Google API的站点都不会刷新其数据,因此会引用您的较早著作。这些通常是垃圾/垃圾站点,这些引用可能会出现/保持/消失/重新出现。我看到这个问题的主要原因是因为Google API过去很乱,不再是垃圾邮件数据了,因为很难获得较新的数据,特别是如果您过去曾发送过垃圾邮件,那么该垃圾邮件数据就更旧了。

– closetnoc
2014年6月3日17:51

Googlebot具有一种搜寻模式,我称之为“我们在地下室发现了一个URL框”。在这种抓取模式下,它可能会连续从您的网站中抓取一千个URL,多年来您都没有使用过。这些URL通常没有入站链接,即使来自刮板站点也是如此。它们按长度顺序进行爬网,较短的URL首先被爬网。

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年6月3日17:58



可能是这样。谷歌显然是大数据。任何大型数据库都有噪音。那是不可避免的。那可能就是您正在经历的。可能正在协调各种数据库。这就说得通了。但我也警告您,如果使用旧链接和旧引用,垃圾网站只能出现2个小时。我每天都看到。他们主要在俄罗斯和波兰。这些网站用于玩本地搜索引擎,但会影响到任何网站的流量,并且可以由Google接收。每天我的数据库中大约有12个。通常,在任何时期内,只有12个站点中的1个保留。

– closetnoc
14年6月3日在18:04

939错误是什么?

– Greg Nickoloff
18-10-23在17:50

939是错误的数目,它不是错误的类型。

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
18-10-23在19:50

#3 楼

Google可能会继续尝试长时间爬网这些页面。网站管理员会犯错误,或者由于任何原因而无法访问网站,因此Google不会在404出现第一个符号时就删除内容。或者,您可以改用410 Gone。这是一个更强烈(即刻意)的信号,表明页面已从字面上“消失”并且没有回来。这可能会提示Google尽快从SERP中删除该页面。


我将它们设置为“标记为已解决”,但有些页面仍返回404。


仅当您将页面放回原位时,它们才会“解决”。如果将其标记为已解决,但该页面不存在,则抓取错误将再次发生。如果该页面不存在,则保持原样。

正版404不会损害您的搜索排名。 GWT中的404报告主要是为了您的利益,因此您可以查看何时出错了……何时找不到应找到的页面!

这些SERP中不相关的页面可能是对于您的用户而言,这是个小麻烦,但是他们在寻找什么来找到您的lorem ipsum?