我的网站被黑了。我已经清理了它,并搜索了Google site:example.com,并列出了所有结果。删除了可以的实际链接,并以example.com/ad0-b1fermarte54eb17chb-1244425的格式列出了这些链接。我已将这些链接提交给Google删除,然后Google删除了这些链接。

这里的问题是,在我进行初步搜索后,我们删除了200个网址,但出现了其他新链接无处。这些链接实际上不再起作用,并返回404页面,但是Google仍在其结果中。

我们尝试删除站点地图并重新提交。 Google已对其进行了爬网,但是它仍然没有删除虚拟搜索结果。

在我们的google网站管理员控制台中,我们发现在Coverage标签中,索引链接的数量从230个(正常使用)增加)到10.900的链接-我猜这些都是被感染并已清除的虚拟链接。

让Google自动删除失效链接的任何神奇方法是吗?还是强制它重新爬网整个网站的方法?

评论

另请参阅:网站遭到黑客入侵后,如何从Google的索引中删除外部网页?

#1 楼

Google会自动删除现在返回404状态的页面。他们将在Googlebot下次尝试抓取它们后的24小时内被删除。如果要稍微加快此过程,请为这些URL返回“ 410消失”状态。然后,将在没有下一次爬网的日子宽限期的情况下将其删除。

唯一的问题是,Googlebot可能要花几个月的时间才能爬网所有这些死页。如果您想加快抓取速度,则有两个选择:


将每个URL分别提交给Google Search Console URL删除工具。
创建一个临时站点地图,其中包含所有无效的网址,然后将该站点地图添加到Google Search Console。 (参考)

要获取所有URL的列表,建议您使用服务器日志。与site:搜索或Google Search Console相比,它们将具有更完整的URL记录。我会在命令行上使用grep。如果所有URL与您发布的URL相似,则可以为它们提供一个正则表达式模式。该URL的长度为31个字符,带有字母,破折号和数字。它以数字结尾。也许是这样的。它将查找其中的15到30个字符,后跟一个破折号和4到10个数字。

grep -oE '/[0-9a-z\-]{15,30}-[0-9]{4,10}' /var/log/apache2/example.com.log


#2 楼

通过ping Google重新抓取您的网站或重新提交站点地图将无法解决此问题,因为它会索引新的URL而不删除旧的/虚拟的URL。

用于删除URL的网站站长工具是要求Google从其索引中删除链接的唯一方法,但是,一次只允许提交一个链接以将其删除。

为了克服这一点,您可以使用chrome扩展程序自动执行此过程。它是chrome扩展商店上的付费工具(约9美元),但您可以在GitHub上免费获得。


转到此链接。

下载.zip文件。
提取并导入chrome扩展名。

现在重新加载“ URL删除”标签,您将看到一个上传.csv或.xls文件的选项。

从Search Console下载您需要删除的网址列表,然后在此处上传文件。 (这些链接将从您的站点地图中排除,因此您可以轻松找到这些URL列表)。

让该工具执行其工作,因为它肯定会花费时间,具体取决于您拥有的链接数。

评论


嘿@Anuvesh,非常感谢您的快速回复。我现在实际上正在执行此操作,发现的唯一问题是我不能从Google Search Console下载超过1000个链接,是否有任何解决方法?最好的祝福

–Rad
19年11月3日,18:18



将此插件用于excel analyticsedge.com/product。

– Anuvesh
19年11月3日在18:23

请按照以下步骤searchengineland.com/…

– Anuvesh
19年11月3日在18:25

这实际上正是我在此处发布之前所做的,这有多奇怪?问题是我陷入了第8步-我找不到“写入工作表”的选项,结果在11k中只有1.3k左右(使用Analytics Edge的基本版本)

–Rad
19年11月3日在18:28

该网站上的下载链接下载的是zip文件,而不是rar文件

– Ferrybig
19年11月4日在9:40