Google已从我的网站缓存了数千个不应公开的PDF。我已经更新了标头,但需要删除现有的Quick View缓存。

Google网站管理员工具允许我一个一个地删除它们-但是,鉴于文件数量很大,这显然不切实际要删除。

有人知道我如何从Google缓存中批量删除PDF吗?理想情况下,我希望有一种方法删除与“ site:mysite.com * .pdf”匹配的所有内容。

评论

快速的Google搜索表明,无法使用Google API批量删除,您必须将自己的脚本拼凑在一起,以逐个删除链接

#1 楼

似乎您已经想出了如何请求删除单个URL的方法,这显然是不可能的。如果文件URL以这种特定方式是可预测的,则该过程的第二步还允许您请求删除整个目录。 (如果您有成千上万个PDF,我希望它们至少有一定的组织性。)不幸的是,不幸的是,您几乎没有选择余地。

#2 楼

最近,我有一个黑客事件,将几千个伪造的页面添加到我的网站。大部分内容都已编入索引。

我使用了WebMaster工具-批量删除网址Chrome扩展程序自动提交了要删除的网址。它基本上是一个脚本,它获取URL列表,然后一次为您提交。全部提交都需要几个小时,但至少您不必自己做。这是有关如何使用它的文章。

您可以通过直接从Search Console下载数据来获取google正在建立索引的URL的列表。转到状态>索引覆盖率,然后选择有效结果,然后向下滚动。您会看到Google已为您站点地图中没有的大量URL编制了索引。您可以下载前1000个结果。显然有一种a回的方式来获取所有这些,不仅是前几千种,而且还涉及来自excel的API调用。我只是在每两千之间等待了几天,因为它们慢慢从索引中掉出来了。列印出PDF或您指定的目标。您可能需要在此处进行一些手动复制/粘贴/删除操作。为了安全起见,我慢慢浏览了大约2700个垃圾邮件URL列表,并删除了合法URL。只用了20分钟。

如果您不想永久性地破坏垃圾邮件之类的东西,而是试图混淆高级资源,则应使用其他方法来防止对这些资源建立索引,例如作为机器人文件。但是,如果事实证明Google不听话或者您丢了球,至少现在您可以解决问题,并在几天之内将它们从索引中删除。

在我的特殊情况下,我想知道为什么Google没有时间机器按钮,撤消或重置。我的想法是,我可以告诉Google该网站是在几天前被黑客入侵的,但我们已经对其进行了修复,因此请撤消过去x天的爬网和索引编制工作。但这太容易了。

#3 楼

如果文件“不应该公开”,那么它们应该在公共互联网上。您可以(通过robots.txt和其他方法)从Google列表中删除文件,但是如果文件仍然存在,则任何人都仍然可以下载它们。

您应该对它们进行某种身份验证。例如,将文件移出公共Web目录,并从一个脚本检查它们的服务,该脚本首先检查用户是否有效。