robots.txt
中的此类URL,以使Googlebots停止索引编制? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
我的网站遭到了黑客入侵,现已恢复,但黑客在Google中索引了5000个URL现在,我在随机生成的链接上收到错误404,尤其是从以上链接开始的
/+
。 我想知道是否有一种手动方法可以从Google网站站长工具中手动删除这些网址? ?
#1 楼
我的网站已被黑客入侵,现已恢复,但是黑客在Google中索引了5000个URL,现在出现错误404
如果需要,404可能比用
robots.txt
阻止更可取这些网址已从搜索引擎(即Google)中删除。如果您阻止抓取,则该URL仍可以保持索引。 (请注意,robots.txt
主要是阻止爬网,而不是建立索引。)如果您想“加速”对这些URL的取消建立索引,则可以使用“ 410消失”代替通常的“ 404未找到”。您可以在根
.htaccess
文件中使用mod_rewrite(Apache)执行以下操作:RewriteEngine On
RewriteRule ^\+ - [G]
#2 楼
我要回答第二个问题。我想知道是否有一种手动方法可以从Google网站站长工具中手动删除这些URL?
/>
https://developers.google.com/webmasters/hacked/docs/clean_site
Google明确声明通过Google Search Console删除(网站管理员工具)是最快的。
如果黑客创建了全新的,用户可见的URL,则可以使用Search Console。这是一个完全可选的步骤。如果您只是删除页面,然后将服务器配置为返回404状态代码,则这些页面自然会随时间消失在Google的索引范围之外。在某些情况下可行:
使用URL删除的决定可能取决于创建的新的不需要的页面的数量(太多页面可能对
包含在“删除URL”中),以及这些页面可能对用户造成的潜在损害。为避免通过URL删除提交的页面
永远不会出现在搜索结果中,请确保页面也已
配置为针对不需要的/已删除的URL返回404文件未找到的响应。
因此,尽管您可以在robots.txt中阻止这些页面-但您并未按照google的说明采取任何纠正措施。
#3 楼
User-Agent: *
Disallow: /+
应该做你想做的。它会告诉机器人不要请求以
+
开头的所有URL。 #4 楼
如果您确实要使用robots.txt,这将是对您问题的简单答案。另外,我还提供了指向robots.txt规范的链接。但是另一种替代方法可能是使用.htaccess制定重写规则(如果使用Apache等)来捕获它们,并可能告诉Google更好的返回HTTP代码,或者只是将流量重定向到其他页面。评论
URL路径末尾不需要*(星号)。为了最大的蜘蛛兼容性,应将其删除。 robots.txt已经是前缀匹配,因此对于支持通配符的漫游器,/ + *与/ +相同,对于不支持通配符的漫游器,// *根本不匹配。
–怀特先生
16-11-22在12:59
没错,我只是根据他关于Googlebot的问题写的。我对其进行了编辑,以反映对多个机器人的更好兼容性。
– davidbl
16-11-22在14:01
评论
URL路径中的+(加号)没有什么特别的,它只是一个与其他字符相同的字符。您可以将Apache重定向(在.htaccess中)到robots.txt禁止漫游器访问的文件或目录。
@Mawg这样做有什么意义?
为了让表现良好的机器人拒之门外?
独立于URL的问题,您可能想阅读如何处理受感染的服务器?