如何使用robots.txt禁止整个目录？

网站管理员 | 2021-01-05 | 编程黑洞网 | 0条评论 | 523 人阅读

我目前在两个网站上工作，一个购物车，另一个购物者。两者都使用相同的域名，例如

http://example.com/first_url 
http://example.com/second_url

这两个URL下方都有大量页面

http://example.com/first_url/product1
http://example.com/first_url/product2 
http://example.com/first_url/product3

http://example.com/second_url/product1
http://example.com/second_url/product2 
http://example.com/second_url/product3

如何也禁止主URL /first_url和/second_url以及所有子页面和子目录？我在想类似的东西，但我不知道它是否有效以及语法是否正确

Disallow: /first_url/*/
Disallow: /second_url/*/

我认为您的语法正确，但不确定额外的/

#1 楼

您不需要结尾的斜杠来阻止这些目录。这将起作用：

Disallow: /first_url/*
Disallow: /second_url/*

此Google帮助页面对此进行了很好的介绍。

您可以执行“ Disallow：/ first_url”。尾部的通配符将被忽略。根据developers.google.com/webmasters/control-crawl-index/docs/…的说法

– Evgenii
2014年6月10日23:44

您需要Disallow：/ url / *来匹配example.com/url/test?test=1

–加雷斯·戴恩（Gareth Daine）
2014年12月11日15:05

#2 楼

您可以将其用作默认值robots.txt：

User-agent: *
Disallow: first_url/*
Disallow: second_url/*

星号将禁止该类别下的所有内容。您甚至可以通过键入特定的url来禁止该类别下的特定内容。

这与接受的答案没有什么不同，只不过您缺少起始斜杠。 robots.txt中的禁止规则都应以斜杠开头。这就是文档中所有示例的方式

–斯蒂芬·奥斯特米勒（Stephen Ostermiller）
17年12月21日在21:24