我目前在两个网站上工作,一个购物车,另一个购物者。两者都使用相同的域名,例如

http://example.com/first_url 
http://example.com/second_url 


这两个URL下方都有大量页面

http://example.com/first_url/product1
http://example.com/first_url/product2 
http://example.com/first_url/product3

http://example.com/second_url/product1
http://example.com/second_url/product2 
http://example.com/second_url/product3


如何也禁止主URL /first_url/second_url以及所有子页面和子目录?我在想类似的东西,但我不知道它是否有效以及语法是否正确

Disallow: /first_url/*/
Disallow: /second_url/*/


评论

我认为您的语法正确,但不确定额外的/

#1 楼

您不需要结尾的斜杠来阻止这些目录。这将起作用:

Disallow: /first_url/*
Disallow: /second_url/*


此Google帮助页面对此进行了很好的介绍。

评论


您可以执行“ Disallow:/ first_url”。尾部的通配符将被忽略。根据developers.google.com/webmasters/control-crawl-index/docs/…的说法

– Evgenii
2014年6月10日23:44

您需要Disallow:/ url / *来匹配example.com/url/test?test=1

–加雷斯·戴恩(Gareth Daine)
2014年12月11日15:05

#2 楼

您可以将其用作默认值robots.txt

User-agent: *
Disallow: first_url/*
Disallow: second_url/*


星号将禁止该类别下的所有内容。您甚至可以通过键入特定的url来禁止该类别下的特定内容。

评论


这与接受的答案没有什么不同,只不过您缺少起始斜杠。 robots.txt中的禁止规则都应以斜杠开头。这就是文档中所有示例的方式

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
17年12月21日在21:24