http://example.com/first_url
http://example.com/second_url
这两个URL下方都有大量页面
http://example.com/first_url/product1
http://example.com/first_url/product2
http://example.com/first_url/product3
http://example.com/second_url/product1
http://example.com/second_url/product2
http://example.com/second_url/product3
如何也禁止主URL
/first_url
和/second_url
以及所有子页面和子目录?我在想类似的东西,但我不知道它是否有效以及语法是否正确Disallow: /first_url/*/
Disallow: /second_url/*/
#1 楼
您不需要结尾的斜杠来阻止这些目录。这将起作用:Disallow: /first_url/*
Disallow: /second_url/*
此Google帮助页面对此进行了很好的介绍。
评论
您可以执行“ Disallow:/ first_url”。尾部的通配符将被忽略。根据developers.google.com/webmasters/control-crawl-index/docs/…的说法
– Evgenii
2014年6月10日23:44
您需要Disallow:/ url / *来匹配example.com/url/test?test=1
–加雷斯·戴恩(Gareth Daine)
2014年12月11日15:05
#2 楼
您可以将其用作默认值robots.txt
:User-agent: *
Disallow: first_url/*
Disallow: second_url/*
星号将禁止该类别下的所有内容。您甚至可以通过键入特定的url来禁止该类别下的特定内容。
评论
这与接受的答案没有什么不同,只不过您缺少起始斜杠。 robots.txt中的禁止规则都应以斜杠开头。这就是文档中所有示例的方式
–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
17年12月21日在21:24
评论
我认为您的语法正确,但不确定额外的/