防止XML网站地图显示在Google搜索结果中

如何防止我的XML网站地图文件显示在Google搜索结果中，例如site:搜索查询的结果：首先在搜索结果中显示站点地图文件。这些文件不是供人食用的。

Google需要能够对其进行爬网以便能够对其进行处理，因此我不能在robots.txt中禁止使用它。我只是不希望他们在处理后将其放入搜索结果中。

嗯有趣。我唯一想到的是您的网站上是否有指向它的链接，或者它出现在站点地图文件中。同样，如果这可能是一个因素，我不确定是否可以在robots.txt文件中引用它。我不这么认为，只是要考虑的事情。我仅通过Google WMT提供了站点地图，并且没有看到此问题-至少现在还没有。我可以理解，不想让您的站点地图公开。我不要我的公开。那里的黑客/爬虫太多。

在此特定网站上，我在robots.txt中列出了/sitemap.xml，然后链接到其他一组其他站点地图，例如/sitemap-123.xml和/sitemap-124.xml。我每天都会重新生成站点地图，并且数字每天都在变化。被索引的是一个相当古老的索引。我没有在网站上的任何位置链接到它，但是其他网站可能在某处链接到它。

如果未使用它，请确保将其删除，然后将其排除在robots.txt文件中，它会很快从SERP中删除。奇怪的是，虽然robots.txt相当快，但Google WMT中的删除URL内容要花很多时间（对我来说是几个月）。

您是否已将XML网站地图提交到您的GWMT帐户？

直到今天，站点地图文件仍然存在。我删除了它，现在将其重定向到/sitemap.xml，我认为该特定站点地图现在将脱离索引。我想阻止Google将来也将其显示给搜索用户。

#1 楼

Google会为XML网站地图建立索引（就像其他XML文件一样）。如果Google知道一个URL并返回有效的响应，那么它将通过Google的包含规则并可能被索引。就个人而言，我仅通过GWT提交站点地图，并在robots.txt中包含Sitemap:参考，这肯定足以将其编入索引。

防止Google索引这些文件的推荐方法是：提供XML网站地图时，请包含X-Robots-Tag HTTP响应标头。例如：

X-Robots-Tag: noindex

X-Robots-Tag标头就像在HTML文件中包含机械手META标记一样，可用于任何类型的文件。

参考资料：该文档（从2008年11月开始！）似乎引用了我们自己的John Mueller（Google）在处理XML网站地图时使用X-Robots-Tag响应。是的，Google会为您的XML网站地图文件建立索引并对其进行排名/>
有关更多信息，请参阅Google开发者指南：机器人元标记和X-Robots-Tag HTTP标头规范

我应该在哪里编写X-Robots-Tag：noindex标头代码？在sitemap.xml或robots.txt中？

–赞美·安萨里（Zameer Ansari）
16年1月30日在10:09

@student这是一个HTTP响应标头，因此必须在提供这些文件之前将其设置（作为HTTP响应标头的一部分）-不能在它们“内部”设置它。根据您提供这些文件的方式，可以在服务器端代码中进行设置（例如，在PHP标头中（'X-Robots-Tag：noindex'，true）），或者，如果您使用的是Apache，则可以在.htaccess中进行设置文件或服务器配置。有关示例代码，请参见Stephen的答案。另请参见上面链接的Google开发者指南。

–怀特先生
16年1月30日在10:52

#2 楼

MrWhite关于使用X-Robots-Tag的答案似乎是正确的方法。

以下是可在.htaccess或Apache配置文件中使用的代码。（参考：WebmasterWorld-SERP中显示的站点地图-如何防止这种情况？）

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>

在nginx下，配置如下。（参考：Yoast X-Robots-Tag示例）

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}

#3 楼

为什么这么重要？

如果您实际上可以在SERP中找到您的站点地图，那么您会遇到更大的问题。

我将重点放在获取包含有用内容的页面上。这样一来，即使找到站点地图也将非常困难。并不是说您会在这一点上关心。

P.S.

几乎每个人都将站点地图保存在同一位置。因此，如果有人想找到您保存的位置，他们会:)

我使用Google进行网站搜索，使用时偶然发现了一个站点地图。如果我的用户单击它，将会非常混乱。

–斯蒂芬·奥斯特米勒（Stephen Ostermiller）
2014年5月22日19:25

您认为您有多少用户使用Google进行网站搜索？

–自行车
2014年5月22日19:35

在我页面顶部的搜索框中输入搜索字词的所有用户。

–斯蒂芬·奥斯特米勒（Stephen Ostermiller）
2014年5月22日19:40

在这种情况下。您是否考虑过使用swiftype.com之类的网站进行搜索？您可以使用其他功能。您可以重新排序，删除和添加结果。您还可以获得出色的统计数据等。

–自行车
2014年5月22日19:47

#4 楼

将以下内容放入robots.txt

User-agent: *
Disallow: /sitemap.xml

，而不要通过Google网站管理员工具提交站点地图。

您能否阐明您的逻辑-您的第一句话似乎与您的最后一句话发生冲突？

–怀特先生
2014年5月21日在8:47

Google仍会抓取robots.txt中阻止的站点地图吗？您有支持断言的参考吗？

–斯蒂芬·奥斯特米勒（Stephen Ostermiller）
2014年5月21日在8:48

如果您不允许sitemap.xml，我很确定它不会再被爬网。不是您想要发生的事情！

–最大
2014年9月17日下午3:29

Google不会在禁止robots.txt的情况下抓取任何文档。无论如何，不常见...包括站点地图。

–user47581
15年1月4日，下午3:48

编程黑洞网

防止XML网站地图显示在Google搜索结果中

评论

#1 楼

评论

#2 楼

#3 楼

评论

#4 楼

评论