如何防止我的XML网站地图文件显示在Google搜索结果中,例如site:搜索查询的结果:首先在搜索结果中显示站点地图文件。这些文件不是供人食用的。

Google需要能够对其进行爬网以便能够对其进行处理,因此我不能在robots.txt中禁止使用它。我只是不希望他们在处理后将其放入搜索结果中。

评论

嗯有趣。我唯一想到的是您的网站上是否有指向它的链接,或者它出现在站点地图文件中。同样,如果这可能是一个因素,我不确定是否可以在robots.txt文件中引用它。我不这么认为,只是要考虑的事情。我仅通过Google WMT提供了站点地图,并且没有看到此问题-至少现在还没有。我可以理解,不想让您的站点地图公开。我不要我的公开。那里的黑客/爬虫太多。

在此特定网站上,我在robots.txt中列出了/sitemap.xml,然后链接到其他一组其他站点地图,例如/sitemap-123.xml和/sitemap-124.xml。我每天都会重新生成站点地图,并且数字每天都在变化。被索引的是一个相当古老的索引。我没有在网站上的任何位置链接到它,但是其他网站可能在某处链接到它。

如果未使用它,请确保将其删除,然后将其排除在robots.txt文件中,它会很快从SERP中删除。奇怪的是,虽然robots.txt相当快,但Google WMT中的删除URL内容要花很多时间(对我来说是几个月)。

您是否已将XML网站地图提交到您的GWMT帐户?

直到今天,站点地图文件仍然存在。我删除了它,现在将其重定向到/sitemap.xml,我认为该特定站点地图现在将脱离索引。我想阻止Google将来也将其显示给搜索用户。

#1 楼

Google会为XML网站地图建立索引(就像其他XML文件一样)。如果Google知道一个URL并返回有效的响应,那么它将通过Google的包含规则并可能被索引。就个人而言,我仅通过GWT提交站点地图,并在robots.txt中包含Sitemap:参考,这肯定足以将其编入索引。

防止Google索引这些文件的推荐方法是:提供XML网站地图时,请包含X-Robots-Tag HTTP响应标头。例如:

X-Robots-Tag: noindex


X-Robots-Tag标头就像在HTML文件中包含机械手META标记一样,可用于任何类型的文件。

参考资料:该文档(从2008年11月开始!)似乎引用了我们自己的John Mueller(Google)在处理XML网站地图时使用X-Robots-Tag响应。是的,Google会为您的XML网站地图文件建立索引并对其进行排名/>
有关更多信息,请参阅Google开发者指南:机器人元标记和X-Robots-Tag HTTP标头规范

评论


我应该在哪里编写X-Robots-Tag:noindex标头代码?在sitemap.xml或robots.txt中?

–赞美·安萨里(Zameer Ansari)
16年1月30日在10:09

@student这是一个HTTP响应标头,因此必须在提供这些文件之前将其设置(作为HTTP响应标头的一部分)-不能在它们“内部”设置它。根据您提供这些文件的方式,可以在服务器端代码中进行设置(例如,在PHP标头中('X-Robots-Tag:noindex',true)),或者,如果您使用的是Apache,则可以在.htaccess中进行设置文件或服务器配置。有关示例代码,请参见Stephen的答案。另请参见上面链接的Google开发者指南。

–怀特先生
16年1月30日在10:52

#2 楼

MrWhite关于使用X-Robots-Tag的答案似乎是正确的方法。

以下是可在.htaccess或Apache配置文件中使用的代码。 (参考:WebmasterWorld-SERP中显示的站点地图-如何防止这种情况?)

<Files ~ "sitemap.*\.xml(\.gz)?$">
  Header append X-Robots-Tag "noindex"
</Files>


在nginx下,配置如下。 (参考:Yoast X-Robots-Tag示例)

location ~* sitemap.*\.xml(\.gz)?$ {
    add_header X-Robots-Tag "noindex";
}


#3 楼

为什么这么重要?

如果您实际上可以在SERP中找到您的站点地图,那么您会遇到更大的问题。

我将重点放在获取包含有用内容的页面上。这样一来,即使找到站点地图也将非常困难。并不是说您会在这一点上关心。

P.S.

几乎每个人都将站点地图保存在同一位置。因此,如果有人想找到您保存的位置,他们会:)

评论


我使用Google进行网站搜索,使用时偶然发现了一个站点地图。如果我的用户单击它,将会非常混乱。

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年5月22日19:25

您认为您有多少用户使用Google进行网站搜索?

–自行车
2014年5月22日19:35

在我页面顶部的搜索框中输入搜索字词的所有用户。

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年5月22日19:40

在这种情况下。您是否考虑过使用swiftype.com之类的网站进行搜索?您可以使用其他功能。您可以重新排序,删除和添加结果。您还可以获得出色的统计数据等。

–自行车
2014年5月22日19:47

#4 楼

将以下内容放入robots.txt

User-agent: *
Disallow: /sitemap.xml


,而不要通过Google网站管理员工具提交站点地图。

评论


您能否阐明您的逻辑-您的第一句话似乎与您的最后一句话发生冲突?

–怀特先生
2014年5月21日在8:47

Google仍会抓取robots.txt中阻止的站点地图吗?您有支持断言的参考吗?

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
2014年5月21日在8:48



如果您不允许sitemap.xml,我很确定它不会再被爬网。不是您想要发生的事情!

–最大
2014年9月17日下午3:29

Google不会在禁止robots.txt的情况下抓取任何文档。无论如何,不​​常见...包括站点地图。

–user47581
15年1月4日,下午3:48