我应该将所有内容都包含在站点地图中还是仅包含新内容？

网站管理员 | 2021-01-11 | 编程黑洞网 | 0条评论 | 364 人阅读

对于具有动态内容的网站（不断添加新内容），我应该只在站点地图中包含最新内容还是应该包含所有内容（具有站点地图索引）？特别是Sitemaps的最佳做法是什么。大型网站吗？

还可以使Google（和其他搜索引擎）仅对站点地图中的页面进行爬网吗？ >更新：
还知道堆栈溢出如何处理吗？我想知道，但不幸的是（也理解地），他们已阻止访问其站点地图。

该网站有多大？ robots.txt和站点地图都有大小限制。令人惊讶的是，很多东西都超过了两者，这就是我要问的原因。

@Tim，目前还不算大（所有内容都可以放在一个站点地图中），但我正在尝试提前计划。

#1 楼

包括所有页面。 XML网站地图的目的是告诉搜索引擎您所有的内容。不仅仅是新内容。

从sitemaps.org网站（重点是我）：

网站地图是
网站管理员通知的一种简便方法搜索引擎
有关其站点上可进行爬网的页面的信息。

如果内容很多，则可以使用多个XML网站地图。

如果您不想对内容进行爬网或编制索引，则需要明确告知搜索引擎不要对这些页面进行爬网和编制索引。使用robots.txt文件阻止您不希望爬网的任何页面或目录。您也可以为此使用meta标签。但是您不能在XML站点地图中指定不对未列出的页面进行爬网。

感谢您的回答，我将在站点地图中包含所有内容。

– Mee
2010年8月24日0:00

您是否有可以处理50 + k页的图书馆？

–用户1585
2010年10月1日，1：11

数据库中有超过50k页吗？

–John Conde♦
2010-10-10 2:08

您无需将网站的每个页面都放置在站点地图中。站点地图对于通知搜索引擎有关可进行爬网的页面很有用。如果搜索引擎已经可以看到每个可抓取的页面，并且您没有添加有关“上次修改”的信息，则没有理由拥有一个。

– Django Reinhardt
2014年3月28日在13:19

这个答案似乎与webmasters.stackexchange.com/a/5151/30596有冲突。引用Google的@John Mueller，使用站点地图文件不会减少我们对您网站的正常爬网。它是附加信息，而不是替代爬网。同样，在Sitemaps文件中没有URL并不意味着它不会被索引。

–用户
2015年6月14日19:26