还可以使Google(和其他搜索引擎)仅对站点地图中的页面进行爬网吗? >更新:
还知道堆栈溢出如何处理吗?我想知道,但不幸的是(也理解地),他们已阻止访问其站点地图。
#1 楼
包括所有页面。 XML网站地图的目的是告诉搜索引擎您所有的内容。不仅仅是新内容。从sitemaps.org网站(重点是我):
网站地图是
网站管理员通知的一种简便方法搜索引擎
有关其站点上可进行爬网的页面的信息。
如果内容很多,则可以使用多个XML网站地图。
如果您不想对内容进行爬网或编制索引,则需要明确告知搜索引擎不要对这些页面进行爬网和编制索引。使用robots.txt文件阻止您不希望爬网的任何页面或目录。您也可以为此使用meta标签。但是您不能在XML站点地图中指定不对未列出的页面进行爬网。
评论
感谢您的回答,我将在站点地图中包含所有内容。
– Mee
2010年8月24日0:00
您是否有可以处理50 + k页的图书馆?
–用户1585
2010年10月1日,1:11
数据库中有超过50k页吗?
–John Conde♦
2010-10-10 2:08
您无需将网站的每个页面都放置在站点地图中。站点地图对于通知搜索引擎有关可进行爬网的页面很有用。如果搜索引擎已经可以看到每个可抓取的页面,并且您没有添加有关“上次修改”的信息,则没有理由拥有一个。
– Django Reinhardt
2014年3月28日在13:19
这个答案似乎与webmasters.stackexchange.com/a/5151/30596有冲突。引用Google的@John Mueller,使用站点地图文件不会减少我们对您网站的正常爬网。它是附加信息,而不是替代爬网。同样,在Sitemaps文件中没有URL并不意味着它不会被索引。
–用户
2015年6月14日19:26
评论
该网站有多大? robots.txt和站点地图都有大小限制。令人惊讶的是,很多东西都超过了两者,这就是我要问的原因。@Tim,目前还不算大(所有内容都可以放在一个站点地图中),但我正在尝试提前计划。