我们发现sitemap.xml中存在一些页面,但Google的公共搜索索引莫名其妙地缺少这些页面。

您无法下载https://superuser.com/sitemap.xml-我们保护此文件,因为过去存在问题-但是googlebot可以。我们已经通过Google网站管理员工具验证了sitemap.xml文件今天已被下拉,并且被评为“正常”,没有任何错误(绿色复选标记)。我们网站上最近提出的50,000个问题。例如,这个问题...

https://superuser.com/questions/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-链接

...在sitemap.xml中的存在形式为...

<url>
<loc>https://superuser.com/questions/201610/how-to-see-the-end-of-a-long-chain-of-symbolic-links</loc>
<lastmod>2010-10-20</lastmod>
<changefreq>daily</changefreq>
<priority>0.2</priority>
</url>


搜索“如何查看长链末端”。符号链接”只会给questionhub.com一个结果,该结果正在抓取我们的数据(一个完全不同的问题)。

您可以增加问题计数的数量并精确搜索问题标题,然后看到这种模式仍然存在。为什么会这样?

评论

您可以随时在Google网站站长中心论坛中提问。 google.com/support/forum/p/Webmasters?hl=zh-CN

肯定有问题。此问题已在Google中建立索引,但超级用户STILL上的链接问题未出现在索引中。

杰夫可能会想问问马特·卡茨(Matt Cutts)。我已经看到他们在Twitter上互相交谈了几次。他通常很乐意提供帮助。

FWIW我们目前在某些站点上发现新内容索引编制方面的问题。有关此问题,请访问google.com/support/forum/p/Webmasters/…的帮助论坛中有一个主题。您提到的URL似乎受到了影响。我想这会很快解决,但是没有可用的修复时间表。多谢您的耐心配合。

看来现在已解决:-)。我尝试了网站上的一些新问题,并将它们全部编入索引。哇!

#1 楼

Google似乎在本周遇到了一些技术抓取问题,听起来像我们正在经历的事情:
http://searchengineland.com/is-google-broken-sites-big-small-seeing-indexing- Problems-53701

似乎没有人能避免Google索引编制问题的困扰,该问题使许多网站所有者感到困惑。不论大小,博客和网站的索引编制都不会像平时那样快。
...
Google的John回答了网站站长中的主题在论坛上说:

请明确一点,我对此线程进行了详细审查的问题,并不是由于我们政策的变化或算法的变化;它们是由于我们这方面的技术问题而得到的,将尽快得到解决(尽管可能需要几天才能在所有站点上看到)



#2 楼

Google不会提供任何报价,也不保证将站点地图中的页面编入索引。 。该页面/问题是否通过具有一定权限的页面直接/间接链接到?

例如如果superuser.com主页(可能有许多inlinks)直接链接到此问题,或通过许多其他页面间接链接到该问题,则可以期望将其编入索引。

来自google :


Google不保证我们会
对您的所有URL进行爬网或编制索引。
但是,我们在您的
中使用数据站点地图,了解您网站的结构,这将使我们
改善抓取进度,并在
以后更好地抓取您的网站。在大多数情况下,网站管理员将
从提交站点地图中受益,并且
在任何情况下都不会因
受到惩罚。


http:// www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156184

评论


超级用户应具有足够的链接和PR,以使有或没有站点地图的那些页面都被索引。次要页面会一直列出。实际上,它们构成了索引的大部分。我怀疑还有其他原因。

–John Conde♦
2010-10-21 19:38

同意,该站点有很多PR和链接。但是,有问题的页面有没有链接的机会吗?如果superuser.com(偶然)没有链接到该页面,那么那对Google意味着什么?它说页面不重要。

– Alex Black
2010-10-21 19:39

该页面肯定是从首页链接的,并且继续通过许多其他页面链接。 SE网站的链接非常繁重。

–凯文·蒙特罗斯♦
2010-10-21 19:48

昨天某个时候,我遇到的一个测试问题的热门话题之一是superuser.com主页-即使在Google缓存中也可以看到目标URL!但是问题本身没有被索引。很奇怪。

–杰夫·阿特伍德
2010-10-21 20:03



绝对-单击主页上的HOT选项卡,或者单击WEEKLY或MONTHLY选项卡。在那里..

–杰夫·阿特伍德
10-10-21在20:14

#3 楼

我认为Google可能很难将您的网页编入索引,其中有50.000个。因此,我的建议是将站点地图分解成这样的片段
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

如果将其分解,则可以更好地为这些50.000个网址建立索引。
Sitemaps.org对问题的解释
/>
您可以提供多个Sitemaps文件,但是您提供的每个Sitemaps文件都不得超过50,000个URL,并且不得超过10MB(10,485,760字节)。如果愿意,可以使用gzip压缩Sitemap文件,以减少带宽需求;但是,一旦解压后,站点地图文件不得大于10MB。如果要列出超过50,000个URL,则必须创建多个Sitemap文件。
如果确实提供多个Sitemap,则应在Sitemap索引文件中列出每个Sitemap文件。 Sitemaps索引文件列出的Sitemaps不得超过50,000个,并且不得大于10MB(10,485,760字节),并且可以压缩。您可以有多个Sitemap索引文件。 Sitemap索引文件的XML格式与Sitemap文件的XML格式非常相似。

http://sitemaps.org/protocol.php

评论


具有50,000页的站点地图非常常见。实际上,最近有人从他们的网站管理员帐户中发布了一个屏幕截图,显示Google已将几乎所有50,000个页面编入索引。我怀疑超级用户比其他网站更受欢迎(例如,链接受欢迎程度更高)。

–John Conde♦
2010-10-21 19:57



“您要列出的网址超过50,000个。这是一个Sitemap最多可以包含的网址。” sitemaps.blogspot.com/2005/08/using-sitemap-index-files.html

–杰夫·阿特伍德
10-10-21在20:07

如果您每天都有一个站点地图,那么一天结束后这些永不改变,因此不必再次访问该站点地图,他们就可以检索已经为更改建立索引的链接,因此Google不必走出低谷每天有50,000个网址,可以查看哪些是旧的,哪些是新的。

– Sevki
2010-10-21 20:17

@sevki到ACTIVITY DATE最早的第50,001个问题(此日期之前有新答案,修改等)不会在站点地图中。请记住,超级用户总共只有55k个问题。

–杰夫·阿特伍德
2010-10-21 20:56

@Jeff,但SO.com的站点地图中没有1,014,782和964,782,因此google或bing不知道它们的上次修改时间..这不会增加您的爬网。无论如何,我不想只是为了提供帮助而烦恼,我给您发送了一封包含更多详细信息的电子邮件。

– Sevki
10-10-21在21:06

#4 楼

Google似乎表明该索引中包含46,514个提交的链接。网页排名是否会成为问题(我不想这么说)?刮取站点可能在交联等方面做得更好,并且排名更高。只是一个想法。

此搜索站点:superuser.com如何查看一长串符号链接的末尾似乎也可以正确地获取sitemap.xml,尽管未返回预期结果。

评论


该抓取网站将superuser.com的属性指定为原始作者(尽管可以对其进行更明确的说明),因此Google应该知道他们是该内容的原始作者,并优先于该抓取网站。

–John Conde♦
2010-10-21 19:39

@john正确,我们要求提供以下内容的归因,如blog.stackoverflow.com/2010/08/defending-attribution-required中所述

–杰夫·阿特伍德
2010-10-21 20:04

缓存的站点地图是“它于2010年10月17日格林尼治标准时间(GMT)出现”,就在我撰写本文时的4天前,因此它没有太多内容。我发现在缓存的sitemap.xml中检查了一些URL,它们在Google中也作为问题页面存在。

–杰夫·阿特伍德
2010-10-21 20:26



@john您可以举一个例子,说明他们如何给出归因。谢谢

– Greg B
2010-10-21 21:53

@Greg,只需要查找超级用户徽标

–John Conde♦
10-10-22在1:12

#5 楼

这类事情有很多潜在的答案。

首先要问您实际有多少页。 (您提交了50,000个URL的快速网站:superuser.com显示有125,000个索引,您是否认为只有5万个URL并正在提交所有URL,但Google却发现每个页面有2-3个副本?或者您有100万个URL和只有12.5个URL %正在编制索引)了解全局有助于确定问题的出处。

如果第一步似乎没什么问题,我将继续研究内容,看来QH的页面上有很多内容,并且链接了许多其他“资源”,尽管事实上他们所有的内容被抓取,因为Google向用户提供了更多资源/信息,因此Google认为其页面更有用。如果他们被认为是权威机构,并且您的所有内容都与他们相同,那么即使您是原始人,Google也可能不会索引您的内容。

如果您确信这不是问题,那就建一些高质量的链接,可以在一些受欢迎的员工博客上写这个问题,也可以请一些朋友写博客,也许,如果您有运行受欢迎的博客的SEO朋友,他们会为此撰写案例研究等。

如果您获得了很多强大的链接,但仍未建立索引,则可能会受到处罚(在大多数情况下,这不是问题,但检查起来永远不会有麻烦)。

如果以上方法均无效,那么10个问题中有9个被忽略了,这是一个简单的技术问题(机器人排除或类似问题)。

如果您在进行此操作后仍无解,请问Google和希望他们能给您答案。

#6 楼

这个问题是昨天才问的-给googlebot一个机会,您不是互联网上唯一要爬网的网站,您知道吗:)

如果通常在一天左右的时间内将问题编入索引,一个星期过去了,但仍然没有索引,那么我可能会担心。但肯定不会在1天后。

评论


它们通常在一小时内出现。因此,我同意,我应该给它一些时间,但要相对于其通常的频率...我有。

– Michael Pryor
2010-10-21 21:57

@michael确保您正在将苹果与苹果进行比较-Google似乎为stackoverflow.com编制索引的速度比我们其他网站高得多。

–杰夫·阿特伍德
2010-10-22 2:10