我们目前正在开发一个网站,该网站目前拥有800万个唯一页面,该页面将立即增长到约2000万个,最终增长到约5000万个。

在您提出批评之前...是的,它提供了独特而有用的内容。我们不断处理来自公共记录的原始数据,并且通过进行一些数据清理,实体汇总和关系映射,我们能够生成高质量的内容,开发出一个非常有用且独特的网站,部分原因是数据。

它的PR是0(新域,没有链接),我们每天以大约500页的速度在爬行,到目前为止,我们的索引页数约为30,000。以这种速度,要索引我们所有的数据将花费400多年。

我有两个问题:


索引的速率是否直接相关与PR的关系,我的意思是说,它具有足够的相关性,通过购买具有良好PR的旧域名可以使我们达到可行的索引编制率(每天约100,000页)。
是否有SEO顾问专门协助索引过程本身。在其他方面,我们在SEO方面做得很好,尤其是在页面上,此外,“长尾”关键字词组的竞争非常低,因此我们的成功主要取决于索引的页面数。

我们的主要竞争对手在短短一年的时间内就完成了约20毫米的索引页面,并获得了Alexa 2000级的排名。

我们拥有的值得注意的质量:


页面下载速度非常好(250-500毫秒)
没有错误(抓取蜘蛛时没有404或500错误)
我们使用Google网站管理员工具并每天登录
友好的网址就位
恐怕要提交站点地图。一些SEO社区发布的帖子建议一个新网站的页面数百万个,没有PR可疑。还有Google的Matt Cutts录像带,也谈到了大型网站的分期启动,以避免加强审查(在录像带中大约为2:30)。




可点击的站点链接可提供所有页面,深度不超过四页,并且通常一个页面上的内部链接不超过250(-ish)。
内部链接的锚文本是合乎逻辑的并添加了与详细信息页面上的数据具有层次关系。
我们之前已将爬网速度设置为网站站长工具上的最高爬网速度(每两秒钟最多只能浏览一个页面)。我最近将其改回了建议的“让Google决定”。



评论

我真的很想看到5000万个页面提供独特的有用内容。维基百科与您的网站相比,缺乏知识,今天只有350万页。 en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]

:)纵观讽刺……并不是页面的数量使Wikipedia成为了巨大的知识来源-显然,是的-更有用。我们的网站在数据库中为一个人的每条记录生成一个页面,并为公司的每条记录生成一个页面。我们使用数据分析和清理来动态生成业务伙伴之间的关系,以图形方式描绘相关人员和公司的业务网络。页数是我们拥有的数据量的函数。通过搜索使其可发现,这对所有人都更加有用。谢谢您的评论。

通过获取更多的链接获得更多的页面排名。从具有pagerank的页面链接到您的页面。

#1 楼

一些潜在的策略:


Google网站管理员工具可让您
请求提高抓取速度。如果还没有,请尝试
做。
再看看导航
体系结构,看看是否不能
改善对更多内容的访问
内容。从用户的角度来看:如果用户很难找到特定的信息,那么搜索引擎也可能很难。
请确保您不会由于URL参数不一致而没有重复的内容或不当使用斜线。通过消除重复的内容,您可以减少Googlebot用来抓取已被索引的内容的时间。
在可能的情况下,使用相关的内容链接和内容内的网站内链接


>随机化某些链接。内部内容随机的边栏是一个很好的用法。
使用日期和其他微格式。
尽可能使用RSS feed。 RSS
供稿的功能与站点地图的功能大致相同(实际上,网站管理员工具
允许您将供稿作为站点地图的形式提交)。
关于站点地图,请参阅此
问题。
查找获取内容外部链接的方法。这可能会加速它被索引的过程。如果适合于内容类型,则可以轻松地通过社交或电子邮件进行共享将对此有所帮助。
提供一个API来鼓励使用您的数据和指向您的数据的外部链接。您可以将归因链接
作为数据使用的必要条件。
拥抱社区。如果您以正确的方式与合适的人联系,您将通过博客和Twitter获得外部链接。
寻找围绕数据创建社区的方法。寻找一种使其社交化的方法。 API,混搭,社交小部件都可以提供帮助,但博客,社区展示,论坛和游戏机制也有帮助(另请参见此视频)。
优先确定已索引的内容。有了这么多数据,并不是所有数据都绝对至关重要。做出战略决定,确定最重要的内容,例如,它将最流行,具有最大投资回报率,将是最有用的等等,并确保首先对内容进行索引。
详细分析竞争对手的工作,以使其内容被索引。看一下他们的网站架构,他们的导航,他们的外部链接等。

最后,我应该这样说。 SEO和索引编制只是经营业务站点的一小部分。不要为了搜索引擎优化而专注于ROI。即使您有来自Google的大量流量,也可以转换它。 SEO很重要,但需要保持透视。

编辑:

作为用例的附录:您可以考虑为每个人或每个人提供评论或推荐商业。另外,发出像StackOverflow这样的用户徽章确实可以吸引至少某些人链接到您网站上自己的个人资料。这会鼓励一些外部链接到您的深层页面,这可能意味着更快地建立索引。

评论


+1-经常提及SEO是促进业务发展的更大问题的缩影;这也是最容易迷失(至少对有技术专心的人来说)。现在看电视的人比历史上任何时候都多-根据您所提供的内容,电视广告可能会更好ROI高于PPC ...

– Danlefree
2010年11月11日,0:57

微格式的好主意。这不是灵丹妙药,但是在很多地方,使用微格式标准的语义标记可能会有所帮助。

–克里斯·阿德拉尼亚(Chris Adragna)
2010年11月11日在21:09

我不知道是否有任何微格式(可能是时间戳记除外)都意味着索引编制得更快,但是使用它们可能还有其他SEO好处。至少,它使您的页面更易于爬网,并有助于使您的条目在搜索引擎结果页面上脱颖而出(取决于微格式)。

–Virtuosi Media
2010年11月11日在21:32

#2 楼


如何获得Google机器人索引的数以千万计的页面?


这不会在一夜之间发生,但是,我保证您会看到更多如果从已经存在了一段时间的类似大型网站中添加了指向深层内容的入站链接(特别是指向深层内容的站点地图页面或目录索引),则您的页面很快就会变蜘蛛。


较旧的域足以满足每天
100,000个索引页面的需求吗?


令人怀疑,除非您所谈论的较旧的域具有大量的这些年来的活动(即累积的内容和入站链接)。


是否有任何SEO顾问专门研究辅助索引过程本身。
br />

当您以这种方式提出问题时,我相信您会发现很多SEO都大声地宣称“是!”。但是,总而言之,Virtuosi Media的建议就像从任何一个建议中得到的一样都是很好的建议(更不用说潜在的坏建议了。)

从声音中,此时您应该考虑利用业务发展和公共关系渠道来建立网站的排名-获得更多指向您内容的链接(最好与现有的网站合作,该网站提供按区域定位的内容,以链接到按区域划分的内容,例如),吸引更多的人浏览您的网站(有些人会安装Google工具栏,以便他们的访问量可能有助于页面发现),并在可能的情况下,让您的企业在新闻或社区中谈论您的业务。需要它(如果您打算对某些服务收费,请考虑宣传免费试用期以引起兴趣)。

#3 楼

我知道有两种可能的方法可以为您提供一定的帮助。

一个:
我尝试了一个小技巧,该网站有一个拥有300万页面的网站,效果令人惊讶,这是我的同事创造的搜寻循环。您可能需要稍微调整一下这个主意才能使其适合您的网站。

基本上,我们设置了一天,我们认为自己不会收到很多流量(圣诞节),因此从字面上复制了我们网站上的每个链接,并将每个链接粘贴到一个在每个网页上调用的php文件中。 (侧边栏php文件)

然后我们强迫进入google搜索控制台(以前是google网站管理员工具),并告诉google提取网址并抓取该网址页面上的每个链接。

由于您有许多链接,并且这些链接所包含的页面也具有大量链接,因此Google陷入了一个循环,以一种更快的方式抓取了该网站。起初我对此表示怀疑,但是它像一个魅力。

在执行此操作之前,必须确保您具有非常有效的数据库设置和非常强大的服务器,否则可能导致服务器超载或损坏您的服务器由于页面加载速度慢而导致SEO。

如果这不是您的选择,则可以随时查看google的云控制台api。他们有一个Search Console API,因此您可以编写脚本以将每个网页添加为Search Console中自己的网站实例,或者让Google抓取您的每个网址。

这些api可能会变得很复杂速度非常快,但是如果正确使用,它是一个了不起的工具。

祝你好运!

评论


将页面链接在一起是使它们全部爬网的好策略。比尝试依赖XML网站地图要好得多。但是,我会一直将这些链接保留在原处,而不是在圣诞节那天。删除链接后,Google会立即注意到页面上丢失的链接,并停止对其编制索引。

–斯蒂芬·奥斯特米勒(Stephen Ostermiller)
16年11月16日在12:31

#4 楼

我曾经有过这种网站的经验。多年前,我运行了一个文章目录,索引的页面百分比(实际上更重要的是实际执行的百分比)与引荐域的数量直接相关,即链接的唯一网站的数量。一个拥有数百万个页面的大型网站需要几千个合理的链接可以独立执行。

肯定不会在一夜之间发生,但是如果您每天建立5-10个良好的链接,它将开始发生,那么您将可以赚钱,并用它来花钱让专业的SEO团队为您建立链接。

目前,我正在建立一个类似的信息丰富的网站,但它的初期阶段,但与大约400万页的内容,每天的抓取速度为700-1,000页。

#5 楼

如果您经营一家重视在线声誉的合法公司,那么对系统进行游戏绝不是一个好主意。另外,如果您的网站真正提供了价值,那么它存在的时间就越长(我想您正在进行某种形式的营销?),它将产生更多的反向链接,因此您的PR将会提高,爬网率也会提高。

此外,如果您的网站上具有良好的链接结构(所有页面都可以通过合理的点击次数/链接找到),那么您只需要通过站点地图提交主要索引。这些页面一旦被Google索引,它们就会被Google抓取,而Google会自行索引其余页面。

评论


+1 RE:对系统进行游戏-尽管我认为应该指出,对系统进行游戏有很多替代方法,这些方法使网站管理员可以生成到其站点的合法反向链接(对访问者有用)。

– Danlefree
2010年11月11日,0:52

@danlefree:绝对可以。我只是指购买过期的域名以获取其剩余的PR /流量。但是,如果您可以为您的网站做广告,发布新闻稿以交易出版物,应用程序审查站点等,那么这是生成合法反向链接的好方法。

–Lèsemajesté
2010年11月11日,0:56



#6 楼

我注意到Google网站站长工具的一件事是,它们以允许每秒大约两个请求的最大爬网速度开始。然后大约一个星期左右,如果他们发现该网站经常被访问,那么他们将允许您增加限制。

我与他人合办了一个网站,该网站托管着超过500,000张原始图像,有时,我的最大限制是每秒请求10次,因为如果我每天点击至少700到1000次,那么我的命中次数就最多。

,所以您可能想每周检查一次网站站长工具,看看是否可以提高抓取限制。当您更改抓取限制时,Google会在一天过后将其重置回其首选设置(界面将向您显示)。然后在那一天,再次提高限制。