我的网站上只有我希望用户提供URL才能访问某些页面。

我的问题是:如果我不从任何地方或至少从任何索引页面链接它们,爬虫仍会以某种方式访问​​它们吗?

#1 楼

您根本不希望该页面出现在SERP中...

不要禁止robots.txt。而是在页面上添加noindex元标记(或X-Robots-Tag HTTP标头)。

如j0k所示,可以通过某种方式找到您的页面。统计信息报告,目录列表等...

禁止robots.txt阻止网页被抓取,但仍可以编入索引,并可能在SERP中显示为仅URL链接。像这样的东西:



noindex元标记完全阻止页面出现在SERP中-但是Google必须能够抓取页面才能看到noindex元标记-因此在robots.txt中是不允许使用的。

如果页面上有任何内容不能公开使用,则页面必须具有某种身份验证。

评论


要记住的一件事是,如果这确实是机密的,那么不管您选择哪种方法,都将其与URL“隐藏”是不好的做法。在这种情况下,使用正确的身份验证非常重要。

–约翰·穆勒(John Mueller)
2012年9月12日14:19在

此外,社交媒体按钮(如/共享/ + 1 /各种书签)也会获取内容,并且可能以公开方式显示URL,标题和摘要,即使该URL上没有索引(或机器人禁止使用) 。文本文件)。防止这种情况的唯一方法是使用身份验证。

–约翰·穆勒(John Mueller)
2012年9月12日14:21在

#2 楼

好吧,我认为您有一个不错的搜寻器,可以读取robots.txt并遵循指令。还有另一个不遵循指令的代码。

您打算如何提供此url?通过电子邮件,使用Facebook或Twitter?所有这些服务都对您发送的信息进行爬网。 Gmail会解析您收到的电子邮件以提供广告。因此,您的网址将以某种方式被抓取。

有人会使用Google工具栏(或搜索引擎中的其他工具栏)。有一个选项(如果我还记得的话,默认情况下已选中),该选项允许工具栏将您访问的所有网址发送给Google。这是Google查看隐藏网络的另一种方法。因此,即使您告诉某人不要共享该网址,也隐含地他/她会(由于工具栏)。 >因此,您可以将其添加到robots.txt中,还可以提供额外的元数据,例如noindex,nofollow等。.

编辑:我。因此,请勿将其添加到robots.txt中并提供适当的元标记。

评论


我正在通过电子邮件链接它们。是的,我打算提供适当的元数据。因此,您的建议是将其添加到机器人中还是不添加?谢谢

–martjno
2012年9月4日14:38



我建议将其添加到robots.txt。但是w3d的建议改变了我的想法。不要添加它,但要提供适当的元标记。

– j0k
2012年9月4日15:05

#3 楼

除了上面的评论之外,我也建议至少使用HTACCESS身份验证-这样,您可以在个人获得授权期间为他们提供用户名/密码组合,以查看页面隐私有任何问题,那么您需要考虑使用适当的登录控制脚本。

不受保护的页面(无论您认为它的隐藏程度如何)都将变得无所作为。 >