我的问题是:如果我不从任何地方或至少从任何索引页面链接它们,爬虫仍会以某种方式访问它们吗?
#1 楼
您根本不希望该页面出现在SERP中...不要禁止robots.txt。而是在页面上添加noindex元标记(或X-Robots-Tag HTTP标头)。
如j0k所示,可以通过某种方式找到您的页面。统计信息报告,目录列表等...
禁止robots.txt阻止网页被抓取,但仍可以编入索引,并可能在SERP中显示为仅URL链接。像这样的东西:
noindex元标记完全阻止页面出现在SERP中-但是Google必须能够抓取页面才能看到noindex元标记-因此在robots.txt中是不允许使用的。
如果页面上有任何内容不能公开使用,则页面必须具有某种身份验证。
#2 楼
好吧,我认为您有一个不错的搜寻器,可以读取robots.txt并遵循指令。还有另一个不遵循指令的代码。您打算如何提供此url?通过电子邮件,使用Facebook或Twitter?所有这些服务都对您发送的信息进行爬网。 Gmail会解析您收到的电子邮件以提供广告。因此,您的网址将以某种方式被抓取。
有人会使用Google工具栏(或搜索引擎中的其他工具栏)。有一个选项(如果我还记得的话,默认情况下已选中),该选项允许工具栏将您访问的所有网址发送给Google。这是Google查看隐藏网络的另一种方法。因此,即使您告诉某人不要共享该网址,也隐含地他/她会(由于工具栏)。 >因此,您可以将其添加到robots.txt中,还可以提供额外的元数据,例如noindex,nofollow等。.
编辑:我。因此,请勿将其添加到robots.txt中并提供适当的元标记。
评论
我正在通过电子邮件链接它们。是的,我打算提供适当的元数据。因此,您的建议是将其添加到机器人中还是不添加?谢谢
–martjno
2012年9月4日14:38
我建议将其添加到robots.txt。但是w3d的建议改变了我的想法。不要添加它,但要提供适当的元标记。
– j0k
2012年9月4日15:05
#3 楼
除了上面的评论之外,我也建议至少使用HTACCESS身份验证-这样,您可以在个人获得授权期间为他们提供用户名/密码组合,以查看页面隐私有任何问题,那么您需要考虑使用适当的登录控制脚本。不受保护的页面(无论您认为它的隐藏程度如何)都将变得无所作为。 >
评论
要记住的一件事是,如果这确实是机密的,那么不管您选择哪种方法,都将其与URL“隐藏”是不好的做法。在这种情况下,使用正确的身份验证非常重要。
–约翰·穆勒(John Mueller)
2012年9月12日14:19在
此外,社交媒体按钮(如/共享/ + 1 /各种书签)也会获取内容,并且可能以公开方式显示URL,标题和摘要,即使该URL上没有索引(或机器人禁止使用) 。文本文件)。防止这种情况的唯一方法是使用身份验证。
–约翰·穆勒(John Mueller)
2012年9月12日14:21在