此外,我还通过分析当前日志来编制人员流量与机器人流量用户代理列表。因此,我可能在那里缺少很多条目。是否存在维护良好的表示漫游器流量的用户代理列表,或者相反,是表示人工访问量的用户代理列表?
#1 楼
如果您只想分析“人流量”,我将不计算用户代理字符串为空或缺失的人。以我的经验,几乎所有浏览器都会发送一个。甚至大多数隐私插件或扩展都相当伪造(包括其他操作系统或客户端名称)或“规范化”(例如,没有发行号)或随机化(例如,有时FF,有时是IE字符串)UA字符串,但不能完全删除它们(因为这可能即使不是一个好主意,也会导致一些依赖它的网站出现问题。)可以这样简单地请求没有UA:
wget --user-agent="" www.example.com
如您所见,您可以添加所需的任何内容。存储和发布“在野外”发现的UA的网站没有太大用处,因为它们发现了很多废话。
也许有人只是递归地获取了您的内容。或使用某些SEO工具来分析您的网站(某些允许用户手动更改标头,而其他一些则有意忽略robots.txt行)。像这样的东西。在这种情况下,通常会伪造UA标头来隐藏客户和目的。
如果这些请求持续存在,则可能有助于进一步分析标头(代理?)或IP(某些块?涉及隐私的公司/代理人)
#2 楼
我在一家安全公司工作,除其他事项外,我们还监控Bad Bot流量。根据我的经验,使用空白用户代理数据进行的人工访问表明,“浏览器“机器人。 “但是请知道,如果需要,我们会提供免费的Bad Bot保护服务-以及CDN加速和其他功能。
在这种特定情况下,我们的系统会将此次访问识别为“可疑”,并根据已知的攻击媒介对其进行了验证,并且-如果仍然不确定,则进行进一步的测试和挑战。这些挑战是无缝执行的,不会造成会话延迟。
#3 楼
在此问题的答案中,我看到了一些评论,将用户代理与隐藏您的身份或人性化进行了比较。这是一个荒谬的比较。用户代理与身份或人类无关。像鞋类一样。您在问游客之前,要穿什么类型的鞋。最常见的用途是知道要穿哪种地毯,漂亮的红地毯用于穿正装鞋,丑陋的门垫用于泥泞。
当访客不想说出他们拥有的鞋类商品(又称空用户代理)时,您会忽略它们。
是的,有很多好的做法试图根据User-Agent和其他请求标头信息来假设有关Web请求的事情。它们可能在99%的时间内工作良好,但是与许多其他类似的做法一样,它们很容易出现假阳性,从而损害了正常的无知用户。
遇到了意外使用空白的问题用户代理本人,我可以肯定地说,当Web服务以与您不同的方式对待您,只是因为您不打算告诉您有关鞋类的信息,所以这并不有趣。
#4 楼
不会神奇地为访问互联网的每一个软件提供用户代理。软件开发人员必须将该功能编程到他们的软件中。您空白的用户代理仅表示软件开发人员忘记将用户代理添加到其软件中。评论
或者浏览器用户删除/阻止了UA字符串。
–未成年
2012年10月14日在21:07
错了说它“意味着”意味着它通常是或至少经常是原因。很少有人会使用HTTP软件,而该软件的开发人员会因懒惰而跳过UA。如果有任何内容,它几乎总是表示不想识别流量来源,并且与恶意或利用性流量密切相关。不幸的是,一些大公司(Facebook)过去使用空的用户代理字符串,因此完全阻止它们不一定是明智的。
–jerclarke
14年7月21日在16:56
@jeremyclarke +1这种行为永远不可忽视!在Facebook上感到羞耻!如果合法的漫游器或浏览器需要查看站点,则应始终具有标识符。毕竟,他们正在进入别人的财产。没有用户代理人,就像窃贼偷偷溜进来,戴着面具掩盖了他们的身份。
–白胡子
2015年11月8日,0:30
就像一个人脸蒙住地在您家门口的人行道上来回走动。不一定是非法的,但是如果您不回答问题,他们就不应认为您是一个偏执狂。
–jerclarke
2015年11月9日15:27
评论
可能的用户代理列表非常长。例如,在此处查看仅移动用户代理的列表:zytrax.com/tech/web/mobile_ids.html空白的用户代理非常罕见-您正在使用哪种服务器软件?您如何获得用户代理?您确定它确实是空白的,还是您的收集系统中存在创建空白用户代理程序的错误?
@Max-我对空的用户代理感到惊讶。我正在使用LAMP堆栈。我通过PHP将用户代理收集为$ _SERVER ['HTTP_USER_AGENT']。代码很简单;尽管我不能完全避免使用用户代理的可能性,但是我的代码无法收集它,或者数据库拒绝存储它,但我怀疑情况确实如此。
如果您有权访问Apache的访问日志:记录的用户代理是否也为空?
也许您有刮板访问您的网站?这可能是访客似乎没有USER_AGENT
的一种方式