谷歌发布了一种新的机器人验证码形式,要求用户单击一个复选框。它仅在必要时使用基于图像的验证。

有人可以向我解释一下这样一个程序如何使人与机器人区分开吗?可以在计算机上单击鼠标。无法访问程序文件的基于Web的程序无法检测到它。应该可以编写一个无法检测到的Windows可执行文件,该文件可以选中该复选框。还可以将程序的响应时间随机化。

几次(成功)尝试后,验证码将要求进行图像验证。也许可以通过使用Google图像搜索(按图像)搜索图像并基于“视觉相似”图像的文件名进行猜测的AI来解决。如果使用的图像不是来自网络,那么它们的数量将受到限制,并且可以创建一个数据库。 br />

#1 楼

对于stackexchange来说,这并不是一个真正的大问题,因为Google对其算法保密,因此我们真正能做的只是猜测其工作方式,但是我的理解是,新系统将分析您在Google所有服务中的活动(以及可能是Google可以控制的其他网站,例如拥有Google广告的网站。例如,如果他们过去检测到您使用的计算机/ IP地址也曾被用来做普通人会做的事情-例如检查Gmail,在Google搜索中搜索,将文件上传到云端硬盘,共享照片,浏览网络等-那么就可以合理确定您是人类,并且可以跳过图像验证。另一方面,如果它不能将您的计算机与任何以前的类似人类的活动相关联,那么它将更加可疑并为您提供图像验证。尽管鼠标单击复选框时的行为可能是其分析的因素之一,但几乎可以肯定还有很多其他原因。这只是基于Google所说的话而做出的最好的猜测: 。长期以来,CAPTCHA依靠机器人无法解决变形的文本。但是,
我们最近的研究表明,当今的人工智能技术
甚至可以以99.8%的精度解决最困难的变形文本
。因此,失真的文本本身不再是可靠的测试。

为了解决这个问题,去年,我们为reCAPTCHA开发了高级风险分析
后端,该后端积极考虑用户在验证码之前,之中和之后与CAPTCHA的全部互动,以确定
该用户是否是人类。这使我们减少了对扭曲文本键入的依赖,从而为用户提供了更好的体验。我们在今年早些时候的情人节博文中谈到了这一点。以前的浏览行为,但我的解释可能是错误的。

这是《连线》的引文: > Google的“ reCaptcha”检查每个用户不经意间提供的线索:IP地址和cookie提供证据,证明该用户是Google从网络上其他地方记住的友好用户。 Shet
说,即使用户的鼠标在它徘徊并
接近复选框时所做的微小动作也可以帮助揭示自动机器人。


stackoverflow也对此进行了讨论:https://stackoverflow.com/questions/27286232/how-does-new-google-recaptcha-work

对于图像验证,您将无法通过反向图像搜索找到这些图像,或者编译它们的数据库。它们通常是由Google的街景视图汽车捕获的随机路牌或门牌号,或者是经过Google图书项目扫描的书中的单词。这背后有一个很好的目的-Google实际上利用人们在reCaptcha中键入的内容来改进自己的数据库并训练OCR算法。 reCaptcha将相同的图像提供给许多用户,如果他们都同意图像上的内容,那么该图像将成为Google AI的训练数据。

reCAPTCHA服务为订阅的网站提供了
光学字符识别(OCR)软件无法阅读的单词图像。订阅网站(其目的通常与图书数字化项目无关)将这些图像呈现给
人类将其解密为验证码,作为其正常验证程序的一部分。然后,他们将结果返回到reCAPTCHA
服务,该服务将结果发送到数字化项目。

reCAPTCHA致力于对《纽约时报》的档案和书籍进行数字化Google图书。[3]截至2012年,《纽约时报》已经有30年的数字化,并且该项目计划在2013年底之前完成剩余的年份。现在完成的《纽约时报》档案可以从《纽约时报》文章档案库中搜索时间,该文献库总共有超过1300万条文献,文献可追溯到1851年。

评论


您能否提供答案的任何来源?

–RoraZ
2015年1月9日在18:15

你或许是正确的。我想知道与他们的隐私权政策可能存在冲突,但请仔细阅读其制定的广泛方式,尤其是他们如何使用我们收集的信息,似乎是兼容的:保护和改进它们,开发新的产品,并保护Google和我们的用户。我们还使用此信息为您提供量身定制的内容»。

–Ángel
2015年1月9日在21:55



但是,如果清除图像测试,它永远不会阻止您。 (与以前的历史记录无关)

– ghosts_in_the_code
2015年5月4日在6:27

嗨!我发现这个答案真的很有趣。但是,如果Google已经确定您是人类,那么为什么根本不显示验证码呢?

– Eli Rose-REINSTATE MONICA
17年1月1日在19:47

@EliRose reCaptcha实现的重要组成部分是在服务器端检查小部件的安全令牌。该网站需要验证它没有被欺骗。这是在用户与小部件交互时发生的。

–艾舍伍德
17年2月3日在16:58

#2 楼

我也曾经对这件事感到惊讶。因此,我所做的就是在Chrome以隐身模式打开的情况下,然后浏览具有新的Google CAPTCHA的网站,然后勾选该框。好吧,它没有让我理解,而是显示了一系列图像,并要求我选择与一个图像相关的图像。

这表明Google不断跟踪我们的行为,以确定我们是否是人类。



评论


您能解释一下如何回答这个问题吗?也许我缺少了一些东西,但是我看不到如何解决OP提到的可能的攻击。

– S.L.巴特-恢复莫妮卡
2015年10月5日,10:56

@ S.L.Barth:似乎为tlng05答案给出的解释提供了支持(使用的格式不适合注释)。

– Ben Voigt
2015年10月5日在21:28

@BenVoigt是的,我只是想表现得像一台机器,并观察Google的反应。删除Cookie,历史记录和缓存也会触发同一件事。

– fdiengdoh
15-10-17在18:13



我猜你在英国。在美国,“商用卡车”对我们而言毫无意义。因此,更有趣的是,谷歌使它在地理上与上下文相关。

–理查德
19年3月29日在20:33

值得注意的是,Chrome也是Google的产品。

–КонстантинВан
19年8月17日在15:22

#3 楼

当您单击“我不是机器人”时,它会通过HTTP请求向Google发送一堆有用的信息,例如


您的IP地址
您的国家
时间戳记

来自浏览器的信息,例如在进入复选框之前移动光标的方式。单击前如何滚动页面。不同浏览器事件与Google保守的其他许多变量之间的时间间隔。

然后,所有这些标准都由Google进行机器学习风险分析处理,大多数时候信息可以告诉人与机器人之间的区别,但是如果风险分析引擎仍然不确定,那么可以%的用户通常会完成其他挑战。

这就是图像识别CAPTCHA出现的地方。如果您以此方式证明自己是人类,那么Google的引擎将有机会记住,下次单击该复选框后,您将可以直接通过这些复选框。

#4 楼

据我所知,逻辑是这样的:


如果用户未登录Google帐户(在浏览器中),则他/他将获得可见的验证码。
如果用户已登录,则根据您以前的活动历史记录(可能在整个Google上)(在该页面上或在您浏览之前),有两种可能的情况: br />您将不会得到任何验证码
您会更容易获得验证码(即1个迷宫而不是4个迷宫) ,当算法已经检测到您是人类时,checkbox验证码的用途是什么。

评论


该复选框可确保必须记录鼠标移动数据才能提交验证码

– Redwolf程序
19/12/19在15:12

#5 楼

它做几件事。它检查您的IP地址和cookie。它查看您的单击方式以及单击之前鼠标的移动。使用自动点击工具通常会使Google为您提供图片服务。