Google的“无验证码验证码”如何工作？

谷歌发布了一种新的机器人验证码形式，要求用户单击一个复选框。它仅在必要时使用基于图像的验证。

有人可以向我解释一下这样一个程序如何使人与机器人区分开吗？可以在计算机上单击鼠标。无法访问程序文件的基于Web的程序无法检测到它。应该可以编写一个无法检测到的Windows可执行文件，该文件可以选中该复选框。还可以将程序的响应时间随机化。

几次（成功）尝试后，验证码将要求进行图像验证。也许可以通过使用Google图像搜索（按图像）搜索图像并基于“视觉相似”图像的文件名进行猜测的AI来解决。如果使用的图像不是来自网络，那么它们的数量将受到限制，并且可以创建一个数据库。 br />

#1 楼

对于stackexchange来说，这并不是一个真正的大问题，因为Google对其算法保密，因此我们真正能做的只是猜测其工作方式，但是我的理解是，新系统将分析您在Google所有服务中的活动（以及可能是Google可以控制的其他网站，例如拥有Google广告的网站。例如，如果他们过去检测到您使用的计算机/ IP地址也曾被用来做普通人会做的事情-例如检查Gmail，在Google搜索中搜索，将文件上传到云端硬盘，共享照片，浏览网络等-那么就可以合理确定您是人类，并且可以跳过图像验证。另一方面，如果它不能将您的计算机与任何以前的类似人类的活动相关联，那么它将更加可疑并为您提供图像验证。尽管鼠标单击复选框时的行为可能是其分析的因素之一，但几乎可以肯定还有很多其他原因。这只是基于Google所说的话而做出的最好的猜测：。长期以来，CAPTCHA依靠机器人无法解决变形的文本。但是，
我们最近的研究表明，当今的人工智能技术
甚至可以以99.8％的精度解决最困难的变形文本
。因此，失真的文本本身不再是可靠的测试。

为了解决这个问题，去年，我们为reCAPTCHA开发了高级风险分析
后端，该后端积极考虑用户在验证码之前，之中和之后与CAPTCHA的全部互动，以确定
该用户是否是人类。这使我们减少了对扭曲文本键入的依赖，从而为用户提供了更好的体验。我们在今年早些时候的情人节博文中谈到了这一点。以前的浏览行为，但我的解释可能是错误的。

这是《连线》的引文： > Google的“ reCaptcha”检查每个用户不经意间提供的线索：IP地址和cookie提供证据，证明该用户是Google从网络上其他地方记住的友好用户。 Shet
说，即使用户的鼠标在它徘徊并
接近复选框时所做的微小动作也可以帮助揭示自动机器人。

stackoverflow也对此进行了讨论：https://stackoverflow.com/questions/27286232/how-does-new-google-recaptcha-work

对于图像验证，您将无法通过反向图像搜索找到这些图像，或者编译它们的数据库。它们通常是由Google的街景视图汽车捕获的随机路牌或门牌号，或者是经过Google图书项目扫描的书中的单词。这背后有一个很好的目的-Google实际上利用人们在reCaptcha中键入的内容来改进自己的数据库并训练OCR算法。 reCaptcha将相同的图像提供给许多用户，如果他们都同意图像上的内容，那么该图像将成为Google AI的训练数据。

reCAPTCHA服务为订阅的网站提供了
光学字符识别（OCR）软件无法阅读的单词图像。订阅网站（其目的通常与图书数字化项目无关）将这些图像呈现给
人类将其解密为验证码，作为其正常验证程序的一部分。然后，他们将结果返回到reCAPTCHA
服务，该服务将结果发送到数字化项目。

reCAPTCHA致力于对《纽约时报》的档案和书籍进行数字化Google图书。[3]截至2012年，《纽约时报》已经有30年的数字化，并且该项目计划在2013年底之前完成剩余的年份。现在完成的《纽约时报》档案可以从《纽约时报》文章档案库中搜索时间，该文献库总共有超过1300万条文献，文献可追溯到1851年。

您能否提供答案的任何来源？

–RoraZ
2015年1月9日在18:15

你或许是正确的。我想知道与他们的隐私权政策可能存在冲突，但请仔细阅读其制定的广泛方式，尤其是他们如何使用我们收集的信息，似乎是兼容的：保护和改进它们，开发新的产品，并保护Google和我们的用户。我们还使用此信息为您提供量身定制的内容»。

–Ángel
2015年1月9日在21:55

但是，如果清除图像测试，它永远不会阻止您。（与以前的历史记录无关）

– ghosts_in_the_code
2015年5月4日在6:27

嗨！我发现这个答案真的很有趣。但是，如果Google已经确定您是人类，那么为什么根本不显示验证码呢？

– Eli Rose-REINSTATE MONICA
17年1月1日在19:47

@EliRose reCaptcha实现的重要组成部分是在服务器端检查小部件的安全令牌。该网站需要验证它没有被欺骗。这是在用户与小部件交互时发生的。

–艾舍伍德
17年2月3日在16:58

#2 楼

我也曾经对这件事感到惊讶。因此，我所做的就是在Chrome以隐身模式打开的情况下，然后浏览具有新的Google CAPTCHA的网站，然后勾选该框。好吧，它没有让我理解，而是显示了一系列图像，并要求我选择与一个图像相关的图像。

这表明Google不断跟踪我们的行为，以确定我们是否是人类。

您能解释一下如何回答这个问题吗？也许我缺少了一些东西，但是我看不到如何解决OP提到的可能的攻击。

– S.L.巴特-恢复莫妮卡
2015年10月5日，10：56

@ S.L.Barth：似乎为tlng05答案给出的解释提供了支持（使用的格式不适合注释）。

– Ben Voigt
2015年10月5日在21:28

@BenVoigt是的，我只是想表现得像一台机器，并观察Google的反应。删除Cookie，历史记录和缓存也会触发同一件事。

– fdiengdoh
15-10-17在18:13

我猜你在英国。在美国，“商用卡车”对我们而言毫无意义。因此，更有趣的是，谷歌使它在地理上与上下文相关。

–理查德
19年3月29日在20:33

值得注意的是，Chrome也是Google的产品。

–КонстантинВан
19年8月17日在15:22

#3 楼

当您单击“我不是机器人”时，它会通过HTTP请求向Google发送一堆有用的信息，例如

您的IP地址
您的国家
时间戳记

来自浏览器的信息，例如在进入复选框之前移动光标的方式。单击前如何滚动页面。不同浏览器事件与Google保守的其他许多变量之间的时间间隔。

然后，所有这些标准都由Google进行机器学习风险分析处理，大多数时候信息可以告诉人与机器人之间的区别，但是如果风险分析引擎仍然不确定，那么可以％的用户通常会完成其他挑战。

这就是图像识别CAPTCHA出现的地方。如果您以此方式证明自己是人类，那么Google的引擎将有机会记住，下次单击该复选框后，您将可以直接通过这些复选框。

#4 楼

据我所知，逻辑是这样的：

如果用户未登录Google帐户（在浏览器中），则他/他将获得可见的验证码。
如果用户已登录，则根据您以前的活动历史记录（可能在整个Google上）（在该页面上或在您浏览之前），有两种可能的情况： br />您将不会得到任何验证码
您会更容易获得验证码（即1个迷宫而不是4个迷宫），当算法已经检测到您是人类时，checkbox验证码的用途是什么。

该复选框可确保必须记录鼠标移动数据才能提交验证码

– Redwolf程序
19/12/19在15:12

#5 楼

它做几件事。它检查您的IP地址和cookie。它查看您的单击方式以及单击之前鼠标的移动。使用自动点击工具通常会使Google为您提供图片服务。

编程黑洞网