『栈外』验证码这么难，是机器太聪明还是人太笨？

本文看点
?验证码用于区分机器和人类用户。起初只需要简单的文本验证码就能避免许多恶意操作，然而随着机器学习技术不断发展，由文字到图像再到游戏，验证码对人类来说越来越难，而机器却不断进化，不断超越人类。
?
当前验证码设计的难度在于：测试受到人类能力的限制，除了人类的基本能力，还需要一些跨文化、跨语言的能力。要保证所有普通人都能轻而易举地通过验证，同时让电脑难以通过，这给实际工作带来了很大的限制。
?
人性并非由单一任务衡量，而是由一系列行为衡量。研究人员试图通过观察用户的行为并寻找自动化的迹象来区分人机。在未来，会犯错、错过按钮、分心和切换标签的机器人更具欺骗性，而验证码也可能会永远存在。

本文插图
原文来自THE VERGE ，作者Josh Dzieza
有一次， Google不断要求我证明自己的人类身份，且这一流程越来越咄咄逼人。 “我不是机器人”的按钮过于简单可爱，以至于现在我们愈发需要通过其他操作证明自己的身份。
系统可能要求我们选择图像网格中所有的红绿灯、人行横道或者店面。很快，验证码中的红绿灯就被埋在了远处的树叶里；人行横道弯弯曲曲，在拐角处若隐若现；店面的招牌变得模糊不清，而且还是韩文标语。有的还要求用户辨认一个消防栓，这也太难了。
这些俗称验证码的测试被称为CAPTCHA ，这是一个缩写，意思是区分用户是计算机或人的公共全自动进程，它们一度达到了这种不可理喻的难度。
在21世纪初，简单的文本验证码足以阻挡大多数垃圾邮件。但十年后，在Google从卡内基梅隆大学的研究人员那里购买了这个程序，用于Google图书的数字化之后，文本变得越来越扭曲模糊，以求领先于不断进步的光学字符识别程序。
从某种意义上来说，所有试图解决验证码难题的人都在帮助改进这些程序。
由于验证码是训练人工智能（AI）的一个绝佳工具，任何给定的测试都只能是暂时的，这是其发明者在一开始就承认的事实。所有这些研究人员、骗子和普通人都在AI能力的极限下解决了数十亿个谜题。
未来某个时刻，这些机器将会超过我们。 2014年， Google让一种机器学习算法与人类竞争，来识别最扭曲的文本验证码：计算机的正确识别率有99.8% ，而人类只有33% 。
Google随后诉诸于NoCaptcha ReCaptcha ，它通过用户点击“我不是机器人”按钮，来观察用户数据和行为。有些情况可以直接通过，有些时候就需要完成图片选择验证。

本文插图
但是机器又一次迎头赶上了人类的表现。那些似是而非的图片，就成了人类与机器的决赛。
芝加哥伊利诺伊大学计算机科学教授杰森·波拉基斯认为，如今验证码难度的增加有他的一份功劳。 2016年，他发表了一篇论文，利用现成的图像识别工具，包括Google自己的反向图像搜索，以70%的准确率解决了Google的图像识别问题。
其他研究人员则利用Google自己的音频识别程序解决了Google的音频验证码。
波拉基斯说，机器学习在基本的文本、图像和语音识别任务上已经和人类达到了差不多的水平。事实上，算法可能在这方面做得更好：“我们为了让软件更难识别验证码，反倒给人们带来了更大的不便。我们需要一些替代方案，但目前还没有具体计划。 ”
关于验证码的文献中充斥着错误的出发点和奇怪的尝试，试图找到人类普遍擅长的、机器难以对付的文本或图像识别以外的东西。
研究人员试图让用户根据面部表情、性别和种族对人物图像进行分类。也太离谱了。有人提议使用一些琐碎的验证码，以及基于大家都熟记于心的儿歌的验证码。这种文化验证码不仅针对机器人，还针对海外的验证码码农，他们靠破解验证码获利。