『栈外』验证码这么难,是机器太聪明还是人太笨?


本文看点
?验证码用于区分机器和人类用户 。 起初只需要简单的文本验证码就能避免许多恶意操作 , 然而随着机器学习技术不断发展 , 由文字到图像再到游戏 , 验证码对人类来说越来越难 , 而机器却不断进化 , 不断超越人类 。
?
当前验证码设计的难度在于:测试受到人类能力的限制 , 除了人类的基本能力 , 还需要一些跨文化、跨语言的能力 。 要保证所有普通人都能轻而易举地通过验证 , 同时让电脑难以通过 , 这给实际工作带来了很大的限制 。
?
人性并非由单一任务衡量 , 而是由一系列行为衡量 。 研究人员试图通过观察用户的行为并寻找自动化的迹象来区分人机 。 在未来 , 会犯错、错过按钮、分心和切换标签的机器人更具欺骗性 , 而验证码也可能会永远存在 。
『栈外』验证码这么难,是机器太聪明还是人太笨?
本文插图
原文来自THE VERGE , 作者Josh Dzieza
有一次 , Google不断要求我证明自己的人类身份 , 且这一流程越来越咄咄逼人 。 “我不是机器人”的按钮过于简单可爱 , 以至于现在我们愈发需要通过其他操作证明自己的身份 。
系统可能要求我们选择图像网格中所有的红绿灯、人行横道或者店面 。 很快 , 验证码中的红绿灯就被埋在了远处的树叶里;人行横道弯弯曲曲 , 在拐角处若隐若现;店面的招牌变得模糊不清 , 而且还是韩文标语 。 有的还要求用户辨认一个消防栓 , 这也太难了 。
这些俗称验证码的测试被称为CAPTCHA , 这是一个缩写 , 意思是区分用户是计算机或人的公共全自动进程 , 它们一度达到了这种不可理喻的难度 。
在21世纪初 , 简单的文本验证码足以阻挡大多数垃圾邮件 。 但十年后 , 在Google从卡内基梅隆大学的研究人员那里购买了这个程序 , 用于Google图书的数字化之后 , 文本变得越来越扭曲模糊 , 以求领先于不断进步的光学字符识别程序 。
从某种意义上来说 , 所有试图解决验证码难题的人都在帮助改进这些程序 。
由于验证码是训练人工智能(AI)的一个绝佳工具 , 任何给定的测试都只能是暂时的 , 这是其发明者在一开始就承认的事实 。 所有这些研究人员、骗子和普通人都在AI能力的极限下解决了数十亿个谜题 。
未来某个时刻 , 这些机器将会超过我们 。 2014年 , Google让一种机器学习算法与人类竞争 , 来识别最扭曲的文本验证码:计算机的正确识别率有99.8% , 而人类只有33% 。
Google随后诉诸于NoCaptcha ReCaptcha , 它通过用户点击“我不是机器人”按钮 , 来观察用户数据和行为 。 有些情况可以直接通过 , 有些时候就需要完成图片选择验证 。
『栈外』验证码这么难,是机器太聪明还是人太笨?
本文插图
但是机器又一次迎头赶上了人类的表现 。 那些似是而非的图片 , 就成了人类与机器的决赛 。
芝加哥伊利诺伊大学计算机科学教授杰森·波拉基斯认为 , 如今验证码难度的增加有他的一份功劳 。 2016年 , 他发表了一篇论文 , 利用现成的图像识别工具 , 包括Google自己的反向图像搜索 , 以70%的准确率解决了Google的图像识别问题 。
其他研究人员则利用Google自己的音频识别程序解决了Google的音频验证码 。
波拉基斯说 , 机器学习在基本的文本、图像和语音识别任务上已经和人类达到了差不多的水平 。 事实上 , 算法可能在这方面做得更好:“我们为了让软件更难识别验证码 , 反倒给人们带来了更大的不便 。 我们需要一些替代方案 , 但目前还没有具体计划 。 ”
关于验证码的文献中充斥着错误的出发点和奇怪的尝试 , 试图找到人类普遍擅长的、机器难以对付的文本或图像识别以外的东西 。
研究人员试图让用户根据面部表情、性别和种族对人物图像进行分类 。 也太离谱了 。 有人提议使用一些琐碎的验证码 , 以及基于大家都熟记于心的儿歌的验证码 。 这种文化验证码不仅针对机器人 , 还针对海外的验证码码农 , 他们靠破解验证码获利 。