索尼|智障验证码发展简史手环

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片
【索尼|智障验证码发展简史】

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片
在网上看到一个细思极恐的漫画：内容是一个妹子在玩电脑，被一个对话框挡住了，对话框的内容是：“我不是机器人” 。补充一点课外资料，这个对话框是谷歌特殊设计的验证码，跟咱们日常看到的是一样的。不过谷歌的验证码很智能，你只要点一下句子前面的框框：对话框就会运算一秒钟。然后得出你不是机器人的结论，放你通行。谷歌这年头都这么敷衍了吗？网页：你是人吗？你：是的我是。网页：好的允许通行。但诡异的是，漫画中妹子竟然还愣住了，明明点一个对勾的就可以通过，但她就是无法表达自己不是机器人，说明谷歌的验证码还真的有效！等等，证明自己不是机器人，这不就是AI的终极考验，图灵测试吗！我一瞬间脑补了邪恶AI化身萌妹子要兴风作浪，而谷歌扛着图灵圣剑，用这个对话框死死挡住邪恶AI的脚步。可他的同盟，无知的人类们还嘲笑圣剑无用……果然被误解就是英雄的宿命啊！行吧我承认最近欧美神话看多了……不过谷歌这个验证码真的可以有效分辨人类和AI ，每天能运转上亿次，说是普及性最强的图灵测试也不为过了。要弄清楚这事儿，得从很久很久以前说起。在那个冠希还没拿起相机的纯真年代，世界上根本没有验证码一说。当时有一群无良的黄牛，每天注册无数邮箱，制造大量虚假身份用来诈骗和刷票。为了遏制这种现象，第一代验证码 CAPTCHAs 诞生了，全称是用于区分电脑与人类的全自动公开图灵测试。初代验证码是卡内基梅隆大学的一群专家搞的，跟谷歌没啥关系。设计也很简单，就是纯数字。不过这些数字让黑客们再也无法注册大量账号伪造身份，烦的一匹。后来有一个黑客灵机一动，老爹说要用魔法打败魔法啊！于是黑客们就搞了一个0~9的数字识别装置，轻易的破除了限制。这种行为无异于把创造验证码的程序员按在地上“啪啪啪”…………的打脸，根本不能忍。然后没过多久，验证码就变成了数字+字母……后来又加入了汉字……再后来模糊了大小……最后就变成了12306里变态的图片识别。虽然我说的简单，但这番进化足足持续了十几年，各种算法高速迭代，是正反程序员反复博弈，掉了无数头发的结果。每当正义的程序员搞出一套“验证码”题库后，反派程序员总能用迅雷不急百度云的速度将之破解。都是误入代码歧途的可怜人，相煎何太急啊。就在所有人以为验证码会无限制的进化下去的时候，谷歌用绿油油的刀乐收购了验证码的研发团队，开了一个让所有大呼变态的脑洞！反派程序员的识别算法这么给力，不用白不用啊！然后谷歌就随便研发了一个文字识别算法，用这个算法检测全世界所有的实体书，将其变成电子版。但是，算法不能跟真人比，而书本由于印刷、使用、污染等原因，总会出现大量的无法被识别的词语。然后谷歌程序员就把这个词语上传到 CAPTCHAs 数据库，让反派程序员去研究怎么识别。为了防止反派程序员糊弄自己，谷歌的验证码总是一次出现数个单词，其中大多数是谷歌自己识别完的，只有1个是需要让反派识别的。这样反派也分不清哪些需要识别，只能一次性识别所有。为了丰富人类知识库（给反派找活干），谷歌还联系了哈佛大学（1600万本书）、牛津大学（650万本书）、斯坦福大学、康奈尔大学、纽约公共图书馆（51万本书）等等世界一流图书馆参与项目。在反派程序员的努力下，谷歌图书馆目前是全球最大的电子图书馆，拥有近3000万册图书。果然犯罪才是第一生产力啊……谷歌还很鸡贼的把图书馆的标语设置成： stop spam read books （想要诈骗，不如读书），以感谢犯罪分子为谷歌图书馆做出的贡献。自从这个计划推出后，程序员们就再也没有因为黑客的识别算法太强而掉头发。反而总担心黑客的算法进化的太慢，耽误了项目进度，毕竟谷歌验证码丑的出名，真是难为黑客们了。无尽的题海战术让黑客的算力捉襟见肘，为了维持不法活动，不得不去东南亚国家雇佣“打码员” ，让他们真人识别二维码。我搜了一下类似的职位国内也有，大概是一千个码七八块钱的样子，正常人识别一个验证码怎么也得5秒左右，这工资跟血汗工厂无异。照理说这就该是验证法算法的顶峰了，毕竟黑客方已经被欺负的开始使用真人了。然而谷歌表示真人怎么了，真人我们也拦！这就出现了我们开头的验证码： NOCAPTCHAreCAPTCHA，无验证码的验证码。当你点击验证码的对勾时，网页就会向谷歌发送你的 IP地址、国家、时间戳、你的鼠标移动轨迹、你之前访问的页面是什么、你在每个页面停留了多久……谷歌风险引擎会综合计算这些数据，并得出你是不是机器人的判断。这就把打码操作提升到了跟淘宝刷单一个难度，打码员不光要输入验证码，还要模拟正常用户的操作方式，难度大大提高，基本算是消灭了这个产业。目前 NOCAPTCHAreCAPTCHA 基本是最先进的验证码系统，真人毫无阻碍，黑产寸步难行。遗憾的是 NOCAPTCHAreCAPTCHA 对算力要求较高，所以目前只在谷歌部分网站中使用。希望有朝一日12306也能用上这种技术，让我们这些知识储备少的宅男也能买到火车票。好，今天没卵用的科普到此结束。上图就当课后作业了，咱们评论区见。