人工智能，中国有望超越美国当下技术圈最热门的话题之一

不久前，在2017年美国国家标准与技术研究院组织的全球人脸识别技术测试上，一支中国人工智能技术团队超过来自俄罗斯、美国、法国的对手，成为第一个获得冠军的中国团队——朱珑，就是这个团队的领军人物，依图科技联合创始人，UCLA统计学博士，从事人工智能研究15年，曾在深度学习奠基者Yann LeCun教授实验室担任研究员，2010年获得PASCAL图像目标检测比赛冠军，2017年获得美国国家标准与技术研究院NIST和美国国家情报高级研究计划局IARPA人脸识别全球冠军。

关于这场比赛的规则，我们先来了解一下：参赛团队需要在百万量级人脸数据库中找到目标人脸或判断其在不在库中。查询照片来自出入境等真实业务场景，包含识别对象不在摄像头前特定位置的“非配合性”照片。机器面临曝光过度、逆光、侧脸、远距离、低像素的挑战。衡量指标在于搜索的准确率，以千万分之一误报率下的性能为评估标准。检索准确率越高，就意味着参赛者的算法可以在更大规模的人脸数据库中获得可靠检索结果，可以更准确、高效地完成身份验证。

朱珑认为，这除了说明来自中国的算法技术超过了全球的竞争对手，还有更大的意义：我们的算法已经在十亿分之一的误报下达到超过90%的识别率，已经能够超越所谓的国际主流标准。

这意味着什么呢？可以看一下路透社28日的报道中提到，由新美国安全中心的埃尔莎?卡尼亚撰写的一份报告称：“中国不再处于相对于美国的技术劣势，而是已经成为真正的对手，在人工智能方面也许会有能力超越美国。” 而“字母表”公司的执行董事长埃里克?施密特前不久在华盛顿的一次聚会上就中国的潜力发出了类似警告。他指出，中国7月份公布的《新一代人工智能发展规划》要求在未来几年赶上美国，并最终成为全球首要的人工智能创新中心。

回到最初提到的那场比赛，先解释一下什么是人脸识别技术。人脸识别就是科学家口中的计算机视觉，作为人工智能极其重要和关键的领域，目前正处在超乎想象的快速发展阶段。“从我们自己的经验看，我们的算法效率几乎以每年100倍的速度在提高。现在在几亿量级的面孔中识别出一个人，并不是什么难事。”之前，依图科技搭建了全球首个10亿级人像比对系统。

朱珑谈到，计算机视觉是制造有人类视觉能力的机器，让计算机通过学习算法接近人类对图像的理解程度。而当计算机实现了对图像和视频的初始理解，计算机视觉就能帮助人类突破局限性，改善生活。例如，目前依图的主要技术聚焦在计算图像识别和自然语言理解在安防、医疗、金融领域的应用，同时也在进行人机交互、人工智能芯片等研发。

不同于计算机，人一睁眼就能迅速看到和看明白一个场景，因为人的大脑皮层至少有一半以上的海量神经元参与了视觉任务的完成。在互联网、云计算、大数据等帮助下，科学家们也开始利用深度学习、神经网络等模型和方式来教会计算机识别物体。有意思的是，尽管人类希望计算机视觉接近人类智慧，但在很多场合特别是机器得到海量数据的学习训练后，科学家们发现计算机视觉处理能力似乎已经超越了人类大脑。“计算机识别人脸和物体的时候，有点像从人眼看见物体到大脑译出最终结果的过程。我们的计算模型也类似人的神经元传递方式，一层一层搭建起高级的神经网络。”朱珑解释说。

朱珑和导师、著名科学家霍金的弟子艾伦?尤尔，最早在实验室中研发出新系统，通过递归式塔状结构来表示物体的结构，而不是像传统识别方式那样，需要事先被告知物体特征，从而会导致巨大的数据存储量。朱珑认为，技术人才的储备、市场环境的成熟和实践的基础、数据资源，是中国人工智能可以和全球最强对手竞争的巨大优势。无论是对国家还是从业者而言，人工智能都将迎来极其难得的机遇。

当下技术圈最热门的话题之一，就是AI了。朱珑对AI有自己的一套见解。

他认为，AI发展历史和预测，用上图的”S”形曲线建模（Sigmoid函数，恰好也是用来刻画神经网络中神经元的activation function）。横轴表示时间，纵轴表示机器智能水平。曲线上的点表示某个时间点的全球最高智能水平。2013年开始是新AI时代（深度学习），2013年前的机器智能发展水平相较于近5年的发展基本可以忽略不计。红线代表悲观派（AI退潮、AI泡沫等），2017年之后很快出现发展停顿；蓝线代表乐观派，2017年之后还有快速发展。值得强调的是，蓝红两条曲线对AI历史有相同认识，但市场上很多论调或研究报告看到的是另一条曲线，很大概率调研看到的AI水平离最高水平有很大差距。

技术不是趋同，而是会放大差距、解锁场景。还是以人脸识别作为例子，把人脸从N个人中找到的概率在95%，纵轴就是可识别的规模（N的大小）。

2017年人脸识别最高水平可识别规模在20亿人，大概比2016年可识别千万提高两百倍，比2015年提高了数万倍。在上述的比赛中，朱珑团队比第二名Vocord团队，在千万比对测试上领先2％（Vocord在另一测试集比腾讯优图高10%），这个就是大家常说的技术水平趋同，高一两个百分点没有意义（引申出难兑现成竞争价值）。

朱珑认为这是个误区。这个误区需要从两个方面解读：

第一方面，算法在亿级、十亿级比对的领先会快速放大到5%，20%。这是一般的算法性能曲线的规律。除了可识别规模上的重大差异，还体现在难（hard）的数据上的识别率差异。从算法经验来说，黑人、女性、小孩、大年龄跨度、遮挡等是较难识别的群体和类别。在这些子类上，不同算法之间的性能差异会更大。

超大规模下的评测本身就是一个不简单的学术命题，还需要大量的数据支撑，真正能观测到20亿数据下性能的人少之又少，例如美国很难建立20亿级的测试集。这不是访谈一些人脸识别研究从业者就能获得，这是误区的第一个来源。

第二方面，算法提高，扩大可识别规模，就会解锁更多商业应用场景。百万、千万识别规模对应的是身份认证场景，远程认证、手机解锁都属于此类。“技术无差异”的论调在这个场景下倒是可以成立。但安防刑侦破案对亿级和十亿比对有刚性需求，在这些场景下，不是多识别出几个罪犯的问题，而是找出来概率差别十倍以上的，几乎就是行与不行的问题。“非关键性应用”的论断误导性极强。

在最新的安防案例中，万路甚至十万路摄像头视频的人脸搜索、归档对算法有极高要求，假定每路人流为万，要在万路视频中，搜索性能相当于要求算法百亿、千亿规模上的可识别率。这比其他场景的性能要求再提高千倍。以不同算法为基础的产品端体验差异就被同比例放大。另外，全球人种的识别，是反恐、出入境业务对识别的覆盖面要求是很高的。

总结来说，99%识别率的算法和99.99%的算法，区别在于可解锁的应用场景。这些新的场景解锁，是最先锋的算法团队和垂直领域的开拓者（比如公安系统的创新团队）共同努力，也不是访谈一般的安防从业者就能感知变革的最前沿，这是误区的另一个来源。