盘点准时播|华为云到底用AI做了什么？从少坐一趟机场摆渡车谈起( 二 ) 机器之心原创作者：张倩「Everyone’st

文章图片
其实，图像分类并没有看起来那么简单，标注数据中会存在很多噪声。在这些噪声的「误导」下，模型很容易出错。
为了让AI像人类一样更鲁棒地去处理有噪声数据的任务，华为视觉团队提出了新的AI模型学习范式，旨在提升AI模型对数据中错误样本的容忍度。
在由苏黎世联邦理工、GoogleResearch、卡内基梅隆大学等共同组织的人工智能「世界杯」——WebVision大规模网络图像数据识别竞赛中，华为以82.97%的精度击败了来自世界各地的94支参赛队伍，达到业界第一。

文章图片
在无监督学习方面，华为视觉团队自研的无监督学习算法在无标签的ImageNet数据集上达到了72.4%的精度，比Facebook何恺明组的MOCOv2（71.1%）还要高出1.3个百分点。
图像检测与分割：登顶COCO数据集
不同于图像分类技术，图像检测和分割旨在让计算机可以像人一样识别到图片中更高层次的语义信息，比如检测目标的位置、理解目标的相互关系等。
为了解决这一类问题，华为视觉团队自研了自适应数据增强技术，在包含16万张图像的COCO数据集上实现了单模型56.8%、多模型58.8%的检测精度，两项指标均达到了世界第一，打破了谷歌等公司在该领域多年的垄断。

文章图片
在这次疫情的大考中，原来只能依靠人类专家完成的新冠肺炎检测任务，华为云依靠领先的图像分割技术实现了肺炎更精准、更快速的检测，可以达到CT量化结果秒级输出，大大提升了辅助诊疗的质量和效率。
多模态数据处理：登顶NuScenes数据集
前面提到的图像分类、检测、分割等都是相对独立的任务，但在现实生活中，人们处理的往往是多个维度、多个模态的数据（如聊天时同时面对人脸和声音），计算机也不例外。
为了挖掘和整合不同模态数据之间的知识，华为视觉团队提出了图像底层信息融合技术，来处理语义分割信息和激光点云等多模态数据。在全世界最大规模的3D目标检测数据集NuScenes上，该团队击败了来自世界各地的92支队伍，达到了64.2%的检测精度，取得业界第一，领先第二名3.1% 。
在该项多模态技术的推动下，华为云EI提出了交通智能体，来解决「你今天堵车了吗」这个灵魂质问。
这些成果的取得和田奇博士的加入不无关系。田奇博士毕业于伊利诺伊大学香槟分校，师从计算视觉之父ThomasS．Huang教授。在加入华为之前，他在德州大学圣安东尼奥分校任教17年。目前，他已累计发表文章超过550篇，其中250多篇入围IEEETPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等国际顶级期刊和会议。
在2018年加入华为之后，田奇博士迅速适应了学界和业界的巨大差异，认识到「工业界更注重于商业价值以及方法的实用性，针对某一个特定的问题，提升用户体验，带来实际的价值」。在这种信念的指引下，他带领华为的视觉团队取得了多项基础研究突破，并将其落地到华为云EI的多个项目中。
针对视觉领域存在的诸多问题，田奇博士在今年3月份的华为开发者大会2020（Cloud）上发布了《华为视觉研究计划》，旨在为小样本训练、多模态学习、端侧模型瘦身等提供解决方案。
决策优化：在ESICUP上达到世界最优
将一块大玻璃切成不同的形状，怎么切才能最大程度上减少浪费？将装有货物的箱子装进集装箱，如何实现空间利用的最大化？这些都是现实生活中普遍存在的决策优化问题，也是华为云EI重点发力的一大方向。