AI人工智能|AI最新趋势 | 我从MLPerf基准测试中读出这些
MLPerf是用于测试ML(Machine Learning)硬件、软件及服务的训练和推理性能的公开基准 , 该行业基准测试组织自2018年5月成立以来 , 得到了亚马逊、百度、Facebook、谷歌、哈佛大学、英特尔、微软和斯坦福大学等支持 , 一直在跟随AI的发展步伐持续演进 。
本文插图
图源 | HPCwire
日前 , MLPerf基准联盟公布了最新一轮MLPerf 0.7 Training基准测试数据 , 测试内容及结果对于AI下一阶段的算力趋势、应用趋势都具有一定的指引性 。
可预见未来
GPU仍将主导AI芯片市场
作为AI芯片领域一个重要的基准测试 , MLPerf主要包括训练和推理两方面的性能测试 。 根据最新发布的MLPerf基准测试结果 , 英伟达在全球市售商用产品中AI训练性能创下纪录 , A100 GPU和DGX SuperPOD系统当选全球AI训练领域速度最快的市售商用产品 。
AI芯片已经成为人工智能的主要竞争领域 , 各种AI加速器不断孕育而生 , GPU也面临着在激烈的竞争中生存和发展 。 而今年5月英伟达发布的首款基于其Ampere架构的GPU A100 , 为追赶者又设置了新的标杆 。 相比于前代产品 , A100性能提升了20倍 , 一发布就是全面投产并已向全球客户交付的状态 。
尽管业界都期待能有新的芯片类型能与GPU抗衡 , 但根据最新公布的MLPerf 0.7 Training测试数据来看 , 英伟达在图像分类、NLP、推荐系统等八项测试中都超越了自家的V100 , 以及ASIC芯片的典型代表(如谷歌TPUv3、华为昇腾Ascend)而名列前茅 。
本文插图
NVIDIA Ampere架构在市售商用加速器的全部八项测试中领先
英伟达加速计算产品管理高级总监Paresh Kharya在面向包括在内的全球媒体的电话会议中表示 , 不仅是训练速度创下纪录 , 与此同时 , 英伟达是唯一一家在所有测试中均采用市售商用产品的公司 , 其他大多数提交使用的要么是预览类别(preview category) , 要么使用的是研究类别的产品 , 预计这些产品上市最快也需几个月之后 。
这也表明 , 在可预见的未来 , 英伟达GPU将继续引领AI加速训练市场 , 并有望在2020年及今后进一步增长 。 各种非GPU技术(包括CPU、ASIC、FPGA和神经网络处理单元) , 虽然也在性能、成本、能效等方面不断提升优势 , 但在商用落地方面仍需继续努力 。
算力为王时代
传统服务器加速升级换代
A100的商用速度也比以往任何NVIDIA GPU更快 。 A100在发布之初用于NVIDIA的第三代DGX系统 , 而正式发布仅六周后 , 就登陆了Google Cloud 。 还有AWS、百度云、微软Azure和腾讯云等全球领先的云提供商 , 以及Dell Technologies、HPE、浪潮和超微等数十家主要服务器制造商 , 均采用了A100 。
这也从另一个侧面反映出——云计算和AI的强大趋势正在推动数据中心设计的结构性转变 , 传统服务器正在被高效的加速计算基础架构所颠覆 。
另外要指出的是 , 英伟达是在Selene上运行了系统的MLPerf测试 , 它是基于DGX SuperPOD的内部集群 , 而DGX SuperPOD是针对大规模GPU集群的公共参考架构 , 可在数周内完成部署 。 在针对大规模计算性能的MLPerf基准测试中 , DGX SuperPOD系统内置了超过2000个A100 , 并通过HDR InfiniBand实现了多个DGX A100 系统互联 。 最终在性能上开创了8项全新里程碑 , 共打破16条纪录 。
本文插图
NVIDIA DGX SuperPOD系统为大规模AI训练树立全新里程碑
在GPU服务器市场 , 8卡GPU服务器和英伟达的V100加速卡一度是采购热点 , 占据了约30%以上的份额 。 以A100目前的商用速度来看 , 它可能会以超出预期的速度更快被市场所接纳 。 在算力为王的AI时代 , 谁会拒绝一款算力倍增的AI服务器呢? 分页标题
浪潮就在A100发布时同步推出了5款AI服务器 , 可支持8到16颗NVIDIA A100 Tensor Core GPU 。 笔者曾与浪潮方面探讨过未来的产品主流 , 据其说法 , 从过往三年AI服务器的发展历程来看 , 算力需求的线性增长在倒逼AI服务器的升级换代 。 由于AI算力的需求一直保持着50%的行业增速 , 在一些头部行业的增速甚至超过100% , 因此未来V100的AI服务器很可能会升级为A100的八卡服务器 。
而随着数据的爆炸增长与深度神经网络日趋复杂 , 单机或小型服务器已经无法满足算力需求 , 未来将有大量的AI应用和服务被放在云端 , AI算力需求正在逐步迈入高峰期 , 更多更高性能的AI服务器将在线下场景落地 , 而GPU服务器依然是市场上的绝对主力 。
不只是芯片
【AI人工智能|AI最新趋势 | 我从MLPerf基准测试中读出这些】隐性“技能”越来越重要
测试结果显示 , 相较于首轮MLPerf训练测试中使用的基于V100 GPU的系统 , 如今的DGX A100系统能够以相同的吞吐率 , 实现高达4倍的性能提升 。 而得益于最新的软件优化 , 基于NVIDIA V100的DGX-1 系统也能够实现2倍的性能提升 。
大约一年半的时间 , 英伟达整个AI平台就取得了如此优异的成绩 。 这些既是硬件架构升级所带来的跃进 , 也是英伟达跨处理器、网络、软件和系统的AI平台的发展结果 。
本文插图
英伟达全栈创新带来的AI性能提升
特别是软件 , 正在为AI的战略发展铺平道路 。 所有的AI公司都将越来越认识到 , 软件的重要性 。 以GPU深度学习为代表的技术已经点燃了现代人工智能的热情 , 同时也带动了CUDA软件生态的繁荣和开发者数量的迅猛增长 。
应用框架也是这位GPU霸主的布局重点之一 , 包括:用于对话式AI的Jarvis、用于推荐系统的Merlin、面向汽车行业的NVIDIA DRIVE、面向医疗健康市场的Clara、面向机器人技术市场的Isaac , 以及面向零售/智能城市市场的Metropolis 。 这些应用框架简化了企业级AI的开发和部署 , 降低了GPU在各个领域的应用门槛 。
当然 , 大规模加速计算特别是超大规模集群的部署是一个庞大的系统工程 , 正如Paresh Kharya所说 , 存储、网络、软件等 , 都是重要因素 , 而这些系统的顺利运转 , 部分也得益于广泛的生态系统对于NVIDIA GPU和DGX的支持 。 在该轮MLPerf基准测试中 , 生态系统也交出了一份满意答卷 。 在提交结果的九家公司中 , 除英伟达还有六家公司提交了基于NVIDIA GPU的测试结果 , 其中包括三家云服务提供商(阿里云、谷歌云和腾讯云)和三家服务器制造商(戴尔、富士通和浪潮) 。
推荐系统、NLP、强化学习
深度学习继续驱动AI纵深发展
与上一版相比 , 最新的MLPerf基准测试包含两项新的测试(推荐系统、NLP) , 还有一项经过大幅修订的测试(强化学习) , 这些都覆盖了深度学习的最新进展 。 过去几年 , AI取得了巨大进展 , 从图象识别、图象分类到识别不同的物体等 , 甚至能够识别图象中的每一个像素 。 这背后 , 深度学习的驱动力量是巨大的 。
本文插图
图源 | Youtube
推荐系统是日益普及的一项AI任务 , 已经成为互联网的重要引擎 。 不论是电商平台还是社交媒体 , 如何将合适的内容、合适的产品在合适的时间推送给用户?推荐系统至关重要 。 而这背后的两大挑战:一是模型的复杂度 , 因为需要处理的数据量是海量的 , 为了提升推荐的相关度 , 必须要对所有参数来进行建模;二是需要做出实时的计算 , 最快提供推荐结果 。 这两大挑战无疑都指向了算力 , 需要以非常快的速度完成计算 。 而GPU有指令集优势、全可编程、并且是软件定义的 , 架构向前兼容 , 整个硬件架构可以随着软件不断更新 , 而且是在软件库就可以直接更新 。 阿里巴巴在去年“双十一”期间创造了380亿美元的销售纪录 , 其推荐系统使用了英伟达GPU , 使每秒查询量达到了CPU的100倍以上 。分页标题
而对话式AI自身也成为了业界关注的焦点 , 推动从金融到医疗健康等行业的业务发展 , 使他们能够构建和部署更快、更智能的会话式AI服务 , 实现更自然的AI人机交互 。 在本轮基准测试中 , 对使用BERT的对话式AI进行了测试(BERT是现有最复杂的神经网络模型之一) 。
最后 , 强化学习测试中使用了Mini-go和全尺寸19x19 围棋棋盘 。 该测试是本轮最复杂的测试 , 内容涵盖从游戏到训练的多项操作 。
事实上 , 在今年GTC黄仁勋的演讲中 , 就包括了对于交互式语音应用(多任务)和推荐系统解决方案(大规模稀疏化数据的处理)等方向的演示 , 引发了业界对于AI下一步应用热点的预测 。 加之MLPerf此次的测试内容更新 , 更进一步展示了这些热点方向 。
写在最后
在很长一段时间内 , 业界都在讨论是否有必要设立AI基准 。 MLPerf的推动者之一吴恩达曾表示:“AI正在改变多个行业 , 但是为了发挥它最大的潜能 , 我们仍需要更快的硬件和软件 。 ”
行业中的支持者也认为 , 标准的缺失限制了AI的应用 , 他们希望基准的确立能帮助AI开发者创造出更好的产品 , 让使用者充分了解所需产品 。 这也正是MLPerf的目标 , 希望用可复制的、公平可靠的基准测量方法来推动机器学习行业和研究的发展 , 产品之间的对比还可以促进供应商和学者之间的竞争 。
当然 , 基准测试自身也面临着变革需求:例如要测规模变化的庞大的AI系统 , 从几块、几十到几千上万块加速卡 , 如何对它们进行客观测试?面对集群计算机 , 测试程序如何做到规模可变的?凡此种种 , 都是面临的挑战 。
不管怎样 , 在AI性能基准测试这个领域目前已经有很多探索 , 比如MLPerf , 小米的mobile AI bench , 百度的Deepbench , 中国人工智能产业发展联盟的AIIA DNN Benchmark等 。 其中 , MLPerf作为国际上大家比较认可的机器学习的标准 , 已经做出了一定的表率 。 这些积极探索也正在驱动前沿大规模计算的迅猛发展 。
- 山东省|山东省人社厅最新批复,青岛这些人可以评职称!
- AI人工智能|原创 智能门锁改造计划,德施曼小嘀全自动电子猫眼锁Q3M上线小米有品
- 人工智能|济南将打造全球首个人工智能医药研发自动化实验室
- AI人工智能|宋庆龄文化空间揭幕 聚焦少儿人工智能互动体验
- 美国|任正非最新发声
- 明星八卦|张翰徐璐新剧甜蜜CP,最新花絮在线撒狗粮,已酸成柠檬精了
- 任正非|任正非最新发声:不会忌恨美国,求生欲使我们振奋
- 财报|华为最新财报出炉!上半年日赚近2.4亿
- 最新热文|黑豹扮演者Chadwick Boseman因结肠癌在家中去世
- 人工智能|商汤科技林达华:OpenMMLab助开发者缩短AI项目路径