|不让你的AJ被雨水淹没，英特尔AI软硬结合守护城市「良心」

机器之心转载
来源：头部科技
在后摩尔定律时代，硬件所带来的算力提升已经没有那么可观，但 Science 的一篇文章表明，在软件层面，我们还能找到大幅度提升 AI 算力的方法。在此背景下，越来越多的企业开始注重「软硬结合」的新路径，英特尔就是其中的一个实力玩家。
无论渴望在哪一领域做到极致，软实力和硬实力都是一对分不开的必备支柱，相辅而行互为协助。
面对智能+世界，「软硬结合」已经成为AI技术与各行各业互联互通、实现落地赋能的「钥匙」。
如今，世界级IT企业通常皆具备「软硬结合」的实力，因为软硬件充分结合的生态势必能释放更大的技术效能，催生更多AI赋能和重塑传统行业的新场景，而英特尔正是当中的实力派。
若要强势输出AI生态效能，只握有一张王牌将不再适应是智能化、数据化变革，需要软硬实力同时兼备，更需要二者能量的结合。
那么实力派的「融合」功力如何？我们通过案例来具体看看。
守护城市「良心」：优化工具OPENVINO ，加速智能视觉变革
下水道常被称作一个城市的「良心」。如果下水道及排水系统足够有效，即使雨下得再大，走在路上地面的水也不会淹没我们脚上心爱的AJ 。
然而，下水管道隐匿于城市地下，绵延无数英里。举例来说，华盛顿特区地下的下水管道纵横交错，长达 1,800 多英里，而这其中产生的污水收集与处理工作需要耗费大量的人力物力。
倘若能定期检测地下排污管道，有效防止管道泄漏、破损和堵塞。常见的一种办法是运营商远程引导安有摄像头的探测仪录制地下污水管道的视频；然后利用所录视频生成检测日志，写出总结报告，对存在问题的位置进行标记。
果然，良心守护工作需要耗费极大的人力，还无法保证准确率。然而运用人工智能，既能提升下水管道检测视频分析速度，又能确保检测的准确性。

本文插图
当地相关机构联合其供应商Wipro 开发了名为Pipe Sleuth的解决方案。该方案基于视频检测，运用符合管道评估认证方案的各种标准实现了管道状况识别、标注、打分/评级以及管道缺陷报告整个流程的自动化。
在守护城市「良心」的过程中，英特尔软硬结合的技术得以应用并发挥优势。
该解决方案包含从记录在案的管道检测视频中提取的 26,600 张加注图片组成的数据库。
以这些图片为基础构建的机器学习模型已使用 TensorFlow 进行训练，并已针对推理性能采用英特尔OpenVINO工具套件分发版进行优化。

本文插图
【|不让你的AJ被雨水淹没，英特尔AI软硬结合守护城市「良心」】
采用 Pipe Sleuth 解决方案识别的异常情况图片及已完成标注的图片的样本
通过这种训练， Pipe Sleuth 可以将新的管道检测视频与已确定的异常情况进行比较。随后， Pipe Sleuth 会生成一份全面的检测报告。该报告可与常用的资产管理系统整合，实现维护工作自动排序。
而OpenVINO 是英特尔的一款软件工具套件，能借助那些从边缘到云部署的高性能深度学习推理为应用和算法提速。
如今神经网络的低精度量化与执行已被广泛用作优化方法，可在保持准确度的同时显著提升速度。这款工具套件可以将模型转换为低精度而无需重新训练，同时还可降低延迟。

本文插图
在下水道视觉检测解决方案中，采用英特尔 OpenVINO工具套件分发版和英特尔至强处理器后，推理时间也大大优化（缩短了高达 80%），同时又不会显著影响模型精度或准确性。分页标题
所谓软硬结合实力， OpenVINO可通过基于英特尔架构的处理器（CPU）及核显（Integrated GPU）和深度学习加速器（FPGA、Movidius VPU）的深度学习加速芯片，增强视觉系统功能和性能。
不止是这个案例，任何领域的视觉数据都可利用OpenVINO进行加速推理，帮助企业更快速地实现高性能计算机视觉与深度学习的开发。
填补大数据分析与 AI 结合的空白点：Analytics Zoo ，英特尔又一AI底气
事实上，大数据与人工智能早已是你中有我，我中有你的关系，大数据正是人工智能的基础。
不少公司都开始尝试在他们的数据分析流程中添加 AI 功能，但实际上，深度学习模型的训练和推理只是整个流程的一部分。
如果真正应用到生产环境中，需要构建和应用深度学习模型，还需要数据导入、数据清洗、特征提取等多个工作流程，这些工作能够占据机器学习或者深度学习这样一个工业级生产应用开发大部分的时间和资源。
那么，人工智能从实验室到落地需要统一的数据分析流水线，填补大数据分析与AI结合的空白点，英特尔软件平台 Analytics Zoo应运而生。

本文插图
Analytics Zoo总体架构
英特尔Analytics Zoo 是一个统一的大数据分析和人工智能平台，它可以将 Tensorflow、Keras、PyTorch、Spark、Flink 和 Ray 程序等集成在一个统一的流水线中，并且可以从笔记本环境透明地扩展到大规模集群，对生产数据进行处理。
那么，通过Analytics Zoo可以实现什么？
首先，用户可以轻松地创建端到端的人工智能应用，并加以部署，例如在 Spark 程序中书写 TensorFlow 或者 PyTorch 代码，并进行分布式的训练和推理；
其次，用户可以使用高级机器学习流水线，来实现大规模机器学习应用程序开发过程的自动化；
此外， Analytics Zoo 还提供了用于构建推荐、时序数据、计算机视觉和自然语言处理程序等不同应用场景的各种算法和模型。
在实际应用中，英特尔与腾讯的机器学习团队通过深度技术合作，将 Analytics Zoo集成到腾讯云智能钛机器学习平台。该平台是基于腾讯云强大计算能力的一站式机器学习生态服务平台。

本文插图
Analytics Zoo 中的 AutoML 框架
此项合作也使该平台获得了更强大的 AutoML 特性，让 AI 初学者也能轻松使用。使用 Analytics Zoo 的 AutoML ，可以很方便地进行时间序列分析，如时序预测，异常检测等。
除此之外，不变的仍然是软硬能力的携手合作。腾讯云将先进的第二代英特尔至强可扩展处理器应用于腾讯云智能钛机器学习平台。第二代英特尔至强可扩展处理器支持英特尔深度学习加速技术，提升了人工智能负载，特别是深度学习负载性能。
想要大数据分析与AI结合的空白点，确实需要跨越几大难关：如何将数据与 ML/DL 算法结合在一起？如何跨越 AI 技能组合的供需之间存在巨大的鸿沟？
Analytics Zoo的出现正是希望帮助开发者解决问题——「无缝」地从笔记本的生产原型扩展到集群或生产化部署。

本文插图
如今Analytics Zoo也已经在GitHub上开源，开源地址：https://github.com/intel-analytics/analytics-zoo
硬件革命性创新，突破AI模型训练的内存瓶颈
回归到硬件，英特尔早已有一系列处理器助力企业释放AI效能，例如支持深度学习加速技术的第二代英特尔至强可扩展处理器。分页标题
谈到助力释放AI效能的硬件基础时，算力通常是最先被考虑的因素，然而对于处理工作负载极高的AI应用来讲，内存的容量更是不容忽视。
医疗保健工作负载（尤其是医学成像）常常需要采用高分辨率的 3D 图像，因此内存占用量就要比其他AI工作负载大，此类模型在训练和推理过程中内存占用量也是格外大。
对于卷积神经网络来讲，激活映射会随输入图像的大小而变化。输入图像变大时，激活映射也随之增加，其内存占用量可能要比模型的权重和偏差大很多倍。
进行训练时，可通过在多个计算机和内核之间进行分布式计算来解决这一问题，而这一解决方法亦是牺牲了速度与便捷性。
依靠存储与内存技术革命性创新——通过配置DDR4 RAM 可高达 1.5 TB 且每路可支持高达 6 TB 的英特尔傲腾持久内存，第二代英特尔至强可扩展处理器大幅降低了采用该应对方案的必要，研究人员无需更改任何代码即可利用 RAM 全部容量。

本文插图
针对各种输入张量大小对 3D U-Net 模型训练的内存占用情况进行的基准测试
英特尔、戴尔和佛罗里达大学展示了基于第二代英特尔至强可扩展处理器的服务器如何凭借其大内存容量，让研究人员更有效地训练和部署几乎需要占用 1 TB RAM（如上图）的脑肿瘤分割医学成像模型。

本文插图
与此同时，英特尔的软硬件优化也大大提升了训练此类大内存模型的速度。与未经优化的标准 TensorFlow 1.11 相比，英特尔面向 3D U-Net 模型优化的 TensorFlow 1.11 训练速度提升了 3.4 倍。
英特尔发布全新AI优化数据平台产品组合，夯实计算、存储的「基石」
以上案例都是基于英特尔第二代至强可扩展处理器，软硬结合的实力需不断修炼。
在6月19日召开的主题为「『芯』存高远智者更强」的2020英特尔数据创新峰会暨新品发布会上，英特尔发布了全新AI优化数据平台产品组合，进一步释放生态效能赋能智者。
此次英特尔推出的硬件和软件产品组合正是专为人工智能和数据分析工作负载而进行了全面优化，例如：

本文插图
第三代英特尔至强可扩展处理器是英特尔首款集成bfloat16（BF16）支持的主流服务器CPU ，而bfloat16则是英特尔深度学习加速（英特尔DL Boost）新增的指令集技术。
英特尔傲腾持久内存200系列是英特尔的新一代持久内存模组，可支持前所未有的内存容量，并以最快的速度访问持久存储的数据。与第一代产品相比，英特尔傲腾持久内存200系列的平均内存带宽增加了25％。
除此之外，英特尔首款针对AI进行优化的FPGA——英特尔Stratix 10 NX（Primero Springs），可为自然语言处理和欺诈检测等应用提供高带宽、低延迟的AI加速。

本文插图
如同上述所提，内置BF16指令可以说是第三代至强可扩展平台的最大特性，进一步增强了现有的深度学习优化能力——对于新至强平台来说， BF16相对于原有的FP32可以获得近2倍的性能。这将提升大大提升AI人工智能、ML机器学习、DL深度学习等应用的性能、效率。
进一步提升的软硬结合实力，将更强势输出AI生态效能。基于新一代至强平台，下一步英特尔将如何再扩大自己的生态圈呢？我们拭目以待。