黑白科技|软硬结合实力派:英特尔强势输出AI生态效能( 三 )


医疗保健工作负载(尤其是医学成像)常常需要采用高分辨率的3D图像 , 因此内存占用量就要比其他AI工作负载大 , 此类模型在训练和推理过程中内存占用量也是格外大 。
对于卷积神经网络来讲 , 激活映射会随输入图像的大小而变化 。 输入图像变大时 , 激活映射也随之增加 , 其内存占用量可能要比模型的权重和偏差大很多倍 。
进行训练时 , 可通过在多个计算机和内核之间进行分布式计算来解决这一问题 , 而这一解决方法亦是牺牲了速度与便捷性 。
依靠存储与内存技术革命性创新——通过配置DDR4RAM可高达1.5TB且每路可支持高达6TB的英特尔傲腾持久内存 , 第二代英特尔至强可扩展处理器大幅降低了采用该应对方案的必要 , 研究人员无需更改任何代码即可利用RAM全部容量 。
黑白科技|软硬结合实力派:英特尔强势输出AI生态效能
文章图片
针对各种输入张量大小对3DU-Net模型训练的内存占用情况进行的基准测试
英特尔、戴尔和佛罗里达大学展示了基于第二代英特尔至强可扩展处理器的服务器如何凭借其大内存容量 , 让研究人员更有效地训练和部署几乎需要占用1TBRAM(如上图)的脑肿瘤分割医学成像模型 。
黑白科技|软硬结合实力派:英特尔强势输出AI生态效能
文章图片
与此同时 , 英特尔的软硬件优化也大大提升了训练此类大内存模型的速度 。 与未经优化的标准TensorFlow1.11相比 , 英特尔面向3DU-Net模型优化的TensorFlow1.11训练速度提升了3.4倍 。
英特尔发布全新AI优化数据平台产品组合 , 夯实计算、存储的''基石''
以上案例都是基于英特尔第二代至强可扩展处理器 , 软硬结合的实力需不断修炼 。
在6月19日召开的主题为'''芯'存高远智者更强''的2020英特尔数据创新峰会暨新品发布会上 , 英特尔发布了全新AI优化数据平台产品组合 , 进一步释放生态效能赋能智者 。
此次英特尔推出的硬件和软件产品组合正是专为人工智能和数据分析工作负载而进行了全面优化 , 例如:
黑白科技|软硬结合实力派:英特尔强势输出AI生态效能
文章图片
第三代英特尔至强可扩展处理器是英特尔首款集成bfloat16(BF16)支持的主流服务器CPU , 而bfloat16则是英特尔深度学习加速(英特尔DLBoost)新增的指令集技术 。
英特尔傲腾持久内存200系列是英特尔的新一代持久内存模组 , 可支持前所未有的内存容量 , 并以最快的速度访问持久存储的数据 。 与第一代产品相比 , 英特尔傲腾持久内存200系列的平均内存带宽增加了25% 。
除此之外 , 英特尔首款针对AI进行优化的FPGA——英特尔Stratix10NX(PrimeroSprings) , 可为自然语言处理和欺诈检测等应用提供高带宽、低延迟的AI加速 。
黑白科技|软硬结合实力派:英特尔强势输出AI生态效能
文章图片
如同上述所提 , 内置BF16指令可以说是第三代至强可扩展平台的最大特性 , 进一步增强了现有的深度学习优化能力——对于新至强平台来说 , BF16相对于原有的FP32可以获得近2倍的性能 。 这将提升大大提升AI人工智能、ML机器学习、DL深度学习等应用的性能、效率 。
进一步提升的软硬结合实力 , 将更强势输出AI生态效能 。 基于新一代至强平台 , 下一步英特尔将如何再扩大自己的生态圈呢?我们拭目以待 。