商汤|亚洲最大!上海“巨无霸”AI计算中心投用,支持万亿参数大模型训练( 二 )


“我们计划是3740PetaFLOPS里面应该会不少于50%的国产芯片做核心AI芯片来使用 。 ”杨帆说 , 临港AIDC只是一个 , 商汤还有更多区域的AIDC布局建设正在推进中 , AIDC整体会以训练为主 , 也会有一些推理 , 但占比较低 。
他提到过去两年 , 商汤与多家国内AI芯片厂商展开了大量合作 , 希望加快国产云端AI芯片及相应服务器在市场更大规模、更大范围地使用 。
据悉 , AIDC当前试运营机器里已有一部分国产化比例 , 该比例的提升对于AI全产业链整体成本的下降、整体服务水平的提升、在硬件侧形成更加良性的商业竞争环境等方面将带来很大的价值 。

过去两年 , 商汤在持续推动国产AI核心软硬件之间的适配 。 为了促进这件事情 , 商汤在2021年7月上海世界人工智能大会上牵头成立了“人工智能算力产业生态联盟” , 简称“ICPA智算联盟” 。
商汤将基于AIDC , 促进AI生态的构建 , 推动国产原创技术的落地应用 。
杨帆分享道 , 从成立ICPA算力联盟开始 , 联盟每一季度都会组织一到两次的齐聚芯片设计专家、软件设计专家、软件设计专家、行业标准专家的深度闭门研讨会 。
在前期 , 商汤希望形成一个足够标准、通用的软硬件接口层的定义 。
作为亚洲最大AI软件平台公司 , 商汤既有核心平台层和操作系统层的软件能力 , 又有大量下游应用 , 跟各个国产硬件、芯片厂商做核心软件、系统的适配 , 能帮他们节省研发费用和时间成本 。
中期的工作是 , 商汤在临港AIDC投入运营之后 , 会跟中国电子技术标准化研究院(工业和信息化部电子第四研究院)建立“CESI-SenseTime人工智能算力及芯片评测联合实验室” , 开展AI算力和芯片标准制定、AI芯片测评工具开发 , 提供AI计算中心、芯片测试验证服务和人才培训等支持 。
该实验室未来将成为中立的第三方AI芯片、AI服务器测评机构 , 为产业提供参考标准 , 也促进每个硬件厂商更好地提升自家产品 。
面向长期 , 由于商汤自身有大量下游产业应用 , 商汤将不遗余力地把相对较好的国产AI芯片及其服务器 , 导入整合到自己及合作伙伴的解决方案 , 将它快速推向市场 。
三、六大技术亮点 , 解读AIDC建设的硬实力商汤的AIDC通过其大规模数据处理及高性能计算的能力 , 为研发提供支持 。
杨帆强调说 , AIDC的算力并非堆砌 , 其中涉及许多通信侧、存储侧的领先技术 。 在高性能计算、分布式调度、数据I/O、软硬件协同以及系统安全方面 , AIDC均实现了多重突破 。

(1)高性能计算:商汤已开发一款高性能计算引擎 , 它包含丰富的高度优化的计算程序、编译器及运行时环境 。 与芯片供应商提供的计算引擎相比 , 商汤的计算引擎通过优化的算子及全图优化技术 , 显著提高端到端的运行效率 , 不仅涵盖神经网络计算 , 亦涵盖预处理及后处理阶段 。
(2)高效的分布式调度:AIDC具有分布式任务调度系统 , 可在成千上万个GPU上动态调度数以万计的计算任务 。 该系统每年调度超过2000万个任务 , 确保研发活动能及时及有效地进行 。 在多种调度策略的支持下 , 调度系统可保持算力的高利用率 , 大降训练一个模型所需的平均成本 。
(3)高速的数据I/O:在数据集上训练模型时 , 每个数据样本都会以高频率和随机顺序加载和处理多次 。 商汤的AIDC可提供非常高的IO吞吐量 , 允许训练任务每秒加载超过200万张图片 , 保证训练任务可以全速运行而无需等待数据 。
“2018年 , 我们做了一个原型机的预研项目 , 实现了把1000块GPU卡连在同一个网络上去加载数据进行运算 。 今天我们正在做更大的5000~10000张卡 , 把它连在同一个网络上去进行计算 。 ”杨帆谈道 。
(4)硬件/软件协同设计:在分布式环境中 , 协同各计算节点GPU相互通信、频繁从分布式存储系统中获取数据的复杂操作 , 易造成运行时性能的显著损失 。 对此 , 商汤采用硬件/软件协同设计的方法 , 根据其对AI任务的理解来配置硬件设置 , 同时设计软件栈并进行跨层优化 。 通过这种设计 , 商汤的AIDC每年可生产数以万计的模型 。
(5)高标准的系统安全:商汤在设计其架构时在多个层级确保系统安全 。 例如 , 商汤制订全面的指引 , 按照不同安全级别对数据进行分类 , 并授予相应的访问权限;商汤的存储系统包括先进的访问控制系统;敏感数据以加密的形式存储及传输;分配给不同授权组的计算资源实现了合理隔离 。 商汤的安全团队实时监控AIDC的运行 , 并在出现潜在风险时采取行动 。