管理平台|SC20浪潮发布新一代ClusterEngine,支持HPC+AI多负载业务
北京2020年11月20日 /美通社/ -- 11月19日,在2020全球超算大会(SC20)上,浪潮发布新一代HPC集群管理平台ClusterEngineV5,支持超算中心HPC及AI计算负载,提供涵盖硬件运维、业务管理和应用性能分析的全栈式高效管理,帮助系统管理者轻松管理上万节点,大幅提升HPC集群的资源利用率和应用计算效率,满足面向未来的新型超算中心的创新业务增长需求。
【 管理平台|SC20浪潮发布新一代ClusterEngine,支持HPC+AI多负载业务】近年来TOP500超算榜单中,近30%系统拥有加速卡/协处理器,也就是说,越来越多的超算系统配有大量低精度算术逻辑单元,用来支撑人工智能计算能力需求。可以预见的是,未来超算中心将承担更多的AI计算负载,这给超算中心的运维管理带来了更大的挑战。传统HPC集群管理软件通常是面向HPC负载设计的,往往只能管理单一的硬件或业务,而且监控数据不能打通。为了帮助超算中心更高效、更方便地管理HPC和AI负载,浪潮推出了新一代HPC集群管理平台ClusterEngineV5,包含硬件运维、业务管理、应用性能分析三大模块。
文章插图
ClusterEngineV5的智能化硬件运维平台
面对底层硬件,ClusterEngineV5提供一体化硬件运维监控平台,实现服务器、存储、网络设备的全生命周期自动化运维,有效地帮助用户提高运维效率、降低运维成本。平台可实现7*24小时大规模硬件监控管理,快速识别200+类问题,内置30000+专家级大数据规则库,快速诊断故障根因并提供解决方案。同时可以自动监测数据中心功耗,进行智能分析、远程控制、功耗管理,帮助用户节省30%以上的功耗。
文章插图
ClusterEngineV5的HPC业务管理平台
面对核心业务,ClusterEngineV5为上万节点HPC集群提供稳定、高效、易用的HPC业务管理平台。可实现HPC和AI应用的统一管理,作业提交流程极简化。并能根据用户业务需求实现灵活的作业调度和管理策略,保证资源充分利用。同时支持容器化,用户可快速部署应用,在多节点并行计算时,保证各节点系统环境一致,并且可通过容器快速部署开发环境,提升开发工作效率。
文章插图
ClusterEngineV5的HPC应用性能分析工具
并且,ClusterEngineV5提供独有的HPC应用性能分析工具,帮助用户诊断应用瓶颈,提升HPC应用优化效率及质量。该工具可对异构集群进行全方位性能分析,针对AI计算提供函数级应用性能分析,及时定位性能异常,帮助用户深入分析和发现计算性能优化空间。基于该工具的分析结果,用户可结合自身平台的资源使用情况及设备特征,提升应用计算效率及资源利用率。
浪潮ClusterEngineV5打通了硬件监控、业务管理和应用性能分析,提供了一套面向HPC与AI应用场景的全栈式超算中心管理解决方案,涵盖全生命周期集群硬件智能运维、全方位集群监控、应用性能监控、异构集群算力调度分析和调优等,帮助管理人员高效管理HPC和AI负载,降低集群部署和管理门槛,提高资源利用率和计算效率,实现降本增效,推动面向未来的超算中心业务创新。
- 会员|美容院使用会员管理软件给顾客更好的消费体验!
- 信息|澜湄合作机制开通水资源合作信息共享平台
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 发展|我省要求互联网平台坚持依法合规经营 推动线上经济健康规范发展
- 平台|Win平台上的本地音乐管理软件,MusicBee
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 主题活动|首届“上海在线生活节”启动,8大电商平台优惠活动承包你的12月
- 优化|微软亚洲研究院发布开源平台“群策 MARO” 用于多智能体资源调度优化
- 羊毛|12月1日至15日,首届“上海在线生活节”来了,八大电商平台等你薅羊毛