光一样的少年|向大数据异构系统的神威并行存储系统

面向大数据异构系统的神威并行存储系统
何晓斌1,蒋金虎2
1国家并行计算工程技术研究中心
2复旦大学计算机科学技术学院
论文引用格式:
何晓斌,蒋金虎.面向大数据异构系统的神威并行存储系统[J].大数据,2020,6(4):30-39.
HEXB,JIANGJH.Sunwayparallelstoragesystemforbigdataheterogeneoussystem[J].BigDataResearch,2020,6(4):30-39.
1引言大数据应用越来越广泛 , 也在很多方面影响着传统高性能计算(highperformancecomputing , HPC)应用 。 大数据与高性能计算相互融合 , 相互影响 , 主要体现在以下几个方面:一是异构并行计算应用与大数据应用融合交互;二是异构并行计算向大数据处理方式转变;三是大数据应用融入了高性能异构并行计算模式 。 这些新型的融合应用对传统的高性能计算机系统提出了新的要求 。 当前 , 大数据分析框架具有一些吸引人的特性 , 如容错性和与Hadoop生态系统的互操作性 。 但是 , 与使用高性能计算工具(如消息传递接口(messagepassinginterface , MPI))编写的本机实现相比 , 大数据框架中的许多分析操作是低效的或更慢的 , 在异构系统中 , 为了更好地发挥异构系统特性 , 有很多关于异构、存储的并行和优化工作 。 为了让大数据框架更好地在高性能计算系统中运行 , 只需基于MPI实现大数据框架 , 将大数据计算卸载到MPI , 就能达到融合效果 。 但将大数据处理的数据访问向高性能计算存储上适配 , 则存在许多问题 , 尤其是作为大数据处理系统的关键存储系统 , 其针对大数据处理的数据访问模式的设计和构建尤为重要 。 为了让大数据应用更好地使用高性能计算机系统的存储系统 , 研究者提出了多种方法 , 有的针对应用进行了数据访问优化 , 有的基于网络优化实现了加速 , 有的通过在高性能计算上重新构建大数据软件栈来实现优化 , 但从根本上来说 , 从架构层面构建两级存储模型是一种很好的解决方法 。
国产超级计算平台“神威·太湖之光”的并行存储系统为了增强对大数据应用的支持 , 在支持高性能计算应用的基础上 , 对设计和架构采用了一系列改造和优化关键技术 。 2背景介绍2.1“神威·太湖之光”异构系统结构简介“神威·太湖之光”是中国第一台全部采用自主技术构建的超级计算机 , 也是世界上首台峰值运算速度超过10亿亿次量级的超级计算机 。 考虑到面向的应用的复杂性 , “神威·太湖之光”计算机系统体系结构引入了融合体系架构 , 架构的一部分是面向传统高性能计算的高速计算系统 , 另一部分是面向大数据等新型应用的辅助计算系统 , 两部分通过高速计算互联网络进行内部和相互之间的高速互联 。 系统总体架构如图1所示 。
系统高速计算部分 , 峰值运算和实测LINPACK性能分别达到了125.436PFlops和93.015PFlops , LINPACK系统效率达到了74.153% , 系统采用了40960个64位自主神威指令集的SW26010处理器 。 SW26010处理器采用异构众核体系结构 , 即片上计算阵列集群和并行共享存储相结合的架构 , 全芯片260核心 , 芯片标准工作频率为1.5GHz , 峰值运算速度为3.168TFlops 。 SW26010处理器的架构如图2所示 。
存储系统由在线存储系统和近线存储系统组成 , 如图3所示 。 在线存储系统由288台带高速固态驱动器(solidstatedrive , SSD)的存储服务节点、144台高性能双控制器光纤串行SCSI(serialattachedSCSI , SAS)盘阵、8台元数据服务节点组成 , 负责提供高速可靠的在线数据存储访问服务 , I/O聚合带宽达341GB/s 。 近线存储系统由6个元数据服务节点、112个存储服务节点和两台大容量光纤存储区域网络(storageareanetwork , SAN)盘阵组成 , 提供面向云和用户业务的存储服务 。