经典配置

首页 经典配置

HPC集群解决方案

高性能技术计算是利用数值模拟和数字技术方法探索和预测未知世界的技术。这一技术广泛应用于核武器研究和核材料储存仿真、生物信息技术、医疗和新药研究、计算化学、

GIS、CAE、全球性长期气象、天气和灾害预报、工艺过程改进和环境保护等许多领域。近年来,随着研究的深入和竞争的加剧,各个领域越来越多地使用模拟的方法来解决科研和生产中的实际问题。模拟的模型越来越大、计算的精度越来越高、对超级计算机性能要求也越来越高。例如,在一个3维模型中,如果把从每个方向取100个分点增加取到1000个分点,对计算机资源的需求将增加1000倍以上。高性能计算应用不仅规模越来越大,而且往往必须在规定的时间内完成任务否则就失去了计算的价值(如天气预报、传染病防治)。这就对计算机系统的计算能力、系统带宽、内存容量、存储设备和I/O吞吐能力以及应用软件的开发技术都提出了更高、更全面的要求。 

为了促进高性能计算广泛应用必须降低成本,否则很难为更多的用户所接受。由于高端的高性能计算系统(特别是超级计算机)需要使用许多计算节点和互联设备等部件,因此必须保持每个部件的低成本。早期的超级计算机系统使用专门定制的处理器和互联设备等部件价格非常昂贵。以后,Cray Research 公司的T3D 和 CRAY T3E 开始使用商品化的 Alpha 处理器。当前商品化处理器和服务器性能日益提高、价格也日趋下降,为利用它们建立高端和超级计算机系统提供了良好的基础。为此,美国政府还推出了ASCI 计划,力图降低超级计算机系统的成本,其主要途径是尽可能采用商品化市售(COTS)硬件和软件部件,把力量集中在发展主流计算机工业不能有效地提供的专门技术。目前已经很少再有厂商使用专门的部件如向量处理器来建立超级计算机系统。今后的发展趋势是在高端和超级计算机系统中尽可能普遍地采用商品化和大批量的工业标准部件,包括处理器、互联设备、I/O、存储、操作系统、语言、编译程序、编程工具和应用软件。人们注意到,基于开放性IA-32体系结构的Xeon和Pentium 4处理器的超级计算机已经在TOP500占有重要地位。新兴的Itanium处理器系列(IPF)必将以其开放性、大批量和64位寻址和处理能力,对超级计算机水平的提高产生划时代的影响,以远比32位体系结构时代高的性能和性价比来满足日益增长的需求。

在传统意义上高性能计算应用是属于CPU和内存密集型的应用,它对所运行的计算机体系结构(超级计算机体系结构)提出了几个主要的要求:  浮点计算能力(尤其是64位双精度浮点运算),内存带宽和内存容量及体系框架。
所有这些因素都是相互关联的。高性能计算通常利用各种数学方程式来建立模型和模拟物理现象。随着各种模型越来越大,越来越复杂,数据集的规模也急剧增长。例如,一个100*100*100的栅格包含100万个元素,该模型仅占用32MB内存,如果此栅格的分辨率提高10倍,这一模型就变为1000*1000*1000,包含10亿个元素,此模型的原始数据将占用32GB的内存!因此不论是分布式内存还是共享式内存,要将此数据传输至内存中,由CPU处理,就需要高带宽,高容量,低延迟的体系结构,当然还需要强大的CPU进行计算。
而超级计算机主要用来处理这样庞大的工作负载。这样的负载所要求的超级计算机一定是采用快速的CPU,高性能的内存和I/O子系统,旨在实现最高的运算速度。同样这样的负载所要求的超级计算机还必须采用多级别并行处理技术,能够利用几十个甚至几千个处理器来处理一项任务;这样的并行处理技术也需要超级计算机要采用高性能的互连设备和系统设计,以较高的成本去换取最高的性能。
 

针对GPU深度学习平台系统高性能计算应用的特点,结合与相关业务处室的沟通。从满足应用需求的角度出发,我们建议建立一个高可扩展、易管理的混合SMP与Cluster结构的高性能计算环境. ,我们推荐采用8台华硕服务器ESC8000G4作为GPU计算节点,主要运行并行计算、图形分析等应用。GPU计算节点服务器采用高性能计算操作系统环境,并运行动态资源管理工具对任务的资源分配进行管理和调度。
高性能计算集群配置1个管理节点服务器RS720及2个存储节点RS540管理节点运行OpenPAI管理软件实现Cluster中所有节点的集中管理、配置、激活/关闭等,并通过软件对用户提交的任务进行作业管理。
GPU节点服务器和集群管理节点通过1000Base-T千兆以太网连接到办公室骨干网中,各工作组通过该网络申请计算资源和提交任务。
GPU节点服务器和存储节点可通过扩展的56GB光纤网络连接到存储中,满足高性能计算环境对存储性能和空间的巨大需求。