扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
2.方案
曙光公司作为国内顶尖的高性能计算系统供应商,多年来致力于为我国航空航天界提供优秀的高性能计算解决方案,推动国内空气动力学数值模拟研究的发展,曙光高性能计算机在载人航天、卫星测控、天文观测、导弹研发、航空发动机设计、军用民用飞机设计等航空航天领域大量应用,为国家天文台、紫金山天文台、北京卫星控制指挥中心、酒泉卫星发射中心、西安卫星发射中心等提供专业服务。曙光超级计算机参与了“神舟五号”、“神舟六号”载人飞船从发射到回收的全过程,在目标轨道计算、空间碎片定轨计算、控制飞船入轨、发射气象气候监测、飞船发射窗口分析等方面发挥重要作用。
目前曙光公司的高性能计算解决方案包括天潮4000A、天潮4000L和天潮4000W,它们都采用集群架构。毫无疑问,集群技术极大的推动了高性能计算的发展,从2002年开始,无论是集群的数量还是集群的销售额都获得了快速增长,目前已经成为了高性能计算的主流体系结构,在国内TOP100中占有90%以上的分额。然而集群的发展正面临着越来越多的挑战,据IDC的一份统计报告指出,集群系统的东电和散热已经成为制约其发展的首要问题,其次是系统可管理能力。不断增长的计算需求使得高性能集群系统的占地面积和功耗越来越大,以上海超算为例,500多个计算节点占地面积达到一个篮球场大小,每年的电费也高达几百万元。实际上,国内大多数用户正在面临着买的起用户不起的尴尬局面。
2007年5月份,曙光公司转为百万亿次高性能计算机曙光5000研发的核心节点机系统TC2600刀片服务器正式发布,以TC2600为核心,结合曙光4000系列集群技术的成为最符合“高效能计算”思想的解决方案。
2.1曙光TC2600刀片引领“高效能计算”
随着高性能计算向高性能服务转变,超级计算机系统追求的目标也将从“高性能”(High Performance)走向“高效能”(High Productivity)。即超级计算机的研发重视系统的实际效率,可靠性、可用性、好用性,努力提高单位面积的性能,降低单位面积的功耗和造价;更加重视高端计算的总体拥有成本(应用系统生命周期内的成本+拥有/获得成本);愈来愈复杂的高端系统需要自动化、人性化的环境支撑(系统的自管理、自配置、自优化和自愈性等)。曙光刀片服务器正是基于这一理念进行设计的。
2.1.1优异的系统平衡架构设计
TC2600刀片服务设计之初,充分分析了机架式机群系统以及市场十几款厂家的刀片服务器产品,对其架构的优缺点进行分析,进行了详细的功率计算,对CPU、硬盘内存发展趋势进行分析,对目前主流高速互连技术进行分析,采用7U10片的系统架构,同时保证计算密度同系统I/O带宽、散热能力等方面的平衡设计。
在背板带宽和延迟方面,是刀片服务器性能瓶颈。而在曙光刀片服务器系统中,整个刀片背板总带宽为950Gb,信号延迟为纳秒级,大大提高了计算系统带宽并降低延迟,很好的实现了计算能力同I/O能力的平衡问题。同时,创新的把PCI-E总线引入背板。因为背板信号为PCI-E,在背板的后端,可以根据系统需要灵活的设计各种高速交换设备,比如InfiniBand交换、Myrinet交换、ASIC交换、FC交换等。
在处理器计算能力上,目前推出的产品对每个刀片支持两个双核或四核心AMD Opteron处理器,在每个机柜内可以实现最多80个处理器核心的计算能力,浮点峰值计算能力最高可以达到8000亿次每秒/刀片机箱(采用2.5GHz主频的四核Barcalona处理器)!
2.1.2节能设计提高能耗比
为降低功耗,曙光刀片服务器采用先进的多渠道节能技术,主要体现在3个层面:
根据实时功耗确定工作电源个数,使电源工作在最佳效率曲线上。
结合AMD领先的“PowerNow”技术修改计算刀片操作系统内核,实现节能。
专用散热通道和自适应的风扇设计降低散热能耗需求,保证系统散热和计算密度达到平衡。
2.1.3高性能的Infiniband模块设计
曙光TC2600刀片主要面向大规模集群计算市场,除了内嵌的千兆交换机模块和PassThrough模块外,还可以提供对20G高速Infiniband网络的支持。曙光IB模块和IBM、HP等公司的做法不同,在该模块内集成了10个HCA卡芯片和1块24口交换机芯片,无须为每个刀片再配置HCA子卡,集成度更高,由于全部自主设计,较传统的利用HCA子卡+外置交换机的方式具有更低的成本。
2.1.4创新的IOE扩展模块
I/O扩展能力一直以来都是刀片服务器的一大诟病,刀片服务器产品在需要扩展其它插件的时候,一般都借助于主板子卡的扩展形式,而且只能进行单一功能的扩展。曙光TC2600创新性的I/O扩展模块打破了一直以来刀片服务器I/O扩展方式的限制。TC2600为每个刀片独立配置了PCI-E扩展插槽,能够兼容网卡、FC HBA、iSCSI HBA、Infiniband HCA等业界绝大部分PCI-E板卡,为刀片服务器系统的I/O扩展提供了更为灵活的选择。
2.2方案选择
曙光TC2600刀片服务器单机柜内典型配置可以支持80个并行计算核心和80GB内存,可以支持最多8000万网格单元的空气动力学CFD模拟(显式求解或分离求解)。以Fluent软件为例,下表给出了不同计算模式下计算模型对系统硬件资源主要是内存的需求:
算法 |
segregated implicit |
coupled implicit |
coupled implicit燃烧 |
coupled explicit燃烧 |
coupled explicit |
百万网格 内存需求 |
0.9GB |
2.4 GB |
6.5GB甚至更多,依赖于燃烧反应复杂度 |
1.3GB |
1GB |
在系统内存能够容纳计算模型的前提下,处理器的数量和性能影响到计算的快慢,如某计算模型耗用的内存为16GB,可以用1个16GB内存的双路节点计算,也可以用2个8GB内存的双路节点或4个4GB内存的双路节点,多数情况下计算速度会随着节点数量的增加而大幅度提高。如下图所示,Fluent在TC2600刀片服务器上有着很好的加速比。对于Fll1,从4-16CPU加速比达到线速;对于Fll2和Fll3,由于题目规模较大,从4-32CPU都保持线速(其中Fll3需要4GB以上内存,无法运行在1个节点上)。因此,应该从内存和处理器两个层面来综合考虑一个计算模型应该选用哪种规模的硬件配置。
我们以大、中、小三种规模准备了3套基于TC2600刀片服务器的集群方案供用户选择:
规模 |
配置 |
小 |
1个BladeEngine刀片机箱,配置2个4端口千兆交换机模块; 4-10个CPU Blade计算刀片,配置双路AMD双核或四核处理器、1GB内存/CPU核心、SATA2硬盘 |
中 |
2-6个BladeEngine刀片机箱,配置1个4端口千兆交换机模块和1个10端口千兆PassThrough模块; 16-60个CPU Blade计算刀片,配置双路AMD双核或四核处理器、1GB内存/CPU核心、SATA2硬盘或SAS硬盘 1个A620r-F管理存储节点 1套千兆计算网线速交换交换机连接刀片机箱的Passthrough模块 1套千兆管理网交换机连接刀片机箱的交换机模块 |
大 |
7-14个BladeEngine刀片机箱,配置1个4端口千兆交换机模块; 64-140个CPU Blade计算刀片,配置双路AMD双核或四核处理器、1GB内存/CPU核心、SATA2硬盘或SAS硬盘 2个A620r-F管理存储节点 96-144端口Infiniband交换机,SDR或DDR,单端口Memfree PCIE HCA卡 1套千兆管理网交换机连接所有刀片机箱的交换机模块 |
3.结论
CFD高性能计算技术正在成为航空航天飞行器空气动力学设计过程中除风洞试验以外最重要的方法,曙光公司在高性能计算领域的深厚积累能够为用户提供多种规模的集群系统解决方案。最新推出的TC2600刀片集群系统具有高性能、高可靠性、低能耗和低占地面积的优势、是符合“高效能计算”思想的最佳解决方案。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者