扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共6页)
近日,笔者与其他媒体的记者有幸参观了清华大学的ChinaGrid计算节点,也是国家863高性能计算机评测中心的机房,与清华大学计算机系副主任、863高性能计算机评测中心副主任陈文光教授就HPC系统的评测,以及新一代清华HPC系统的组建和选型进行了深入的沟通,从而也让我们对HPC系统与应用有了更为深刻的认识。
参观863高性能计算机评测中心
来到机房前面,陈文光教授介绍到,我们这个系统里面用的128个节点,每个节点是两个安腾CPU,2004年建成,是我国当时较早的基于安腾处理器和Infiniband的集群系统,峰值速度大概是1.3 TFLOPS的水平,但是现在硬件的发展很快,这套系统已经相对来讲比较落后了。
目前这套系统的存储,使用了EMC的磁盘阵列,它的存储量差不多是170个TB,而在这套系统的旁边是2008年做的一个刀片机架,那个系统整个用了32个节点,每个节点是四核的双路英特尔至强5400系列处理器,基本上是原来系统性能的两倍,现在已使用了差不多三年的时间,清华大学现在正在计划做一个计算能力达100T的系统,主要服务于清华大学在地球气候变化蛋白质结构、原子分子动力学模拟等方面的研究,也将成为863高性能计算机评测中心的良好的评测环境。
清华大学计算机系副主任、863高性能计算机评测中心副主任陈文光教授为记者们介绍清华大学高性能计算中心机房的建设历史与未来的规划
随后,陈教授带领大家走到一些零散的服务器前面指出,这边是我们最近要买的新的系统的一些结点机器,由一些厂商送测。评测的基本方法是:由于不可能把整个的大机器都拿过来测,所以就测它的一个结点,再根据单个结点的性能与网络配置综合考虑,推测大规模并行系统的性能。这两个是存储盘阵,对于存储系统我们也进行相应的测试。测试的程序主要来自于清华大学以后在系统运行的重要应用,我们把程序的规模缩小,让它们能够在单个节点上做测试,通过这个我们来挑选一下到底选什么样的机器。由于购买招办有一定流程,我们的测试结果并不能最后决定买哪个机器,但是我们可以把它的性能指标给它勾画出来,就是说这个机器对我们的应用来说有一个什么样的性能,我们可以在这个招标书中,指定相应的性能分或者性价比得分数,对高性能计算机系统的招标具有很好的指导意义。
针对未来100T的HPC系统的配置,陈教授表示基本上将以至强5600为主,结点数大约在900个左右,另外还将有几个至强7500胖节点。对于未来的HPC节点是刀片为主还是机架为主的问题,陈教授表示,感觉现在肯定刀片是好的,因为刀片系统的外接连线少、可管理性好、功耗方面也有优势。但是有一个问题是我们预算比较有限,所以也不排斥其他的方案,比如1U机架的高密度解决方案。对我们来说最重要的还是计算性能、稳定性、功耗这些东西,后面才是密度这些问题。
不过新的系统肯定会对机房的供电提出更高的要求,因此机房的供电肯定是要改造的,陈教授表示,现在的供电系统只是支持5个T左右的系统,要支持100个T的系统,还需要对供电系统进行较大的改造。另一方面,随着处理器技术的发展,服务器的能效提高很多,从电费上看,现在这套系统的电费每年大概80万元,而新系统则在200至300万元之间。
不过现在的HPC应用是跑在HP的安腾服务器上,未来全面转向x86平台后,应用开发与迁移会不会成为一个难点呢?对此陈教授表示,这个关系不是特别大,因为在学校里面跟商业应用是不太一样,因为学校里面大家的应用都是有源代码的,源代码可能就会重新编一下,这个肯定有优化的过程,这块我们也有中心的老师会和用户一块儿来做这个事。即使是商业软件现在在x86上的支持也比较多,所以这不是一个很大的问题。那么未来有没有考虑过新的安腾服务器呢?陈教授答到,新的安腾刚刚出来,它可能是更加面对这种高可用的服务,这些都是在科学计算方面大家现在的共识是不太可能用安腾的架构来做,还是用x86的架构来做。此外,清华大学是nVidia公司的CUDA卓越中心,nVidia已向清华大学捐赠了部分GPU加速器,将会给整个体统提供另外数十Tflops的单精度计算能力。最后对于新系统的使用,陈教授也谈了一些想法,目前计算中心 的系统还没有分区,是整个一个大区来使用,但未来新的100T的系统会适当的分一些区的,交给各区的用户,由他们管理,他们会根据应用的需求来做这个事情。 另一方面,100T的系统还会考虑做一些针对校外用户的HPC服务。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者