扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共6页)
RAS、TurboBoost与高性能计算
记者:我们之前可能除了数据中心,每个人关注的技术特征新的变化不一样。你觉得从高性能用户来讲有哪些新的技术值得关注?
陈教授:首先这里面我觉得RAS这种特征是非常好的。因为我们现在高性能计算遇到一个很大的问题,就是比如说你一台机器的平均无故障时间是三年,但是你要有一千台机器的话,基本上每天都会有一台机器会坏掉。这个问题就是说,如果在这个系统上运行一周的程序,我怎么去跑这件事?很困难。当然现在有很多其他的研究方法,就是大家都在讲系统不可靠的时候,我怎么让一个应用可以可靠的运行?但是总体来说,系统本身的平均故障时间越长越可靠,在上面做容错的代价也越小,所以这是非常重要的,所以RAS是一个非常重要的特点。
至强7500的主要的22项RAS功能设计,在HPC应用中将能最大保证系统的可用性,这对于HPC系统的可持续性计算能力意义重大
另外一个我觉得就是英特尔最近提出的Turbo Boost,这从很多年就开始了。Turbo boost这个技术做并行计算我认为是很有趣的一个东西。就是说我们并行计算里面,经常说并行计算面临的几个程序、面临的几个问题为什么扩展性不好?其中有一个重大的问题就是它的负载不均衡。比如说我分成十个任务,有一个任务要执行十分钟,另外九个任务我要执行九分钟的就够了。这个时候整个的应用是多长时间完成,十分钟来完成。剩下的人都在那等着你,负载不均衡就出现这个问题。你想你这么多机器就因为一两个进程就等了很久,这是一个效率很低的事情。现在突然有了这个Turbo Boost这个技术以后,实际上过去动态电压和频率调节,这个技术很早就有了,大家当时主要用这个技术来节能,我们用的时候把频率变低一点,耗电会低一点。Turbo Boost有点反过来就是说,我还是调电压和频率。但实际上我这么多核,我不能都到最快的频率去,我让其中一个上去,这件事就很有趣。
英特尔的Turbo Boost技术图示,:①代表在TDP的限制下,4个核心共同工作;②代表当应用负载提高时,系统可以在TDP的允许范围内对核心主频进行超频;③代表如果应用负载只在两个核心上,那么可以把另外两个核心关闭,并把节省下的电力提供给剩余的两个核心,让它们达到更高的频率,当然这也是在TDP范围内进行调整
我刚才说了有负载不均衡的情况。我知道哪个应用,哪一个任务运行时间很长,我调一下频,我把它放在快的核上,剩下的任务我放在其他核上。所以Turbo Boost实际上对并行计算来说,它把原来一个同构的系统,其实现在变成异构的,而且你可以自己调节。这是我们现在正在做的一项工作,就是想办法用这个技术来解决高性能计算里面负载不均衡的挑战的问题。我们觉得很有趣,也是很重要的一个问题。
记者:还有就是对大内存的支持。
陈教授:大内存支持是7500系列的。这也很重要,我刚才讲有一类程序其实需要这种支持。
记者:它在小内存上跑不了么?
陈教授:对,它跑不了。我刚才说了,如果我把网格粒度画细的话,我就需要整个内存能够很大,我怎么跑?在这个小内存上面我完全没有办法跑。它就会到硬盘上做调度,就会慢的不得了,所以我就需要有很大内存的机器。
记者:您前面讲正在运行的程序,是说把跑得慢的任务指定给速度快的核?
陈教授:对,同时我去调核,让那个核在高频状况下。
记者:这些需要你进行设置的?
陈教授:对,还是我说的。用户就还是不知道,用户程序扔给我了。我在底层的MPI库会去干这件事。用户不用管这件事,我会去看底层的这些核,我知道哪些可以调高,就是哪四个中的有一个调高我之知道,然后我通过某种方式得到你应用的特征,然后我把它放在合适的核上。
记者:这也是作为现在系统里调优的一个方面?
陈教授:这个还没有任何人做过,而且我们还没有做完。这只是一个我的想法。我只是说这样的技术实际上给我们提供解决这个并行计算问题中的可能性。但是我还在做,我觉得应该是对的,但是现在还没有结果。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者