扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在专业人士看来,PC服务器集群并没有太多的技术含量,有钱就可以搭建。如此看来问题简单了,高性能计算就是一个钱的问题,有钱就可以买到高性能。实际上,问题根本没有这么简单,据我的采访了解,PC服务器集群在稳定性和可靠性方面存在很多的问题。举个例子,上海某用户在去年构建了一个由512个计算节点,共2048个Opteron处理器组成的超级计算系统。市政府方面的设想是通过构建一个高水平的公用超级计算平台,为有关用户服务,避免重复建设造成不必要的浪费。这样一个具有商业服务色彩的超级计算平台投入使用之后,发现了很多问题,以Myrinet网络为例,其计算节点经常性的不释放,导致计算任务失败。这种现象经常发生,有时两个节点的计算任务也会产生类似的问题。
为此,记者也咨询了厂商的有关技术人员,得到的答复是:有关作业调度系统没有调整好,导致Myrinet节点不释放。对此,用户表示,国内厂商在构建高性能计算系统的时候,对于操作系统、编译器、互联设备驱动、作业管理调度以及文件系统管理等涉及系统层面的软件进行修改的时候过于随意,没有严格遵循工程化的体系和标准,也没有经过一系列的测试流程,没有在确保修改无误之后,再提交给用户,因此导致系统的可靠性和可用性不高。
上海用户的这个例子提醒我们,虽然同称为高性能计算,但是不同系统具有不同特点,各有其适用的范围。以PC服务器集群为例,比较适用于对通信要求偏低的计算任务,例如流体力学、石油勘探中的叠前偏移的计算,这种作业看上去是一种并行计算,其实质是串行作业,节点之间几乎不需通信,也不需要等待,这样的作业非常适合采用集群系统。有专家指出,PC服务器集群系统最突出的优点就在于性价比,用户在资金少的情况下,采用这种方案也是没有办法的办法。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者