扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共11页)
IT168:谈到HPC的资源管理和作业管理,PLATFORM是很专业的一家厂商。您本人之前也在这家公司呆了8年,然后现在开发微软的HPC产品也有6年时间了。在您看来,这两家公司的产品设计理念上会有哪些不同?是否两家公司的产品针对不同的用户群?
徐明强:PLATFORM主要是针对高端客户,这些高端客户可以产生最大的利润,也可以提供最多的反馈,比如世界前几百强企业的数据中心。这些用户对产品的要求是功能强大、可定制,所以PLATFORM的管理员手册往往很厚,对需要定制的参数和属性有非常详细的描述。
不过,参数太多,调度策略以及策略交互产生的影响也比较复杂。比如PLATFORM LSF支持多个队列,每个队列中可以定制多种排序方法,包括先到先得、反填、合理共享等,队列之间还可以根据用户和作业的优先权相互抢占等等。而微软的设计理念是只有一个队列,大大简化管理监控过程,同时通过“作业模版”的方式来解决多用户群共享的问题,这些模版可以设置一些资源使用条件,比如多少个内核、多少内存、哪些用户有权限使用等等。
在我看来,作业调度已经发展了三代,第一代是PBS,每个节点就是一个队列,某一个节点死了,后面的作业要等上很久;第二代是PLATFORM的LSF,队列不是在节点上,而是在网络中,有一个节点死了,作业可以运行在其他节点上。微软要做的是第三代,在提供强大功能的同时,减少复杂性。当然我们也是站在巨人的肩膀上,如果没有PBS和PLATFORM和大量用户使用经验的积累,我们也不可能这么做。
微软的作业调度器还有很重要的一个特点是和管理系统无缝集成。当节点加入和脱离集群时,作业调度器都能自动识别,或为其分配作业,或清理作业。另外,作业调度器还为管理报表系统提供大量资源使用数据,如作业提交时间、运行时间、资源使用数量、软件许可证数量等等,借此可以简化管理员的工作复杂度。
总的来看,就当前的现状,PLATFORM与微软的客户群不大一样,前者主要是针对高端的使用Linux的数据中心,据IDC统计,全球有7千万人需要高性能计算能力,即他们的应用在本地遇到资源瓶颈,而其中只有1百万人能享用这种能力。 微软在不忽视数据中心用户的同时,更加重视仍未使用高性能计算的 6千9百万另外客户,把HPC市场这块蛋糕做大。当然,PLATFORM也是微软的合作伙伴,他们的作业调度器也可以在Windows上跑。并可以管理混合Linux和Windows集群。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者