至顶网服务器频道 12月19日 新闻消息(文/刘新萍): 2017年12月14日,联想数据中心业务集团携手英特尔,为德国慕尼黑巴伐利亚科学院(Bavarian Academy of Sciences)的莱布尼茨(Leibniz)超级计算中心打造下一代超算系统。该系统包括将近6500个节点,节省能耗超过45%,建成后将为德国最大的超级计算中心莱布尼茨提供26.7PETAFLOPS的计算能力,以助其应对在环境、天体物理和生物学等方面的关键研究挑战。 其中,联想的第2000万台服务器也在新系统中成功交付。
提供强大计算保障,加速关键研究进展
莱布尼茨超级计算中心是欧洲最著名的超级计算中心之一,主要面向科研和学术机构的专业人员。该超算中心不仅需要管理海量的大数据,而且需要高性能计算来快速处理和分析这些数据,以加速全球各种研究计划的进展。例如,莱布尼茨超级计算中心最近完成了全球规模最大的、对地震及由此引发的海啸的模拟,包括苏门答腊-安达曼地震等,这项研究支持实时情景规划,有助于预测余震及其他地震灾害。
到2018年末部署完成之际,该项名为SuperMUC-NG的超算系统将可以提供卓越可用性、安全性和能效的高性能计算(HPC)服务。基于满足多种科学计算应用需求而优化的业界领先技术,该系统将为莱布尼茨超级计算中心提供横跨天体物理、流体力学、生命科学等各种复杂领域的科学研究支持。值得一提的是,新系统还将包括联想交付的第2000万台服务器,这是联想在数据中心领域发展历史上的一个重要的里程碑事件。
 
联想数据中心业务集团全球高性能计算与人工智能技术高级总监Scott Tease(右一)
联想数据中心业务集团全球高性能计算与人工智能高级总监Scott Tease表示:"联想不仅为像莱布尼茨超级计算中心这样的研究机构提供超强计算能力,还提供真正端到端的解决方案,以帮助这类机构应对社会化挑战。SuperMUC-NG将为莱布尼茨超级计算中心提供更强的计算能力,并可减小所需占用的数据中心面积,同时通过创新的水冷技术,显著降低能耗。它将为研究人员提供一个全面的超级计算解决方案,协助他们以前所未有的高性能加速关键研究项目的进展。"

SuperMUC全景,摄影:Johannes Naumann
鱼与熊掌兼得,SuperMUC-NG成就低能耗高效率
SuperMUC-NG包括将近6500个节点,由联想最近推出的下一代ThinkSystem SD650服务器组成,这些服务器采用Intel? Xeon?铂金级处理器和Intel Advanced Vector Extensions(Intel AVX 512)技术,并通过Intel? Omni-Path架构实现互连,新系统可提供惊人的26.7 petaflop计算能力。该系统还将集成联想强大的、GUI简便易用的管理套件Lenovo Intelligent Computing Orchestrator(LiCO)以及基于云的组件,这不仅有助于加速HPC和AI应用的开发,还使莱布尼茨超级计算中心的研究人员能够自由地虚拟化和处理海量数据集,并迅速与同事分享计算结果。
基于英特尔的技术优化和尖端的联想水冷技术,新的SuperMUC-NG超算系统解决了进行高密度天文计算时,高性能计算基础设施导致的运维支出难题。联想水冷技术与Lenovo Energy Aware Run-Time(EAR)软件相结合,可在保持应用正常运行的同时,显著降低系统基础设施功耗。与类似的标准风冷系统相比,联想全面的水冷技术使莱布尼茨超级计算中心节省45%以上的电力消耗。总体说来,这些能效创新将有助于进一步减少该中心的碳消耗,并降低其总体拥有成本。
英特尔公司技术计算副总裁Trish Damkroger表示:"像莱布尼茨超级计算中心这样的全球领先研究机构正在提升洞察力,以解决人类面临的一些最复杂的问题,同时显著改善人们的生活。英特尔提供的技术支持与联想的解决方案专长相结合,可提供高性能和易编程性,帮助莱布尼茨超级计算中心的研究人员利用该系统进行比以往更加深入的分析,进而产生更多科学发现。"
作为全球HPC领军企业,联想HPC产品和解决方案行业覆盖广泛,具有低能耗高效率的特点,在各类实践中逐步体现出高可靠性和高可用性优势。联想已经连续四届斩获HPC TOP500中国第一、全球第二,预计莱布尼茨超级计算中心的SuperMUC-NG系统一旦投入运行,将登上全球超级计算机500强(TOP500)榜单,为联想数据中心业务再增荣光。
好文章,需要你的鼓励
亚马逊云服务部门与OpenAI签署了一项价值380亿美元的七年协议,为ChatGPT制造商提供数十万块英伟达图形处理单元。这标志着OpenAI从研究实验室向AI行业巨头的转型,该公司已承诺投入1.4万亿美元用于基础设施建设。对于在AI时代竞争中处于劣势的亚马逊而言,这项协议证明了其构建和运营大规模数据中心网络的能力。
Meta FAIR团队发布的CWM是首个将"世界模型"概念引入代码生成的32亿参数开源模型。与传统只学习静态代码的AI不同,CWM通过学习Python执行轨迹和Docker环境交互,真正理解代码运行过程。在SWE-bench等重要测试中表现卓越,为AI编程助手的发展开辟了新方向。
当今最大的AI数据中心耗电量相当于一座小城市。美国数据中心已占全国总电力消费的4%,预计到2028年将升至12%。电力供应已成为数据中心发展的主要制约因素。核能以其清洁、全天候供电特性成为数据中心运营商的新选择。核能项目供应链复杂,需要创新的采购模式、标准化设计、早期参与和数字化工具来确保按时交付。
卡内基梅隆大学研究团队发现AI训练中的"繁荣-崩溃"现象,揭示陈旧数据蕴含丰富信息但被传统方法错误屏蔽。他们提出M2PO方法,通过改进数据筛选策略,使模型即使用256步前的陈旧数据也能达到最新数据的训练效果,准确率最高提升11.2%,为大规模异步AI训练开辟新途径。