在算力需求持续增加的情况下,数据中心一直持续提升计算密度。特别是AI驱动数据中心架构变革,比如扩展性和性能、效率和弹性。不过随着规模化发展和全球气候变化,能效在数据中心内变得越来越重要。
数据中心工作负载日趋多样化,任务量越来越多,管理成本不断提高。在节省资金、更大限度地提升每个数据中心的利用率以及应对气候变化等压力下,每个数据中心运营商都在力争提升服务器的能效。
数据中心运营商通常会采取多种策略来降低耗电量和电力成本,比如在电力供应成本更低或供应量更丰富的地区建立新的数据中心、改善电源使用效率(PUE)、提高冷却效率等。
除了这些常规手段,我们其实可以通过提升数据中心效率进而改善能效,从而承载更大规模的业务。
众所周知,现在的数据中心依靠软件定义进行管理,虽然软件定义带来了灵活性、可扩展性和易管理性,但是软件定义也会消耗最高可达30%的处理器计算资源,而且CPU在运行这些类型的基础设施工作负载方面效率并不高。
借助用于网络、安全和存储任务的DPU加速计算,是提高数据中心节能效率的下一项重要步骤。NVIDIA网络市场总监孟庆表示,数据中心建设需要转变为以数据为核心,DPU让CPU和GPU回归自己的本职工作,释放更多的CPU核心,减少数据搬运,提升效率。
NVIDIA BlueField 系列 DPU让价值看得见
在运行数据中心基础设施任务方面,DPU的效率要比通用CPU高得多。DPU有专门的硬件引擎来用于加速网络、数据加密/解密、密钥管理、存储虚拟化和其他任务。
此外,DPU上的CPU核心通常比一般服务器CPU更节能,并且可以直接访问网络管线。因此,即使一些网络任务无法通过DPU的专用引擎来加速,DPU核心也能比服务器CPU更高效地执行SDN、遥测、深度数据包检查或其他网络任务。
孟庆说,DPU站在全局视角提升整个基础设施的效率,降低数据中心的能耗。DPU的优势体现在软硬件结合,借助可编程实现与CPU、GPU的互动,从而让服务器的效率最大化。
通过将网络和安全任务卸载到NVIDIA BlueField 系列 DPU,可显著提升效率。该DPU包含特定领域专用的加速器,这些加速器擅长执行基础设施任务处理,包括网络、存储和安全。该DPU还具有比x86 CPU更节能的Arm CPU核心,非常适合卸载基础设施应用的控制平面和/或服务器虚拟化平台或容器管理软件的部分功能。
孟庆表示,DPU可以节省总体成本,通过测试发现,NVIDIA BlueField 系列DPU的卸载和加速功能显著节省了双向成本。卸载可释放CPU核心, 从而减少服务器部署数量,节省资本性支出。通过减少服务器数量,降低每台服务器的耗电量,客户能显著减少运营性支出。因此,拥有1万台服务器的大型数据中心三年期间可大幅节省2600万美元。通过使用NVIDIA BlueField 系列DPU,服务器可节省6.3%的资本性支出,由于较低的电力成本,运营性支出又节省了46%。
NVIDIA与爱立信、Red Hat和VMware合作进行的一系列测试显示,使用NVIDIA BlueField-2 DPU的服务器的功耗最多可降低24%。单靠应用这一个 DPU ,一个大型数据中心可在三年间削减近200万美元的电力成本。
在另一个测试案例中,DPU将网络对于CPU的需求降低了70%,从而释放出大量CPU,用于运行其他应用。此外,它们还使网络任务的速度大幅提升,达到了原来的54倍。
各行各业都在逐步采用零信任理念,以便提高网络安全。因此,NVIDIA在BlueField 系列DPU上测试了IPsec,这是非常常用的一项数据中心加密协议。
测试表明,通过在DPU上运行IPsec协议,数据中心能够提升网络性能,并将服务器的能耗降低21%,将客户端的能耗降低34%。对于大型数据中心而言,这相当于在三年间节省了近900万美元的电费。
孟庆表示,数据中心引入DPU需要一种思维上的转变,转换运维模式,并针对自身业务场景进行测试优化。并不是所有的业务场景适用DPU,虽然 DPU 对于机器较少的小型数据中心效率提升有限,但规模越大的数据中心越能够让 DPU 的作用发挥到最大。
总之,减少数据搬运,借助DPU提升基础设施的效率,并让业务与AI进行结合才能让数据中心的能效更高。NVIDIA也在开展用户教育,帮助他们部署DPU,实现业务加速。
展望未来
除了能效方面,NVIDIA与微软Azure、UCloud、网易数帆等伙伴在DPU落地方面也进行了诸多探索,包括加速计算、零信任安全、可编程等。
使用适当DPU实现通过硬件加速的网络卸载,可大幅减少每台服务器的耗电量,从而提高服务器效率、数据中心效率,降低用电量,减少冷却负载,最终大幅降低成本。
在这个能源成本不断上涨和对绿色环保IT基础设施需求不断增加的世界中,采用DPU将是大势所趋,通过它来降低数据中心的资本性支出和运营性支出,进而降低TCO。
扫描二维码,访问《NVIDIA BlueField DPU 能效》白皮书全文,进一步了解为什么在IT领域内能效成为一项越来越重要的指标,以及提升数据中心能效的六种主要策略。您还可以查看多个示例,了解NVIDIA BlueField 系列DPU加速和卸载技术是如何降低耗电量,并同时降低资本性支出(CapEx)和运营性支出(OpEx),助力实现更低的TCO。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。