在算力需求持续增加的情况下,数据中心一直持续提升计算密度。特别是AI驱动数据中心架构变革,比如扩展性和性能、效率和弹性。不过随着规模化发展和全球气候变化,能效在数据中心内变得越来越重要。
数据中心工作负载日趋多样化,任务量越来越多,管理成本不断提高。在节省资金、更大限度地提升每个数据中心的利用率以及应对气候变化等压力下,每个数据中心运营商都在力争提升服务器的能效。
数据中心运营商通常会采取多种策略来降低耗电量和电力成本,比如在电力供应成本更低或供应量更丰富的地区建立新的数据中心、改善电源使用效率(PUE)、提高冷却效率等。
除了这些常规手段,我们其实可以通过提升数据中心效率进而改善能效,从而承载更大规模的业务。
众所周知,现在的数据中心依靠软件定义进行管理,虽然软件定义带来了灵活性、可扩展性和易管理性,但是软件定义也会消耗最高可达30%的处理器计算资源,而且CPU在运行这些类型的基础设施工作负载方面效率并不高。
借助用于网络、安全和存储任务的DPU加速计算,是提高数据中心节能效率的下一项重要步骤。NVIDIA网络市场总监孟庆表示,数据中心建设需要转变为以数据为核心,DPU让CPU和GPU回归自己的本职工作,释放更多的CPU核心,减少数据搬运,提升效率。
NVIDIA BlueField 系列 DPU让价值看得见
在运行数据中心基础设施任务方面,DPU的效率要比通用CPU高得多。DPU有专门的硬件引擎来用于加速网络、数据加密/解密、密钥管理、存储虚拟化和其他任务。
此外,DPU上的CPU核心通常比一般服务器CPU更节能,并且可以直接访问网络管线。因此,即使一些网络任务无法通过DPU的专用引擎来加速,DPU核心也能比服务器CPU更高效地执行SDN、遥测、深度数据包检查或其他网络任务。
孟庆说,DPU站在全局视角提升整个基础设施的效率,降低数据中心的能耗。DPU的优势体现在软硬件结合,借助可编程实现与CPU、GPU的互动,从而让服务器的效率最大化。
通过将网络和安全任务卸载到NVIDIA BlueField 系列 DPU,可显著提升效率。该DPU包含特定领域专用的加速器,这些加速器擅长执行基础设施任务处理,包括网络、存储和安全。该DPU还具有比x86 CPU更节能的Arm CPU核心,非常适合卸载基础设施应用的控制平面和/或服务器虚拟化平台或容器管理软件的部分功能。
孟庆表示,DPU可以节省总体成本,通过测试发现,NVIDIA BlueField 系列DPU的卸载和加速功能显著节省了双向成本。卸载可释放CPU核心, 从而减少服务器部署数量,节省资本性支出。通过减少服务器数量,降低每台服务器的耗电量,客户能显著减少运营性支出。因此,拥有1万台服务器的大型数据中心三年期间可大幅节省2600万美元。通过使用NVIDIA BlueField 系列DPU,服务器可节省6.3%的资本性支出,由于较低的电力成本,运营性支出又节省了46%。
NVIDIA与爱立信、Red Hat和VMware合作进行的一系列测试显示,使用NVIDIA BlueField-2 DPU的服务器的功耗最多可降低24%。单靠应用这一个 DPU ,一个大型数据中心可在三年间削减近200万美元的电力成本。
在另一个测试案例中,DPU将网络对于CPU的需求降低了70%,从而释放出大量CPU,用于运行其他应用。此外,它们还使网络任务的速度大幅提升,达到了原来的54倍。
各行各业都在逐步采用零信任理念,以便提高网络安全。因此,NVIDIA在BlueField 系列DPU上测试了IPsec,这是非常常用的一项数据中心加密协议。
测试表明,通过在DPU上运行IPsec协议,数据中心能够提升网络性能,并将服务器的能耗降低21%,将客户端的能耗降低34%。对于大型数据中心而言,这相当于在三年间节省了近900万美元的电费。
孟庆表示,数据中心引入DPU需要一种思维上的转变,转换运维模式,并针对自身业务场景进行测试优化。并不是所有的业务场景适用DPU,虽然 DPU 对于机器较少的小型数据中心效率提升有限,但规模越大的数据中心越能够让 DPU 的作用发挥到最大。
总之,减少数据搬运,借助DPU提升基础设施的效率,并让业务与AI进行结合才能让数据中心的能效更高。NVIDIA也在开展用户教育,帮助他们部署DPU,实现业务加速。
展望未来
除了能效方面,NVIDIA与微软Azure、UCloud、网易数帆等伙伴在DPU落地方面也进行了诸多探索,包括加速计算、零信任安全、可编程等。
使用适当DPU实现通过硬件加速的网络卸载,可大幅减少每台服务器的耗电量,从而提高服务器效率、数据中心效率,降低用电量,减少冷却负载,最终大幅降低成本。
在这个能源成本不断上涨和对绿色环保IT基础设施需求不断增加的世界中,采用DPU将是大势所趋,通过它来降低数据中心的资本性支出和运营性支出,进而降低TCO。
扫描二维码,访问《NVIDIA BlueField DPU 能效》白皮书全文,进一步了解为什么在IT领域内能效成为一项越来越重要的指标,以及提升数据中心能效的六种主要策略。您还可以查看多个示例,了解NVIDIA BlueField 系列DPU加速和卸载技术是如何降低耗电量,并同时降低资本性支出(CapEx)和运营性支出(OpEx),助力实现更低的TCO。
好文章,需要你的鼓励
Intermedia 推出业内首个将统一通信和客户体验功能完全嵌入微软 Teams 的服务。这项创新不仅提升了 Teams 用户的生产力,还改善了客户体验。新功能支持多渠道通信、企业级通话功能和 AI 分析,为企业提供了一个强大的通信和客户体验平台。
Komprise 推出了 AI 驱动的数据管道,可自动检测和保护个人隐私信息 (PII)。这项新功能旨在帮助企业防止 PII 和其他敏感数据泄露,应对非结构化数据增长和生成式 AI 带来的风险。通过系统化方法减少敏感数据风险,提升网络安全和 AI 数据治理能力。
Oumi PBC公司宣布推出全球首个"无条件开放的AI平台",旨在通过提供开放访问基础模型、数据集和开发工具,创建协作式AI研发生态系统。该平台支持从1000万到4050亿参数的模型训练,适用于文本和多模态模型,并集成了多种流行的推理引擎。Oumi致力于打破当前AI研究领域的创新壁垒,加速AI领域的进展和发现。
阿里云发布最新大语言模型 Qwen 2.5-Max,声称性能超越当前最强 AI 模型。该模型采用专家混合架构,经过 20 万亿 token 预训练和后续强化学习,在多项基准测试中超越 DeepSeek-V3 等模型。Qwen 2.5-Max 目前通过阿里云 API 提供服务,但尚未开源。