随着摩尔定律逼近极限,CPU性能增长乏力,而数据和算力却呈现爆发式增长,这使得原本的主力处理器芯片负载过重,DPU就是为了解决这一矛盾而诞生的。
2020年,NVIDIA在GTC战略发布中将DPU定义为“第三颗主力芯片”,行业自此进入蓬勃发展期。作为主力芯片新物种,DPU市场空间正快速扩张。
NVIDIA网络市场总监孟庆告诉记者,DPU将在数据中心中扮演非常重要的角色。数据流量越大越需要DPU,助力数据中心更高效的应对多元化的算力需求,提高整个数据移动的效率,能够更好地支撑未来科学计算、人工智能、机器学习需要大规模数据搬运和计算的工作负载。
例如随着云原生的发展,云原生超级计算应运而生,DPU在其中会发挥重要作用。NVIDIA认为,在现代化、安全加速数据中心中,DPU已成为其重要组成部分。CPU、GPU和DPU结合,可构成完全可编程单一AI计算单元,提供前所未有的安全性和算力。
四大挑战催生DPU
在NVIDIA网络技术专家崔岩看来,当前数据中心面临四大挑战:
由于人工智能、科学计算、应用复杂工作负载,使得现代应用程序持续产生和处理大量的数据,这对数据中心的性能和数据的处理能力提出了巨大的挑战。
过去应用程序是以单一方式运行在数据中心服务器上面,现在很多应用程序变成了分布式微服务方式给客户提供相应的服务,这对数据中心基础设施运营提出比较大的挑战。
CPU受摩尔定律发展的限制,性能提升循环。由于CPU需要管理基础设施相关服务和操作,所以这会消耗CPU的内核和相应的资源。
东西向流量不断增加,安全攻击面成为威胁。应用程序的分布式部署产生相应的数据流的数据交互,这会导致存在跨服务器或者数据中心内部的横向攻击。如果安全策略或者安全方式模型不能有效抵御这种攻击,就会造成比较大的威胁。
在这种情况下,DPU可以将RDMA、加解密、虚拟化、存储加速等从原来的CPU中进行卸载,解决传统数据中心面临的痛点。
孟庆表示,NVIDIA BlueField DPU与市面上的其他DPU不太一样,更加强调硬件的可编程性和与GPU之间的联动,打造端到端的解决方案。
DPU与vSphere的协同创新
为了更好地应对这些挑战,NVIDIA与VMware展开了合作,其中VMware vSphere 8通过将DPU(数据处理器)与CPU和GPU相结合,开创了异构计算的新时代,支持所有企业都能获得现代基础架构。
崔岩表示,基于NVIDIA BlueField DPU,vSphere可以简化基础设施和工作负载管理、提高基础设施运行效率、借助零信任安全模式加强基础设施安全性。
在上个月举行的VMware Explore大会上,NVIDIA、VMware和戴尔联合发布Project Monterey平台。Project Monterey将vSphere 8企业工作负载平台和NVIDIA BlueField DPU进行结合,运行在戴尔Power Edge服务器或VxRail超融合架构一体机,为未来的AI和现代应用程序工作负载重新构建一个现代的数据中心。
崔岩解释说,传统基础架构中,基础设施管理、存储、安全、网络都是由CPU承担,这会消耗相应计算资源,导致虚拟机和容器支持的数量和能力受限。“ 当采用了NVIDIA BlueField DPU之后,CPU可以零介入基础设施的部分,上述讲的四大功能就卸载到了DPU。”
在VMware vSphere 8中,Cloud Foundation云基础架构组件和NVIDIA BlueField DPU进行比较好的结合,可以把vSphere 8的一些功能卸载、加速和隔离到NVIDIA BlueField DPU,简化云和边缘环境的管理。
NVIDIA BlueField DPU也支持VMware NSX下一代防火墙技术,包括入侵检测、入侵防御等安全策略功能,由于NVIDIA BlueField DPU的介入会在主机CPU和DPU之间形成一个隔离层,保障主机内部的安全性。如果有主机上层被应用程序进行黑客攻击,它不会通过隔离层、DPU攻击到其他服务器。所以,这会对多租户、多虚机环境有很有效的帮助。
未来,NVIDIA BlueField DPU还会支持vSAN数据存储功能、主机管理服务,将原来需要CPU干预介入的基础设施操作卸载到NVIDIA BlueField DPU。这将和VMware整个多云架构、企业应用有更加紧密的解决方案,能够让企业用户直接采用,享受NVIDIA BlueField DPU带来的性能上的回报。
通过NVIDIA BlueField DPU节省主机CPU内核,等同于节省了22%的主机CPU内核消耗,使服务器性能效率得到了提升,可将释放出来的CPU内核运行应用程序,并在三年的生命周期中提供5倍的投资回报。
有数据显示,780台安装有NVIDIA BlueField DPU的服务器,相当于1000台安装有标准智能网卡的服务器,每台服务器的TCO可节省8200美元,3年内通过提升效率可节省180万美元。
目前,大家可以通过NVIDIA LaunchPad申请试用VMware的vSphere8和NVIDIA BlueField DPU。
同时,2022年秋季NVIDIA DPU中国黑客松竞赛也将启动,10月19日赛前线上训练营也将开启。今年大赛的题目是“使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速的存储与AI解决方案”,基于 InfiniBand 网络来实现对存储和人工智能应用的加速,同时将这种低延迟、高性能的IO能力聚焦到一些行业应用场景中,比如金融的高频交易等。
届时会有本地评委和国际评委从训练营参与度、项目完成度、项目创新价值及题目匹配度、现场演示效果等五个维度对他们的比赛结果进行评分。
崔岩说,开发者掌握相应的开发技能,通过参加竞赛,他们可以进行实操体验,了解数据中心里基础设施如何加持未来应用和场景发展。“在上一届黑客松比赛中就涌现了很多在NVIDIA BlueField DPU和DOCA上构建创新应用的学生团队,他们不但掌握基础开发技能,而且还能够通过创新的想法在上面构建自己的加速应用或者框架。”
总之,NVIDIA DPU中国黑客松最大的价值就是让开发者有机会深入了解NVIDIA BlueField DPU和NVIDIA DOCA软件框架,并构建创新的加速应用程序,实现 NVIDIA BlueField DPU在人工智能、网络、存储和安全方面的独特功能,驱动 NVIDIA BlueField DPU在各行业应用场景中的广泛应用。参与活动的团队和开发者不但可以学习到相关的知识和技能,还可以构建以DPU技术应用为核心的人际网络,并与NVIDIA专家进行交流,更有助于将创新想法变成现实。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。