从UCloud裸金属物理云创新实践看NVIDIA DPU如何革新数据中心基础架构

作者:李祥敬   【原创】   2021-06-23 09:32:56

关键字: NVIDIA

NVIDIA网络事业部亚太区市场开发高级总监宋庆春告诉记者,随着AI业务越来越多,云计算提供商对于网络扩展性的要求越来越高,需要通过网络计算功能和CPU、GPU等结合,更好地处理数据,而DPU成为以数据为中心计算架构的核心。

如今,云计算提供商正在进行转型,当从以计算为中心转向以数据为中心,原有的业务模型也会发生变化。在这种情况情况如何为客户提供兼顾高性能和安全性的服务变得至关重要。

从UCloud裸金属物理云创新实践看NVIDIA DPU如何革新数据中心基础架构

NVIDIA网络事业部亚太区市场开发高级总监宋庆春告诉记者,随着AI业务越来越多,云计算提供商对于网络扩展性的要求越来越高,需要通过网络计算功能和CPU、GPU等结合,更好地处理数据,而DPU成为以数据为中心计算架构的核心。

基于DPU构建下一代软件定义数据中心基础架构

如何为大量云计算租户提供高吞吐、低延迟的物理网络和虚拟化网络是UCloud优刻得自成立以来就在不断攻克的命题。从2018年起,UCloud优刻得便开始积极探索基于NVIDIA BlueField DPU的高性能裸金属物理云方案,并在去年成功上线裸金属物理云1.0,并于近期上线增加了云存储功能的裸金属物理云2.0产品。

在选择DPU之前,UCloud优刻得采用基于网关的传统物理云解决方案,但是该方案成本昂贵,万兆网卡已无法满足企业发展需求,还存在VPC网关的带宽瓶颈,部署不够灵活,不支持计算、存储分离等限制。

从UCloud裸金属物理云创新实践看NVIDIA DPU如何革新数据中心基础架构

 

UCloud优刻得资深技术专家马彦青表示,UCloud优刻得与NVIDIA有着相同的认知,软件和硬件的结合是未来的趋势,通过软硬件的互相协作,软件定义与硬件加速是真正能提升系统性能和安全性的最佳方式。双方在网络和存储方面进行了深入合作,支持数据中心的业务和数据模型。

UCloud优刻得基于NVIDIA BlueField DPU研发的裸金属物理云1.0,通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中,满足了物理云客户高带宽、低延时的网络需求,并使用NVIDIA ASAP²技术,将OpenvSwitch Kernel和GRE隧道硬件卸载到DPU,实现了物理云用户无缝接入NVGRE Overlay虚拟网络,UCloud优刻得也成为首家应用此技术的公有云厂商。

据悉,裸金属物理云1.0广泛服务于大数据、数据库等场景,并经受住双十一大考,收获了用户广泛的使用好评。

近期,UCloud优刻得增加了云存储功能的裸金属物理云2.0产品也已上线,裸金属物理云2.0继承了1.0版本的优点,相对于以前基于网关的裸金属物理云解决方案降低了34.4%的成本。在取代原先传统物理云独立网关的模式,直接打通公有云网络的同时,内网带宽也实现了升级。

裸金属物理云2.0使用NVIDIA BlueField DPU提供的NVMe SNAP功能,通过控制面仿真NVMe设备,数据面借助ASIC芯片高速转发,并通过UDisk基于RoCEv2无损网络连接后端分布式存储集群,为裸金属物理机接入灵活可扩展的RSSD云盘服务。

裸金属物理云2.0将UCloud的云存储产品RSSD呈现为本地的NVMe系统盘和数据盘,为物理云客户提供了更灵活易用的云盘存储服务。UCloud的RSSD云盘使用BlueField DPU成熟的RDMA能力,取代了原有的本地磁盘,IOPS最高可达40万;后端为分布式三副本存储,数据更加安全可靠,且支持分钟级装机、磁盘在线扩容与故障迁移;网络性能采用bonding后达到了40Gbps水平;同时其无虚拟化开销,用户仍然完全独享资源,保证了物理隔离与性能独享。

马彦青表示,UCloud优刻得基于DPU构建下一代软件定义数据中心基础架构,将网络、存储以及一些计算业务迁移到DPU,从而释放出CPU算力;充分利用DPU软件编排能力和硬件加速能力,让整个数据中心的灵活性和性能都达到非常高的高度。

基于已有的合作成果,UCloud优刻得与NVIDIA在裸金属网络架构、存储架构、数据中心安全等进行更多合作,探索基于InfiniBand网络的DPU加速AI和HPC,统一裸金属与虚拟化基础架构。

数据中心新的计算单元——DPU

DPU可以被看作是数据中心加速计算模型的第三个计算单元,用黄仁勋的话说则是“未来计算的三大支柱之一”。

而它之所以被给予如此厚望,主要因为DPU是一种新型可编程处理器,它结合了行业标准的、高性能及软件可编程的多核CPU架构、高性能网络接口和各种灵活和可编程的加速引擎于一身,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。

比如最新的BlueField-3就是首款为AI和加速计算而设计的DPU,它针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3采用的是Arm架构,具备16颗物理核心和18M IOPs弹性块存储能力,相比上一代产品来说其加速计算能力提升了5倍、加密速度提升了4倍。

随着数据中心业务的发展,DPU的角色越来越重要,而DOCA是为DPU量身定做的软件框架,目的在于支持广大开发者在BlueField DPU上进行软件开发,DOCA与DPU之间就如CUDA与GPU的关系。

宋庆春表示,DOCA让DPU生态系统逐渐成熟,加速DPU进入数据中心,其不仅提升数据中心的性能表现,更是创新了非常多的应用场景。例如NVIDIA与VMware合作实现了安全和业务的兼顾。

为了让DPU发挥出更大的价值,除了DOCA开发包之外,英伟达也发布了一款名为NVIDIA Morpheus的应用框架,旨在为网络安全合作伙伴提供一整套能够实时检测和预防安全威胁的加速AI技术。Morpheus可以充分发挥NVIDIA AI计算和NVIDIA BlueField-3 DPU的优势,为用户提供从核心到边缘的数据中心保护能力。

如今,服务器制造商戴尔、浪潮、联想和超微正在将BlueField DPU集成到他们的系统中。全球云服务供应商都在使用BlueField DPU来加速他们的业务,如百度、京东和UCloud。随着众多企业对DPU的支持,BlueField生态系统也在不断扩大。

“随着网络计算和DPU的崛起,这一定会掀起一波数据中心的变革,未来数据中心一定走向CPU、GPU和DPU的3U一体的架构。当业界认识到DPU的价值,DPU走向数据中心是水到渠成,而这是NVIDIA和众多合作伙伴共同推动的结果。”宋庆春最后说。

    扫一扫

    分享文章到微信


    北京第二十六维信息技术有限公司(至顶网)版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号
    举报电话:010-62641205-5060 举报邮箱:jubao@zhiding.cn 安全联盟认证