如今,云计算提供商正在进行转型,当从以计算为中心转向以数据为中心,原有的业务模型也会发生变化。在这种情况情况如何为客户提供兼顾高性能和安全性的服务变得至关重要。
NVIDIA网络事业部亚太区市场开发高级总监宋庆春告诉记者,随着AI业务越来越多,云计算提供商对于网络扩展性的要求越来越高,需要通过网络计算功能和CPU、GPU等结合,更好地处理数据,而DPU成为以数据为中心计算架构的核心。
基于DPU构建下一代软件定义数据中心基础架构
如何为大量云计算租户提供高吞吐、低延迟的物理网络和虚拟化网络是UCloud优刻得自成立以来就在不断攻克的命题。从2018年起,UCloud优刻得便开始积极探索基于NVIDIA BlueField DPU的高性能裸金属物理云方案,并在去年成功上线裸金属物理云1.0,并于近期上线增加了云存储功能的裸金属物理云2.0产品。
在选择DPU之前,UCloud优刻得采用基于网关的传统物理云解决方案,但是该方案成本昂贵,万兆网卡已无法满足企业发展需求,还存在VPC网关的带宽瓶颈,部署不够灵活,不支持计算、存储分离等限制。
UCloud优刻得资深技术专家马彦青表示,UCloud优刻得与NVIDIA有着相同的认知,软件和硬件的结合是未来的趋势,通过软硬件的互相协作,软件定义与硬件加速是真正能提升系统性能和安全性的最佳方式。双方在网络和存储方面进行了深入合作,支持数据中心的业务和数据模型。
UCloud优刻得基于NVIDIA BlueField DPU研发的裸金属物理云1.0,通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中,满足了物理云客户高带宽、低延时的网络需求,并使用NVIDIA ASAP²技术,将OpenvSwitch Kernel和GRE隧道硬件卸载到DPU,实现了物理云用户无缝接入NVGRE Overlay虚拟网络,UCloud优刻得也成为首家应用此技术的公有云厂商。
据悉,裸金属物理云1.0广泛服务于大数据、数据库等场景,并经受住双十一大考,收获了用户广泛的使用好评。
近期,UCloud优刻得增加了云存储功能的裸金属物理云2.0产品也已上线,裸金属物理云2.0继承了1.0版本的优点,相对于以前基于网关的裸金属物理云解决方案降低了34.4%的成本。在取代原先传统物理云独立网关的模式,直接打通公有云网络的同时,内网带宽也实现了升级。
裸金属物理云2.0使用NVIDIA BlueField DPU提供的NVMe SNAP功能,通过控制面仿真NVMe设备,数据面借助ASIC芯片高速转发,并通过UDisk基于RoCEv2无损网络连接后端分布式存储集群,为裸金属物理机接入灵活可扩展的RSSD云盘服务。
裸金属物理云2.0将UCloud的云存储产品RSSD呈现为本地的NVMe系统盘和数据盘,为物理云客户提供了更灵活易用的云盘存储服务。UCloud的RSSD云盘使用BlueField DPU成熟的RDMA能力,取代了原有的本地磁盘,IOPS最高可达40万;后端为分布式三副本存储,数据更加安全可靠,且支持分钟级装机、磁盘在线扩容与故障迁移;网络性能采用bonding后达到了40Gbps水平;同时其无虚拟化开销,用户仍然完全独享资源,保证了物理隔离与性能独享。
马彦青表示,UCloud优刻得基于DPU构建下一代软件定义数据中心基础架构,将网络、存储以及一些计算业务迁移到DPU,从而释放出CPU算力;充分利用DPU软件编排能力和硬件加速能力,让整个数据中心的灵活性和性能都达到非常高的高度。
基于已有的合作成果,UCloud优刻得与NVIDIA在裸金属网络架构、存储架构、数据中心安全等进行更多合作,探索基于InfiniBand网络的DPU加速AI和HPC,统一裸金属与虚拟化基础架构。
数据中心新的计算单元——DPU
DPU可以被看作是数据中心加速计算模型的第三个计算单元,用黄仁勋的话说则是“未来计算的三大支柱之一”。
而它之所以被给予如此厚望,主要因为DPU是一种新型可编程处理器,它结合了行业标准的、高性能及软件可编程的多核CPU架构、高性能网络接口和各种灵活和可编程的加速引擎于一身,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。
比如最新的BlueField-3就是首款为AI和加速计算而设计的DPU,它针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3采用的是Arm架构,具备16颗物理核心和18M IOPs弹性块存储能力,相比上一代产品来说其加速计算能力提升了5倍、加密速度提升了4倍。
随着数据中心业务的发展,DPU的角色越来越重要,而DOCA是为DPU量身定做的软件框架,目的在于支持广大开发者在BlueField DPU上进行软件开发,DOCA与DPU之间就如CUDA与GPU的关系。
宋庆春表示,DOCA让DPU生态系统逐渐成熟,加速DPU进入数据中心,其不仅提升数据中心的性能表现,更是创新了非常多的应用场景。例如NVIDIA与VMware合作实现了安全和业务的兼顾。
为了让DPU发挥出更大的价值,除了DOCA开发包之外,英伟达也发布了一款名为NVIDIA Morpheus的应用框架,旨在为网络安全合作伙伴提供一整套能够实时检测和预防安全威胁的加速AI技术。Morpheus可以充分发挥NVIDIA AI计算和NVIDIA BlueField-3 DPU的优势,为用户提供从核心到边缘的数据中心保护能力。
如今,服务器制造商戴尔、浪潮、联想和超微正在将BlueField DPU集成到他们的系统中。全球云服务供应商都在使用BlueField DPU来加速他们的业务,如百度、京东和UCloud。随着众多企业对DPU的支持,BlueField生态系统也在不断扩大。
“随着网络计算和DPU的崛起,这一定会掀起一波数据中心的变革,未来数据中心一定走向CPU、GPU和DPU的3U一体的架构。当业界认识到DPU的价值,DPU走向数据中心是水到渠成,而这是NVIDIA和众多合作伙伴共同推动的结果。”宋庆春最后说。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。