VMware和Nvidia今天宣布将合作加速企业人工智能应用的开发。
VMware新版本的vSphere 7服务器虚拟化产品和vSAN 7存储虚拟化产品将以更高的安全性和更简化的操作,运行那些要求支持AI就绪基础设施的应用。具体来说,VMware和Nvidia将提供软件堆栈让客户通过利用Nvidia硬件开发新的应用,以及升级现有应用和基础设施。
此次对双方联合开发的AI就绪企业平台的更新中,VMware vSphere 7 Update 2 通过了Nvidia AI Enterprise的认证,后者是一个包括了优化AI应用和框架的云原生集合,让运行在VMware虚拟机上的、基于Nvidia GPU的工作负载比之前性能提高了多达20倍。
Nvidia企业和边缘计算总经理Justin Boitano表示:“服务器运行vSphere后的性能实际上与裸机没有区别,你可以在一个没有孤岛的控制平面上进行管理。”
这次对vSphere的更新还增加了在Nvidia认证系统上对Nvidia A100和Nvidia A40 Tensor Core GPU的支持,这些认证系统中就包括了Nvidia的HGX和EGX服务器平台,让可以可以先他们现有的虚拟化环境中增加特定AI的平台,而不必单独运行AI工作负载。
Boitano说:“人工智能是一个全栈计算问题,但在某种程度上是以DIY的方法进行设置和管理的。这让我们可以利用现有针对AI的工具在vSphere下释放全部性能潜力。”
更好的共享功能和工作负载可移植性
此次集成将让VMware客户可以利用最新一代Nvidia GPU(如多实例GPU)中的功能,在多个用户之间共享GPU周期,而且可以利用VMware vSphere vMotion进行迁移,利用vSphere Distributed Resource Scheduler实现负载平衡。
VMware云平台业务部门副总裁Lee Caswell表示,vSphere Distributed Resource Scheduler让用户可以在公共群集中的节点之间移动应用,或者根据工作负载需求的变化实时分发应用。另一项功能支持Nvidia多实例GPU,允许单个GPU在多达7个虚拟机之间进行共享,并具有故障隔离功能以防止宕机的发生。
此外,Nvidia还对AI和数据科学应用程序和框架库、云原生部署工具以及Nvidia基础结构优化库(称为Nvidia AI Enterprise,搭配vSphere一起使用)进行了认证。Boitano说:“我们发现,如果一家新公司刚刚开始AI之旅,那么他们可能要花费80多周的时间来整理数据、训练模型、开发模型并建立连接工厂车间的计算机视觉管道。”他说,Nvidia的预训练模型和Transfer Learning Toolkit可用于将现有神经网络模型中的学习特征提取到新模型中,从而将时间“缩短到8周”。
除了宣布与Nvidia的合作关系外,VMware还表示,已经将vSphere中的VMware NSX Advanced Load Balancer Essentials与Tanzu应用现代化套件进行了整合,这将实现针对Kubernetes集群的VMware多云负载平衡,并提供一条路径让客户能够使用NSX Advanced Load Balancer Enterprise Edition的全部功能。
Kubernetes是用于便携式模块化的容器软件平台一种主流编排工具。VSphere with Tanzu中新增了一个更新的管理程序,支持最新的Kubernetes 1.19版本,该版本的增强功能可以简化升级并提高稳定性。
vSAN的超融合功能
VMware表示,现在已经有超过30000家客户在使用vSAN存储虚拟化层,此次vSAN也进行了升级,支持增强的HCI Mesh。这是一种基于软件的超融合基础设施,让企业组织可以将存储孤岛统一到一个虚拟资源中。
这次更新主要针对那些希望在现有vSAN环境基础上提高资源利用率的客户,让纯计算或者非HCI集群可以远程使用来自数据中心内vSAN集群的存储,从而可以独立次扩展计算或者存储。
“我怎么知道下一个节点是不是计算能力和容量的最有组合?这次升级让可以能够在服务器之间灵活地共享容量,甚至使单个刀片服务器都可以直接访问vSAN存储,”他说,HCI Mesh“打破了可扩展性的限制,让你可以利用任何多余的存储容量。”
这次升级的vSAN 7还添加了新功能,以更好地支持各种物理拓扑,包括集成的分布式资源调度工具,用于了解扩展集群配置,实现更一致的故障恢复,还有vSAN文件服务讲支持扩展集群和双节点集群。
Caswell表示:“如果你将计算转移到另一个位置,通常会遇到性能问题。增强的扩展集群仍然可以保持计算和存储的并存,即使是在故障转移发生的情况下。”此外性能也有所提升,支持直接内存访问,让不同主机在无需CPU干预的情况下访问彼此的内存。
在安全方面,升级的vSphere 7引入了Confidential Containers for vSphere Pods,后者采用AMD硬件功能在虚拟机停止运行时加密所有CPU寄存器的内容。另外一项新功能vSphere Native Key Provider可以提供基本的密钥管理服务器功能,为客户提供开箱即用的加密功能和高级安全功能。
Caswell说,在分布式混合云和新型边缘环境中,“我们可以让不通过任何方式与互联网连接的远程办公环境独立于中央密钥管理系统运行,从而避免了外部密钥管理服务的成本和复杂性。”
升级的vSAN 7还支持vSphere Proactive High Availability,该功能可以将应用状态和存储的数据主动移至另一台主机,以避免在性能降级的硬件上丢失数据。此外数据持久性也有所增强,减少意外故障(例如多个磁盘故障)下宕机和数据丢失的发生。
所有更新现已可用。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。