VMware和Nvidia今天宣布将合作加速企业人工智能应用的开发。

VMware新版本的vSphere 7服务器虚拟化产品和vSAN 7存储虚拟化产品将以更高的安全性和更简化的操作,运行那些要求支持AI就绪基础设施的应用。具体来说,VMware和Nvidia将提供软件堆栈让客户通过利用Nvidia硬件开发新的应用,以及升级现有应用和基础设施。
此次对双方联合开发的AI就绪企业平台的更新中,VMware vSphere 7 Update 2 通过了Nvidia AI Enterprise的认证,后者是一个包括了优化AI应用和框架的云原生集合,让运行在VMware虚拟机上的、基于Nvidia GPU的工作负载比之前性能提高了多达20倍。
Nvidia企业和边缘计算总经理Justin Boitano表示:“服务器运行vSphere后的性能实际上与裸机没有区别,你可以在一个没有孤岛的控制平面上进行管理。”
这次对vSphere的更新还增加了在Nvidia认证系统上对Nvidia A100和Nvidia A40 Tensor Core GPU的支持,这些认证系统中就包括了Nvidia的HGX和EGX服务器平台,让可以可以先他们现有的虚拟化环境中增加特定AI的平台,而不必单独运行AI工作负载。
Boitano说:“人工智能是一个全栈计算问题,但在某种程度上是以DIY的方法进行设置和管理的。这让我们可以利用现有针对AI的工具在vSphere下释放全部性能潜力。”
更好的共享功能和工作负载可移植性
此次集成将让VMware客户可以利用最新一代Nvidia GPU(如多实例GPU)中的功能,在多个用户之间共享GPU周期,而且可以利用VMware vSphere vMotion进行迁移,利用vSphere Distributed Resource Scheduler实现负载平衡。
VMware云平台业务部门副总裁Lee Caswell表示,vSphere Distributed Resource Scheduler让用户可以在公共群集中的节点之间移动应用,或者根据工作负载需求的变化实时分发应用。另一项功能支持Nvidia多实例GPU,允许单个GPU在多达7个虚拟机之间进行共享,并具有故障隔离功能以防止宕机的发生。
此外,Nvidia还对AI和数据科学应用程序和框架库、云原生部署工具以及Nvidia基础结构优化库(称为Nvidia AI Enterprise,搭配vSphere一起使用)进行了认证。Boitano说:“我们发现,如果一家新公司刚刚开始AI之旅,那么他们可能要花费80多周的时间来整理数据、训练模型、开发模型并建立连接工厂车间的计算机视觉管道。”他说,Nvidia的预训练模型和Transfer Learning Toolkit可用于将现有神经网络模型中的学习特征提取到新模型中,从而将时间“缩短到8周”。
除了宣布与Nvidia的合作关系外,VMware还表示,已经将vSphere中的VMware NSX Advanced Load Balancer Essentials与Tanzu应用现代化套件进行了整合,这将实现针对Kubernetes集群的VMware多云负载平衡,并提供一条路径让客户能够使用NSX Advanced Load Balancer Enterprise Edition的全部功能。
Kubernetes是用于便携式模块化的容器软件平台一种主流编排工具。VSphere with Tanzu中新增了一个更新的管理程序,支持最新的Kubernetes 1.19版本,该版本的增强功能可以简化升级并提高稳定性。
vSAN的超融合功能
VMware表示,现在已经有超过30000家客户在使用vSAN存储虚拟化层,此次vSAN也进行了升级,支持增强的HCI Mesh。这是一种基于软件的超融合基础设施,让企业组织可以将存储孤岛统一到一个虚拟资源中。
这次更新主要针对那些希望在现有vSAN环境基础上提高资源利用率的客户,让纯计算或者非HCI集群可以远程使用来自数据中心内vSAN集群的存储,从而可以独立次扩展计算或者存储。
“我怎么知道下一个节点是不是计算能力和容量的最有组合?这次升级让可以能够在服务器之间灵活地共享容量,甚至使单个刀片服务器都可以直接访问vSAN存储,”他说,HCI Mesh“打破了可扩展性的限制,让你可以利用任何多余的存储容量。”
这次升级的vSAN 7还添加了新功能,以更好地支持各种物理拓扑,包括集成的分布式资源调度工具,用于了解扩展集群配置,实现更一致的故障恢复,还有vSAN文件服务讲支持扩展集群和双节点集群。
Caswell表示:“如果你将计算转移到另一个位置,通常会遇到性能问题。增强的扩展集群仍然可以保持计算和存储的并存,即使是在故障转移发生的情况下。”此外性能也有所提升,支持直接内存访问,让不同主机在无需CPU干预的情况下访问彼此的内存。
在安全方面,升级的vSphere 7引入了Confidential Containers for vSphere Pods,后者采用AMD硬件功能在虚拟机停止运行时加密所有CPU寄存器的内容。另外一项新功能vSphere Native Key Provider可以提供基本的密钥管理服务器功能,为客户提供开箱即用的加密功能和高级安全功能。
Caswell说,在分布式混合云和新型边缘环境中,“我们可以让不通过任何方式与互联网连接的远程办公环境独立于中央密钥管理系统运行,从而避免了外部密钥管理服务的成本和复杂性。”
升级的vSAN 7还支持vSphere Proactive High Availability,该功能可以将应用状态和存储的数据主动移至另一台主机,以避免在性能降级的硬件上丢失数据。此外数据持久性也有所增强,减少意外故障(例如多个磁盘故障)下宕机和数据丢失的发生。
所有更新现已可用。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。