如今AI应用无处不在,企业运行的AI工作负载不断增加,而这需要一个坚实的AI基础设施进行支撑。企业纷纷不断升级数据中心为AI应用和数据科学提供支持,因为企业现在的IT架构已经全面转向虚拟化环境,所以如何基于已有架构更好地赋能AI应用成为企业的最大诉求。近日,NVIDIA与VMware使用NVIDIA AI Enterprise软件套件对vSphere更新—— VMware vSphere 7 Update 2进行了AI应用优化,满足了企业在现有虚拟化环境中运行AI工作负载的需求。

NVIDIA与VMware的联合之举对于使用vSphere实现计算虚拟化的企业而言意义重大,因为这一组合为他们的大量加速CUDA应用、AI框架、模型和SDK实现了扩展性、多节点性能和兼容性。通过此次业内首创的合作,AI研究人员、数据科学家和开发者获得了成功交付AI项目所需的软件,而IT专业人员能够使用他们最熟悉的大规模数据中心管理工具为AI提供完备的支持。
何为NVIDIA AI Enterprise?
AI基础设施涉及软硬件众多资源的调度管理,企业亟需一个开箱即用的解决方案来实现AI工作负载的快速部署与实施。众所周知,NVIDIA一直在打造一个全面的AI产品组合,这除了硬件产品,也包括众多的软件产品。NVIDIA AI Enterprise是一套完整齐全的端到端企业级AI工具和框架,为在混合云中运行的各种加速CUDA应用、AI框架、预训练模型和软件开发工具包提供兼容性,科学家和AI研究人员可以轻松访问NVIDIA领先的AI工具,推动高级诊断、智能工厂、欺诈检测等项目的AI发展。

现在AI不仅仅只停留在研究阶段,而是已经被应用于真实业务中解决实际问题。大规模部署AI工作负载的各企业正在综合运用本地数据中心和云端,而NVIDIA AI Enterprise案解决了部署单个AI应用的复杂性问题,以及由于必须手动配置和管理各种不兼容的应用和基础设施软件而可能导致的潜在故障。
尽管许多公司都在数据中心中部署了GPU,但是其AI训练和推理等GPU加速工作负载通常仍在裸机上运行。这些GPU服务器通常是独立的,需要进行单独管理,这使得其利用率和灵活性受到了限制。
为了大幅简化各种不同AI工作负载的开发和部署,NVIDIA与VMware联手合作开发了AI就绪型企业级平台,双方使用NVIDIA AI Enterprise在VMware vSphere上实现了AI工作负载的虚拟化。通过它们,企业可以在VMware Cloud Foundation上运行的虚拟化数据中心中快速部署、管理和扩展AI工作负载。
VMware云平台事业部营销副总裁Lee Caswell表示,每家企业都在探索如何通过实现基础设施的现代化来满足AI应用需求。借助NVIDIA AI Enterprise和vSphere 7 Update 2,VMware客户现在能够在其虚拟化数据中心中快速应用AI,并为他们的现代化应用程序轻松部署经认证的AI就绪型基础设施。
当NVIDIA AI Enterprise遇到VMware vSphere
经NVIDIA优化、认证并支持用于VMware vSphere的NVIDIA AI Enterprise套件,使IT部门能够轻松地大规模部署虚拟化AI。
凭借在vSphere上运行的NVIDIA AI Enterprise,企业可以避免难以管理和不安全的AI专用系统孤岛。同时,还可以降低部署Shadow AI(即数据科学家和机器学习工程师在IT生态系统之外采购资源)的风险。IT部门可以管理可用性、优化资源分配,并在本地和混合云中运行的AI工作负载保障其宝贵的IP和客户数据的安全。
如果关注NVIDIA的话,我们知道前一段时间,NVIDIA公布了通过NVIDIA认证系统测试的全球首批加速服务器,获得NVIDIA认证系统认证的服务器包括戴尔科技、新华三、慧与、联想、浪潮和超微等服务器。
为了支持NVIDIA Enterprise AI中的应用,VMware vSphere 7 Update 2基于NVIDIA A100 Tensor Core GPU,并现已通过NVIDIA认证系统的认证。在获得NVIDIA许可证后,AI Enterprise for vSphere可在NVIDIA认证系统上得到支持。AI应用能够像传统企业工作负载一样,在通用基础设施上通过VMware vCenter等数据中心管理工具轻松获得支持。
NVIDIA副总裁兼企业及边缘计算总经理Justin Boitano表示,通常企业都在裸金属服务器上运行AI。但是NVIDIA AI Enterprise使虚拟工作负载能够在vSphere上以接近裸金属服务器的性能运行,提供可扩展、多节点AI应用性能,并通过NVIDIA A100 GPU在AI和数据科学领域获得突破性性能。现在,AI工作负载经过优化后可以扩展到多个节点,即便是具有完整GPU虚拟化的大型深度学习训练模型也可以在VMware Cloud Foundation上运行。
NVIDIA AI Enterprise使企业能够将AI模型的开发时间从80周缩短到8周。现在,企业能够在VMware vSphere上部署和管理高级AI应用,并且像在裸机上一样获得可扩展的、可保证的NVIDIA加速计算性能。
AI工作负载规模不一,对数据的要求也不尽相同。训练一个AI模型需要在多个节点的多个GPU上扩展性能。在部署中的模型上运行推理所需的计算资源一般较少,并且可能不需要用到整个GPU的性能。NVIDIA与VMware一起将vSphere打造成唯一一款通过NVIDIA多实例 GPU(MIG)技术为实时迁移提供虚拟机监视器支持的计算虚拟化软件。凭借MIG技术,每个A100 GPU可以在硬件层面被分割成多至7个实例,从而最大限度地提高各种规模工作负载的效率。

此外,部分NVIDIA ConnectX网卡现已通过VMware vSAN over RDMA(远程直接内存访问)认证。这项技术可卸载CPU通信任务,从而提升应用性能并提高基础设施的投资回报。
NVIDIA AI Enterprise以永久许可证的方式提供,每个CPU插槽的价格为3595美元。每个NVIDIA AI Enterprise企业级业务标准支持级别的许可证每年费用为899美元。计划升级到VMware vSphere 7 Update 2的客户可以申请NVIDIA AI Enterprise的早期试用。
目前联合健康集团旗下的Optum Technology已经在使用NVIDIA AI Enterprise for vSphere,高效地部署企业级AI。
结语
VMware vSphere在现代IT基础设施中具有举足轻重的地位,而NVIDIA在AI基础设施方面一直有了广泛的布局。NVIDIA与VMware的强强联手让现代基础设施能够更好地承载AI工作负载,这对于双方的客户而言是乐见其成的。相信通过双方的合作,企业在AI落地方面的步伐将会越迈越大。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。