虚拟化软件巨头VMware今天在VMworld 2020在线大会上表示,将与计算机图形芯片制造商Nvidia合作打造一个面向人工智能工作负载的全新企业平台。
VMware还公布了一个面向云、数据中心和边缘的新架构,运行在Nvidia最新的数据中心内。
Nvidia将把Nvidia GPU Cloud(NGC)AI处理软件与VMware主要的虚拟化平台vSphere进行集成,此外NGC还与VMware Cloud Foundation(用于管理虚拟机和软件容器的混合云平台)和VMware Tanzu(对Kubernetes控制的容器应用进行构建、运行和管理的平台)进行集成。
“我们正在与Nvidia展开合作,将AI带给所有企业;让这项最强大的技术之一实现真正普及,”VMware首席执行官Pat Gelsinger(图右,图左为Nvidia首席执行官黄仁勋)这样表示。
VMware称,这些集成将打造出一个“企业就绪的人工智能平台”,让企业能够运行新的人工智能工作负载并通过一个平台进行管理。VMware还将让企业能够在数据所在的位置部署AI就绪的基础设施,不管数据是在云端、数据中心、还是网络边缘。
Nvidia GPU Cloud是一个针对深度学习和高性能计算的优化软件工具完整目录,这些工具可以充分利用Nvidia GPU的优势。
两家公司表示,将该软件与VMware工具集成后,将让企业更容易在其现有基础设施上部署新的AI工作负载,让数据科学家和开发人员可以访问广泛的云原生GPU优化的容器、AI模型和行业特定的软件开发套件。
这一点很重要,因为Nvidia不仅在硬件方面而且在软件方面都被公认为是AI的行业领导者之一。
Nvidia企业计算业务负责人、产品工程高级副总裁Manuvir Das表示:“很人多认为我们是一家硬件公司,实际上我们也是一家软件公司,Nvidia的生态系统中有超过230万的开发者。”
Das表示,现在企业可以使用Tanzu平台在VMware vSphere和Cloud Foundation上创建使用NGC软件开发的云原生AI应用。同时,无论是使用容器还是虚拟机来托管这些应用,带给开发者的好处是他们拥有一致的体验。
Das说:“vSphere的美妙之处在于,无论你是运行在虚拟机还是Kubernetes上,都可以获得相同的体验。即使没有容器平台,你也可以将应用托管在容器中,方便打包。我们预计,将有很大一部分客户会以这种方式进行部署。”
两家公司还公布了“蒙特雷计划”(Project Monterey),在这项新计划下,两家公司将合作构建混合云架构,该架构基于Nvidia的智能网络接口控制器技术SmartNIC,并结合了Nvidia最新的可编程BlueField-2数据处理单元。
两家公司表示,他们希望将BlueField-2 DPU与VMware Cloud Foundation结合起来以创建下一代架构,该架构能够更好地满足AI、机器学习、高吞吐量和以数据为中心的应用的独特需求。SmartNIC控制器通过将虚拟机管理程序、网络、安全和存储任务从CPU卸载到DPU,从而有助于加速应用工作负载,并提供额外的安全性。”
两家公司表示,在此次合作中,Nvidia的SmartNIC平台及其DPU是加速数据所驻留的应用的关键技术。
VMware高级副总裁、云平台业务总经理Krish Prasad说:“蒙特雷计划重新构想了面向混合云应用的数据中心基础设施。Cloud Foundation用户将能够加速各种下一代应用和通用应用,提供可编程智能性,并跨数据中心、边缘和电信云运行分布式零信任安全模型。”
对企业而言,最大的吸引力在于Nvidia的架构将有助于实现应用性能的大幅提升。Das表示,Nvidia已经重复了大多数VMware利用GPU最大限度减少虚拟化开销的工作,这将有助于使VMware工作负载具有GPU的原始能力,并带来显着的性能改进。
Das说:“例如将AI用于乳腺癌研究,对比在相同环境下使用和不使用GPU的情况,你会看到性能提升了31倍。”
Das说,更加灵活的基础设施还将让客户从中受益。客户利用所谓多实例GPU的技术,将GPU切分成更小的部分,在基础设施中混合搭配,用于数据准备、训练或推理之类的任务。
Constellation Research分析师Holger Mueller认为,当今企业渴望更快速发展并变得更加敏捷,而Nvidia和VMware正致力于满足这一需求。他说,这类伙伴关系为企业加速铺平了道路,因为他们为企业提供了开箱即用的预配置功能,让企业不需要做任何的集成工作。
Mueller说:“此次合作对任何一方来说都是双赢的。VMware可以获得Nvidia备受欢迎的GPU和DPU,Nvidia可以带来自己已经产品化的产品,进入VMware的生态系统,而最重要的是,他们为下一代应用提供了更强大的平台。”
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。