行业领军企业VMware、思科、戴尔以及红帽支持vComputeServer,以简化GPU服务器的部署及管理。
今天,NVIDIA宣布其虚拟GPU(vGPU)技术现可支持AI、深度学习和数据科学服务器虚拟化。NVIDIA虚拟GPU曾变革了虚拟客户端计算。如今,AI工作负载可以轻松地部署在虚拟化环境中,比如基于全新vComputeServer软件和NVIDIA NGC的VMware vSphere。而在此之前,这在CPU中才可以实现。通过与VMware的合作,该架构将帮助企业在客户数据中心和VMware Cloud on AWS之间无缝迁移GPU上的AI工作负载。
vComputeServer让数据中心管理员可以在虚拟环境中在GPU服务器上运行AI工作负载,进一步提升了计算的安全性、利用率和可管理性。IT管理员可以使用VMware vSphere(包括vCenter和vMotion)等hypervisor虚拟化工具来管理所有数据中心应用,包括运行于NVIDIA GPU之上的AI应用。
尽管许多公司都在数据中心中部署了GPU,但是其AI训练和推理等GPU加速工作负载通常却仍在裸机上运行。这些GPU服务器通常是独立的,需要进行单独管理,这使得其利用率和灵活性受到了限制。
借助vComputeServer,IT管理员能够让GPU加速虚拟化服务器的管理变得更为简单,同时还能保留现有的工作负载,并降低总体运营成本。与仅使用CPU的服务器相比,基于4颗NVIDIA V100 GPU的vComputeServer将深度学习的速度提高了50倍,性能接近于裸机水平。
今天的宣布不仅支持VMware vSphere,同时也支持基于KVM的hypervisor(包括红帽和Nutanix),这让管理员可以在管理GPU集群和数据中心剩余部分时,能够使用相同的工具。
由于借助NVIDIA vComputeServer拓展了vGPU产品组合,NVIDIA开始为数据分析、机器学习、AI、深度学习、HPC以及其他服务器工作负载提供支持。vGPU产品组合还包括以下虚拟桌面产品:面向知识工作者的NVIDIA GRID虚拟PC和GRID虚拟应用程序,以及面向专业图形的Quadro虚拟数据中心工作站。
NVIDIA vComputeServer提供了GPU共享和GPU聚合等功能,前者可以让单颗GPU支持多台虚拟机的运行,后者则可以让多颗GPU同时支持一台虚拟机。这也使得利用率和可用性能够得以最大化。
vComputeServer的特性有:
NVIDIA NGC是一个可以优化深度学习和科学计算的GPU加速云平台,提供了超过150个容器、预训练模型、训练脚本和工作流程,从概念到制作为AI提供全程加速,其中包括CUDA加速的数据科学软件RAPIDS。
RAPIDS提供了一系列开源库,可加速整个数据科学工作流程,其中包括数据加载、ETL、模型训练和推理,以便数据科学家能够更快地完成工作,并显著扩展了他们所能够创建的模型类型。
所有NGC软件都可以部署在虚拟化环境中,例如基于vComputeServer的VMware vSphere。
IT管理员可以使用VMware vSphere这一类hypervisor可视化工具来管理VM中的NGC容器,其中VM运行于NVIDIA GPU之上。
此外,借助经验证的NGC Ready服务器,NVIDIA还能帮助IT在生产过程中更快地使用GPU服务器;企业级支持还能让用户和管理员可以直接同NVIDIA的专家接触,就NGC软件、降低风险和提升生产力等问题进行沟通。
领先的行业合作伙伴纷纷支持NVIDIA vComputeServer,包括戴尔、思科和VMware等。
NVIDIA vComputeServer将于8月上市。
好文章,需要你的鼓励
IBM在量子开发者大会上发布两款新型量子处理器。Quantum Nighthawk配备120个量子比特和218个新一代可调耦合器,比前代产品增加20%耦合器,可执行复杂度提升30%的电路。Quantum Loon是实验性处理器,展示了实现极低错误率和高效错误恢复的所有组件。IBM计划2026年底确认首批量子优势案例,并于2029年交付大规模容错量子计算平台。
腾讯研究团队提出GCPO算法,通过引入"黄金答案"解决小型语言模型推理能力不足问题。当传统对比学习失效时,该方法为模型提供正确示例指导,在多个数学推理基准上取得25%-54%的性能提升,为小型模型突破能力边界提供了新思路。
VDURA数据平台第12版本通过扩展元数据计算、添加系统级快照功能和支持叠瓦磁记录硬盘来降低每TB成本。新版本引入弹性元数据引擎,可动态扩展元数据节点,将元数据操作性能提升最多20倍。快照功能支持即时的节省空间的数据集时点副本。SMR硬盘支持通过智能写入放置引擎,在不影响吞吐量的情况下每机架增加25-30%容量。
上海人工智能实验室联合多家机构推出MUSE框架,首次实现AI助手的经验学习与自我进化能力。MUSE采用三层记忆架构,通过"计划-执行-反思-记忆"循环,让AI能够像人类一样从工作中积累经验。在TAC基准测试中,MUSE创造性地达到51.78%成功率,成为首个突破50%大关的系统,标志着AI助手从静态工具向智能伙伴的重要转变。