如今,AI和云原生类应用已经成为企业IT基础设施的重要工作负载,不过这也给在企业数据中心和混合云中支持这些先进应用的IT团队带来了挑战,于是数据中心现代化便成为企业的重要议题。
在近日举行的VMworld 2021上,NVIDIA和VMware公布了诸多联合创新举措,帮助企业将现有IT基础设施进行现代化,更好地承载人工智能和云原生等应用。
云原生环境中的AI
在VMworld 2021上,VMware发布了最新版本的VMware Tanzu for vSphere,其使IT团队能够在其现有的IT基础设施上运行容器化Kubernetes工作负载。
结合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企业能够在VMware环境中的Kubernetes容器上运行AI工作负载,充分利用方便IT部门管理的基础设施。该软件可在服务器厂商商所提供的主流NVIDIA认证系统上运行,从而提供了一个完整的、专为AI优化的集成式软件堆栈和硬件堆栈。
我们知道NVIDIA AI Enterprise于2021年8月上市,是一套经NVIDIA优化、认证和支持的端到端的云原生AI和数据分析软件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服务器和NVIDIA RAPIDS。这些工具使AI开发者和数据科学家能够轻松获得构建对话式AI、计算机视觉和推荐系统等一系列企业AI应用所需的工具和框架。
作为NVIDIA和VMware联合开发AI-ready企业平台,NVIDIA AI Enterprise将全球领先的AI堆栈和经过优化的软件带入企业现有使用的IT基础设施中,帮助企业缩短AI开发周期,快速部署、管理和扩展AI工作负载,更快上线应用。
更为重要的是NVIDIA AI Enterprise的云原生架构提供接近裸机水平的AI性能,包括在虚拟化环境中。在最新的MLPerf基准测试中,戴尔科技EMC PowerEdge R7525服务器用三个NVIDIA A100 Tensor Core GPU运行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸机性能。
目前,NVIDIA AI Enterprise通过全球NVIDIA渠道合作伙伴提供,并得到了包括源讯、戴尔科技、技嘉、新华三、慧与、浪潮、联想和超微等多家提供NVIDIA认证系统的服务器制造商的支持。
为支持需要即时访问AI基础设施的客户,NVIDIA AI Enterprise预计也将在不久后加入数字基础设施领导者Equinix提供的NVIDIA AI LaunchPad计划。
DPU加速数据中心现代化
除了NVIDIA AI Enterprise,NVIDIA扩大与联想的合作,提供对VMware Monterey项目的抢先体验计划支持。通过抢先体验计划,企业可及早探索应用支持VMware的预配置集群,通过联想ThinkAgile VX和ThinkSystem Ready-Nodes等配备了BlueField的服务器实现加速。
目前,企业正在对现有应用进行现代化升级,并部署新应用,传统IT架构不断扩展,新的挑战随之而来,比如服务器CPU上消耗的周期数量越来越多,进而影响性能。
为了解决这些问题,企业采用带有GPU、DPU等硬件加速器的专用系统,并通过减轻负载来满足新应用的性能和安全需求。不过加速器可以提高性能,但也会导致团队孤立、技能专业化、总体拥有成本增加,并且带来了更大的复杂性和安全需求。
VMware Monterey项目旨在通过包括NVIDIA BlueField DPU在内的最新网络技术,提高企业数据中心的性能、可管理性和安全性。
现代超大规模云技术推动数据中心利用一种专门针对数据中心基础架构软件而设计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。于是NVIDIA于2020年率先提出DPU(数据处理器)的概念,并推出了BlueField系列DPU产品。
最新的NVIDIA BlueField-3 DPU是首款为AI和加速计算而设计的DPU,针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务,通过对数据中心应用的卸载、加速和隔离,实现各种规模的应用交付,打造安全、高性能的现代企业数据中心。
通过BlueField-3 DPU的加速引擎,有些场景下的性能可相当于多达300个通用CPU核的性能,从而释放宝贵的CPU资源来运行关键业务应用。
BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来,实现了由传统基础设施到现代基于 “零信任” 环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。相比上一代产品,它具有5倍加速计算能力、4倍的加密速度,并且将CPU核升级到16个Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。
结语
不管是AI Enterprise还是DPU,NVIDIA在软件和硬件层面不断创新实现AI民主化,而这离不开生态圈的构建。此次VMworld 2021上NVIDIA和VMware的联合成果发布,将会加速人工智能在现代数据中心中的落地,推动企业的业务转型。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。