如今,AI和云原生类应用已经成为企业IT基础设施的重要工作负载,不过这也给在企业数据中心和混合云中支持这些先进应用的IT团队带来了挑战,于是数据中心现代化便成为企业的重要议题。
在近日举行的VMworld 2021上,NVIDIA和VMware公布了诸多联合创新举措,帮助企业将现有IT基础设施进行现代化,更好地承载人工智能和云原生等应用。
云原生环境中的AI
在VMworld 2021上,VMware发布了最新版本的VMware Tanzu for vSphere,其使IT团队能够在其现有的IT基础设施上运行容器化Kubernetes工作负载。
结合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企业能够在VMware环境中的Kubernetes容器上运行AI工作负载,充分利用方便IT部门管理的基础设施。该软件可在服务器厂商商所提供的主流NVIDIA认证系统上运行,从而提供了一个完整的、专为AI优化的集成式软件堆栈和硬件堆栈。
我们知道NVIDIA AI Enterprise于2021年8月上市,是一套经NVIDIA优化、认证和支持的端到端的云原生AI和数据分析软件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服务器和NVIDIA RAPIDS。这些工具使AI开发者和数据科学家能够轻松获得构建对话式AI、计算机视觉和推荐系统等一系列企业AI应用所需的工具和框架。
作为NVIDIA和VMware联合开发AI-ready企业平台,NVIDIA AI Enterprise将全球领先的AI堆栈和经过优化的软件带入企业现有使用的IT基础设施中,帮助企业缩短AI开发周期,快速部署、管理和扩展AI工作负载,更快上线应用。
更为重要的是NVIDIA AI Enterprise的云原生架构提供接近裸机水平的AI性能,包括在虚拟化环境中。在最新的MLPerf基准测试中,戴尔科技EMC PowerEdge R7525服务器用三个NVIDIA A100 Tensor Core GPU运行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸机性能。
目前,NVIDIA AI Enterprise通过全球NVIDIA渠道合作伙伴提供,并得到了包括源讯、戴尔科技、技嘉、新华三、慧与、浪潮、联想和超微等多家提供NVIDIA认证系统的服务器制造商的支持。
为支持需要即时访问AI基础设施的客户,NVIDIA AI Enterprise预计也将在不久后加入数字基础设施领导者Equinix提供的NVIDIA AI LaunchPad计划。
DPU加速数据中心现代化
除了NVIDIA AI Enterprise,NVIDIA扩大与联想的合作,提供对VMware Monterey项目的抢先体验计划支持。通过抢先体验计划,企业可及早探索应用支持VMware的预配置集群,通过联想ThinkAgile VX和ThinkSystem Ready-Nodes等配备了BlueField的服务器实现加速。
目前,企业正在对现有应用进行现代化升级,并部署新应用,传统IT架构不断扩展,新的挑战随之而来,比如服务器CPU上消耗的周期数量越来越多,进而影响性能。
为了解决这些问题,企业采用带有GPU、DPU等硬件加速器的专用系统,并通过减轻负载来满足新应用的性能和安全需求。不过加速器可以提高性能,但也会导致团队孤立、技能专业化、总体拥有成本增加,并且带来了更大的复杂性和安全需求。
VMware Monterey项目旨在通过包括NVIDIA BlueField DPU在内的最新网络技术,提高企业数据中心的性能、可管理性和安全性。
现代超大规模云技术推动数据中心利用一种专门针对数据中心基础架构软件而设计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。于是NVIDIA于2020年率先提出DPU(数据处理器)的概念,并推出了BlueField系列DPU产品。
最新的NVIDIA BlueField-3 DPU是首款为AI和加速计算而设计的DPU,针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务,通过对数据中心应用的卸载、加速和隔离,实现各种规模的应用交付,打造安全、高性能的现代企业数据中心。
通过BlueField-3 DPU的加速引擎,有些场景下的性能可相当于多达300个通用CPU核的性能,从而释放宝贵的CPU资源来运行关键业务应用。
BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来,实现了由传统基础设施到现代基于 “零信任” 环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。相比上一代产品,它具有5倍加速计算能力、4倍的加密速度,并且将CPU核升级到16个Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。
结语
不管是AI Enterprise还是DPU,NVIDIA在软件和硬件层面不断创新实现AI民主化,而这离不开生态圈的构建。此次VMworld 2021上NVIDIA和VMware的联合成果发布,将会加速人工智能在现代数据中心中的落地,推动企业的业务转型。
好文章,需要你的鼓励
随着大语言模型在人工智能时代展现强大力量,可穿戴设备成为收集人体数据的重要载体。通过实时监测血压、心率、血糖等生命体征,结合AI边缘计算能力,医疗正向个性化转型。基因治疗、数字孪生技术让每个人都能拥有专属的医疗数字化身,实现从"报销型医疗"向"创新循证医疗"的转变,为疾病预防和健康管理带来革命性突破。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
在巴黎举办的欧洲开放基础设施峰会期间,专门用一整天时间讨论VMware迁移问题。博通收购VMware后许可证价格上涨,导致客户运营成本大幅增加。开源开发者展示了将VMware虚拟机迁移到开源替代方案的产品。Forrester分析师指出VMware客户对此感到信任破裂。OpenStack等开源解决方案虽然复杂度较高,但提供了健康的开源生态系统替代方案。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。