如今,AI和云原生类应用已经成为企业IT基础设施的重要工作负载,不过这也给在企业数据中心和混合云中支持这些先进应用的IT团队带来了挑战,于是数据中心现代化便成为企业的重要议题。
在近日举行的VMworld 2021上,NVIDIA和VMware公布了诸多联合创新举措,帮助企业将现有IT基础设施进行现代化,更好地承载人工智能和云原生等应用。
云原生环境中的AI
在VMworld 2021上,VMware发布了最新版本的VMware Tanzu for vSphere,其使IT团队能够在其现有的IT基础设施上运行容器化Kubernetes工作负载。

结合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企业能够在VMware环境中的Kubernetes容器上运行AI工作负载,充分利用方便IT部门管理的基础设施。该软件可在服务器厂商商所提供的主流NVIDIA认证系统上运行,从而提供了一个完整的、专为AI优化的集成式软件堆栈和硬件堆栈。
我们知道NVIDIA AI Enterprise于2021年8月上市,是一套经NVIDIA优化、认证和支持的端到端的云原生AI和数据分析软件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服务器和NVIDIA RAPIDS。这些工具使AI开发者和数据科学家能够轻松获得构建对话式AI、计算机视觉和推荐系统等一系列企业AI应用所需的工具和框架。
作为NVIDIA和VMware联合开发AI-ready企业平台,NVIDIA AI Enterprise将全球领先的AI堆栈和经过优化的软件带入企业现有使用的IT基础设施中,帮助企业缩短AI开发周期,快速部署、管理和扩展AI工作负载,更快上线应用。
更为重要的是NVIDIA AI Enterprise的云原生架构提供接近裸机水平的AI性能,包括在虚拟化环境中。在最新的MLPerf基准测试中,戴尔科技EMC PowerEdge R7525服务器用三个NVIDIA A100 Tensor Core GPU运行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸机性能。
目前,NVIDIA AI Enterprise通过全球NVIDIA渠道合作伙伴提供,并得到了包括源讯、戴尔科技、技嘉、新华三、慧与、浪潮、联想和超微等多家提供NVIDIA认证系统的服务器制造商的支持。
为支持需要即时访问AI基础设施的客户,NVIDIA AI Enterprise预计也将在不久后加入数字基础设施领导者Equinix提供的NVIDIA AI LaunchPad计划。
DPU加速数据中心现代化
除了NVIDIA AI Enterprise,NVIDIA扩大与联想的合作,提供对VMware Monterey项目的抢先体验计划支持。通过抢先体验计划,企业可及早探索应用支持VMware的预配置集群,通过联想ThinkAgile VX和ThinkSystem Ready-Nodes等配备了BlueField的服务器实现加速。

目前,企业正在对现有应用进行现代化升级,并部署新应用,传统IT架构不断扩展,新的挑战随之而来,比如服务器CPU上消耗的周期数量越来越多,进而影响性能。
为了解决这些问题,企业采用带有GPU、DPU等硬件加速器的专用系统,并通过减轻负载来满足新应用的性能和安全需求。不过加速器可以提高性能,但也会导致团队孤立、技能专业化、总体拥有成本增加,并且带来了更大的复杂性和安全需求。
VMware Monterey项目旨在通过包括NVIDIA BlueField DPU在内的最新网络技术,提高企业数据中心的性能、可管理性和安全性。
现代超大规模云技术推动数据中心利用一种专门针对数据中心基础架构软件而设计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。于是NVIDIA于2020年率先提出DPU(数据处理器)的概念,并推出了BlueField系列DPU产品。
最新的NVIDIA BlueField-3 DPU是首款为AI和加速计算而设计的DPU,针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务,通过对数据中心应用的卸载、加速和隔离,实现各种规模的应用交付,打造安全、高性能的现代企业数据中心。
通过BlueField-3 DPU的加速引擎,有些场景下的性能可相当于多达300个通用CPU核的性能,从而释放宝贵的CPU资源来运行关键业务应用。
BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来,实现了由传统基础设施到现代基于 “零信任” 环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。相比上一代产品,它具有5倍加速计算能力、4倍的加密速度,并且将CPU核升级到16个Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。
结语
不管是AI Enterprise还是DPU,NVIDIA在软件和硬件层面不断创新实现AI民主化,而这离不开生态圈的构建。此次VMworld 2021上NVIDIA和VMware的联合成果发布,将会加速人工智能在现代数据中心中的落地,推动企业的业务转型。
好文章,需要你的鼓励
微软于12月1日正式关闭混合现实协作平台Mesh,将用户引导至Teams的沉浸式活动功能。Mesh作为独立服务在2024年正式发布,提供3D虚拟会议环境,但与Teams功能重叠明显。微软已将相关功能直接整合到Teams中,需要商业Teams许可证和Premium许可证才能主持沉浸式活动。这标志着微软元宇宙雄心的终结,公司已放弃HoloLens项目和美军合同,转向AI发展战略。
这项研究开发了CaptionQA系统,通过测试AI生成的图片描述能否支持实际任务来评估其真正价值。研究发现即使最先进的AI模型在图片描述实用性方面也存在显著不足,描述质量比直接看图时下降9%-40%。研究涵盖自然、文档、电商、机器人四个领域,为AI技术的实用性评估提供了新标准。
亚马逊云服务发布AI工厂解决方案,支持政府和监管行业在本地数据中心部署完整AWS AI基础设施。同时推出搭载三纳米Trainium3芯片的EC2 Trn3超级服务器,性能较前代提升4.4倍,能效提升4倍。此外还引入配备英伟达GB300 NVL72平台的P6e-GB300超级服务器,为万亿参数AI推理提供最高GPU密度支持。
以色列理工学院研究团队提出了一种将专家混合模型融入YOLOv9目标检测的创新方法。该方法让多个专门化的YOLOv9-T专家分工协作,通过智能路由器动态选择最适合的专家处理不同类型图像。实验显示,在COCO数据集上平均精度提升超过10%,在VisDrone数据集上提升近30%,证明了"分工合作"比单一模型更有效,为AI视觉系统提供了新思路。