如今,AI和云原生类应用已经成为企业IT基础设施的重要工作负载,不过这也给在企业数据中心和混合云中支持这些先进应用的IT团队带来了挑战,于是数据中心现代化便成为企业的重要议题。
在近日举行的VMworld 2021上,NVIDIA和VMware公布了诸多联合创新举措,帮助企业将现有IT基础设施进行现代化,更好地承载人工智能和云原生等应用。
云原生环境中的AI
在VMworld 2021上,VMware发布了最新版本的VMware Tanzu for vSphere,其使IT团队能够在其现有的IT基础设施上运行容器化Kubernetes工作负载。
结合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企业能够在VMware环境中的Kubernetes容器上运行AI工作负载,充分利用方便IT部门管理的基础设施。该软件可在服务器厂商商所提供的主流NVIDIA认证系统上运行,从而提供了一个完整的、专为AI优化的集成式软件堆栈和硬件堆栈。
我们知道NVIDIA AI Enterprise于2021年8月上市,是一套经NVIDIA优化、认证和支持的端到端的云原生AI和数据分析软件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服务器和NVIDIA RAPIDS。这些工具使AI开发者和数据科学家能够轻松获得构建对话式AI、计算机视觉和推荐系统等一系列企业AI应用所需的工具和框架。
作为NVIDIA和VMware联合开发AI-ready企业平台,NVIDIA AI Enterprise将全球领先的AI堆栈和经过优化的软件带入企业现有使用的IT基础设施中,帮助企业缩短AI开发周期,快速部署、管理和扩展AI工作负载,更快上线应用。
更为重要的是NVIDIA AI Enterprise的云原生架构提供接近裸机水平的AI性能,包括在虚拟化环境中。在最新的MLPerf基准测试中,戴尔科技EMC PowerEdge R7525服务器用三个NVIDIA A100 Tensor Core GPU运行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸机性能。
目前,NVIDIA AI Enterprise通过全球NVIDIA渠道合作伙伴提供,并得到了包括源讯、戴尔科技、技嘉、新华三、慧与、浪潮、联想和超微等多家提供NVIDIA认证系统的服务器制造商的支持。
为支持需要即时访问AI基础设施的客户,NVIDIA AI Enterprise预计也将在不久后加入数字基础设施领导者Equinix提供的NVIDIA AI LaunchPad计划。
DPU加速数据中心现代化
除了NVIDIA AI Enterprise,NVIDIA扩大与联想的合作,提供对VMware Monterey项目的抢先体验计划支持。通过抢先体验计划,企业可及早探索应用支持VMware的预配置集群,通过联想ThinkAgile VX和ThinkSystem Ready-Nodes等配备了BlueField的服务器实现加速。
目前,企业正在对现有应用进行现代化升级,并部署新应用,传统IT架构不断扩展,新的挑战随之而来,比如服务器CPU上消耗的周期数量越来越多,进而影响性能。
为了解决这些问题,企业采用带有GPU、DPU等硬件加速器的专用系统,并通过减轻负载来满足新应用的性能和安全需求。不过加速器可以提高性能,但也会导致团队孤立、技能专业化、总体拥有成本增加,并且带来了更大的复杂性和安全需求。
VMware Monterey项目旨在通过包括NVIDIA BlueField DPU在内的最新网络技术,提高企业数据中心的性能、可管理性和安全性。
现代超大规模云技术推动数据中心利用一种专门针对数据中心基础架构软件而设计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。于是NVIDIA于2020年率先提出DPU(数据处理器)的概念,并推出了BlueField系列DPU产品。
最新的NVIDIA BlueField-3 DPU是首款为AI和加速计算而设计的DPU,针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务,通过对数据中心应用的卸载、加速和隔离,实现各种规模的应用交付,打造安全、高性能的现代企业数据中心。
通过BlueField-3 DPU的加速引擎,有些场景下的性能可相当于多达300个通用CPU核的性能,从而释放宝贵的CPU资源来运行关键业务应用。
BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来,实现了由传统基础设施到现代基于 “零信任” 环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。
作为业内首款400G以太网和NDR InfiniBand DPU,BlueField-3具有出色的网络性能。相比上一代产品,它具有5倍加速计算能力、4倍的加密速度,并且将CPU核升级到16个Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。
结语
不管是AI Enterprise还是DPU,NVIDIA在软件和硬件层面不断创新实现AI民主化,而这离不开生态圈的构建。此次VMworld 2021上NVIDIA和VMware的联合成果发布,将会加速人工智能在现代数据中心中的落地,推动企业的业务转型。
好文章,需要你的鼓励
生成式AI在电商领域发展迅速,但真正的客户信任来自可靠的购物体验。数据显示近70%的在线购物者会放弃购物车,主要因为结账缓慢、隐藏费用等问题。AI基础设施工具正在解决这些信任危机,通过实时库存监控、动态结账优化和智能物流配送,帮助商家在售前、售中、售后各环节提升可靠性,最终将一次性买家转化为忠实客户。
泰国SCBX金融集团开发的DoTA-RAG系统通过动态路由和混合检索技术,成功解决了大规模知识库检索中速度与准确性难以兼得的难题。系统将1500万文档的搜索空间缩小92%,响应时间从100秒降至35秒,正确性评分提升96%,为企业级智能问答系统提供了实用的技术方案。
存储供应商Qumulo发布多租户架构Stratus,为每个租户提供独立的虚拟环境,通过加密技术和租户专用密钥管理系统实现隔离。该统一文件和对象存储软件支持本地、边缘、数据中心及AWS、Azure等云环境部署。Stratus采用加密隔离技术确保敏感数据安全,同时提供任务关键操作所需的灵活性和效率,帮助联邦和企业客户满足合规要求。
中科院和字节跳动联合开发了VGR视觉锚定推理系统,突破了传统AI只能粗略"看图"的局限。该系统能在推理过程中主动关注图片关键区域,像人类一样仔细观察细节后再得出结论。实验显示VGR在图表理解等任务上性能大幅提升,同时计算效率更高,代表了多模态AI"可视化推理"的重要进展。