VMware和Nvidia今天宣布将合作加速企业人工智能应用的开发。
VMware新版本的vSphere 7服务器虚拟化产品和vSAN 7存储虚拟化产品将以更高的安全性和更简化的操作,运行那些要求支持AI就绪基础设施的应用。具体来说,VMware和Nvidia将提供软件堆栈让客户通过利用Nvidia硬件开发新的应用,以及升级现有应用和基础设施。
此次对双方联合开发的AI就绪企业平台的更新中,VMware vSphere 7 Update 2 通过了Nvidia AI Enterprise的认证,后者是一个包括了优化AI应用和框架的云原生集合,让运行在VMware虚拟机上的、基于Nvidia GPU的工作负载比之前性能提高了多达20倍。
Nvidia企业和边缘计算总经理Justin Boitano表示:“服务器运行vSphere后的性能实际上与裸机没有区别,你可以在一个没有孤岛的控制平面上进行管理。”
这次对vSphere的更新还增加了在Nvidia认证系统上对Nvidia A100和Nvidia A40 Tensor Core GPU的支持,这些认证系统中就包括了Nvidia的HGX和EGX服务器平台,让可以可以先他们现有的虚拟化环境中增加特定AI的平台,而不必单独运行AI工作负载。
Boitano说:“人工智能是一个全栈计算问题,但在某种程度上是以DIY的方法进行设置和管理的。这让我们可以利用现有针对AI的工具在vSphere下释放全部性能潜力。”
更好的共享功能和工作负载可移植性
此次集成将让VMware客户可以利用最新一代Nvidia GPU(如多实例GPU)中的功能,在多个用户之间共享GPU周期,而且可以利用VMware vSphere vMotion进行迁移,利用vSphere Distributed Resource Scheduler实现负载平衡。
VMware云平台业务部门副总裁Lee Caswell表示,vSphere Distributed Resource Scheduler让用户可以在公共群集中的节点之间移动应用,或者根据工作负载需求的变化实时分发应用。另一项功能支持Nvidia多实例GPU,允许单个GPU在多达7个虚拟机之间进行共享,并具有故障隔离功能以防止宕机的发生。
此外,Nvidia还对AI和数据科学应用程序和框架库、云原生部署工具以及Nvidia基础结构优化库(称为Nvidia AI Enterprise,搭配vSphere一起使用)进行了认证。Boitano说:“我们发现,如果一家新公司刚刚开始AI之旅,那么他们可能要花费80多周的时间来整理数据、训练模型、开发模型并建立连接工厂车间的计算机视觉管道。”他说,Nvidia的预训练模型和Transfer Learning Toolkit可用于将现有神经网络模型中的学习特征提取到新模型中,从而将时间“缩短到8周”。
除了宣布与Nvidia的合作关系外,VMware还表示,已经将vSphere中的VMware NSX Advanced Load Balancer Essentials与Tanzu应用现代化套件进行了整合,这将实现针对Kubernetes集群的VMware多云负载平衡,并提供一条路径让客户能够使用NSX Advanced Load Balancer Enterprise Edition的全部功能。
Kubernetes是用于便携式模块化的容器软件平台一种主流编排工具。VSphere with Tanzu中新增了一个更新的管理程序,支持最新的Kubernetes 1.19版本,该版本的增强功能可以简化升级并提高稳定性。
vSAN的超融合功能
VMware表示,现在已经有超过30000家客户在使用vSAN存储虚拟化层,此次vSAN也进行了升级,支持增强的HCI Mesh。这是一种基于软件的超融合基础设施,让企业组织可以将存储孤岛统一到一个虚拟资源中。
这次更新主要针对那些希望在现有vSAN环境基础上提高资源利用率的客户,让纯计算或者非HCI集群可以远程使用来自数据中心内vSAN集群的存储,从而可以独立次扩展计算或者存储。
“我怎么知道下一个节点是不是计算能力和容量的最有组合?这次升级让可以能够在服务器之间灵活地共享容量,甚至使单个刀片服务器都可以直接访问vSAN存储,”他说,HCI Mesh“打破了可扩展性的限制,让你可以利用任何多余的存储容量。”
这次升级的vSAN 7还添加了新功能,以更好地支持各种物理拓扑,包括集成的分布式资源调度工具,用于了解扩展集群配置,实现更一致的故障恢复,还有vSAN文件服务讲支持扩展集群和双节点集群。
Caswell表示:“如果你将计算转移到另一个位置,通常会遇到性能问题。增强的扩展集群仍然可以保持计算和存储的并存,即使是在故障转移发生的情况下。”此外性能也有所提升,支持直接内存访问,让不同主机在无需CPU干预的情况下访问彼此的内存。
在安全方面,升级的vSphere 7引入了Confidential Containers for vSphere Pods,后者采用AMD硬件功能在虚拟机停止运行时加密所有CPU寄存器的内容。另外一项新功能vSphere Native Key Provider可以提供基本的密钥管理服务器功能,为客户提供开箱即用的加密功能和高级安全功能。
Caswell说,在分布式混合云和新型边缘环境中,“我们可以让不通过任何方式与互联网连接的远程办公环境独立于中央密钥管理系统运行,从而避免了外部密钥管理服务的成本和复杂性。”
升级的vSAN 7还支持vSphere Proactive High Availability,该功能可以将应用状态和存储的数据主动移至另一台主机,以避免在性能降级的硬件上丢失数据。此外数据持久性也有所增强,减少意外故障(例如多个磁盘故障)下宕机和数据丢失的发生。
所有更新现已可用。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面