VMworld 2020已经落幕。今年的大会发布了众多新产品、新技术和新服务和各种升级。在记者看来,这些众多发布中最引人关注的应该是Project Monterey计划。这是继VMworld 2019的Project Pacific之后又一个可能对数据中心未来的基础架构带来深远影响的计划。
众所周知,Project Pacific孕育出了今天的VMware Tanzu,让VMware实现了虚拟机和容器的统一调度和管理,把VMware从到底该用虚拟机还是容器的争论中彻底解脱出来。而Project Monterey要做的是实现软件硬件的充分解耦,让资源的自由分享,无论其是容器、虚拟机还是物理服务器上的应用,也无论计算资源是CPU、GPU还是FPGA、ASIC。应该说,Project Monterey也是对VMware为任意应用、任意设备、任意云提供可信赖数字基础设施这个承诺的兑现。
“未来大多数的资源都会实现跨基础架构进行分享,内存可以分享,加速器可以分享,FPGA也可以分享,Project Monterey的目的正是如此。” VMware产品与云服务首席运营官Rajiv Ramaswami说。
他说,Project Monterey最终愿景就是实现一个可以完全解耦的基础架构,可以让不同的应用自由地去消费它们所需的基础设施的资源,可以从不同的位置,包括物理服务器上去调取它所需要的内存和其他的资源。
VMware产品与云服务首席运营官Rajiv Ramaswami
Project Monterey要做什么
在解释Project Monterey之前,先看看当前数据中心面临的几个主要挑战。一个是大量云原生应用和5G应用的部署让数据中心内部网络流量大幅增加,而这些网络流量需要CPU来处理,因此消耗了大量的CPU资源;其次,是大量AI应用需要大量计算能力,带来FPGA、GPU等硬件加速器的普及;第三,各种多云和混合云的存在模糊了应用的边界,使得安全面临很大的威胁。
以越来越普及的AI应用为例,AI应用的普及使得越来越多的企业在服务器中部署GPU、FPGA等硬件加速器,这些新的硬件加速器带来挑战。这些硬件加速器成本很高,将加速器限制为仅某些服务器使用是对资源的浪费,而要实现这些加速器的共享会带来操作的复杂性,而且,虚拟环境和物理服务器环境并存也加剧了这种复杂性。
在VMware看来,这些挑战是有办法解决的。挑战一可以通过将网络包的处理下载到智能网卡来完成,从而节省宝贵的CPU资源;挑战二是可以实现资源的解耦,从而动态地访问CPU、GPU、FPGA等资源;挑战三是实现基于硬件的多租户安全和基于零信任网络的隔离。而这一切将要靠Project Monterey来实现。
Project Monterey的关键是用SmartNIC(智能网卡),将部分功能(主要是网络管理和安全功能)放到智能网卡中进行。具体而言,就是会在SmartNIC上运行ESXi(VMware的虚拟化引擎)。根据Project Monterey计划,每个物理服务器上会有两个ESXi同时运行,一个在x86 CPU上,一个在SmartNIC上。因为SmartNIC 中的ESXi可以管理x86操作系统,所以它可以像部署ESXi一样容易地部署Linux或Windows,这是VCF现在可以通过其管理裸机OS的关键。此外,借此VCF也可以为该裸机OS提供存储和网络服务。
而在安全方面,通过将网络安全功能转移到SmartNIC,每个SmartNIC都可以有自己的防火墙,因此可以部署数千个针对特定应用的防火墙,来保护构成该应用的特定服务,从而可以提供全面的应用程序安全功能,而不会影响应用程序性能。
随便提一句,因为大多数SmartNIC都具有基于Arm的处理器,所以VMware会将ESXi移植到Arm,这也是VMware首次表示vSphere要支持Arm。
Project Monterey对数据中心软件架构带来的改变
挑战显而易见
为了推进Project Monterey计划,VMware正在与英特尔、NVIDIA和Pensando Systems等公司合作开发该项目的硬件,并且戴尔、HPE和联想已经承诺提供使用该硬件的集成系统。这些合作伙伴中NVIDIA扮演了非常重要的角色,NVIDIA收购的Mellanox很早就在研究智能网卡。在大会期间,两家公司对外宣布将为基于SmartNIC技术(包括可编程的NVIDIA BlueField-2)的混合云提供架构,将VMware Cloud Foundation和NVIDIA BlueField-2结合,提供专为AI、机器学习、高吞吐量和数据型应用需求而构建的新一代基础设施。
Rajiv Ramaswami 表示,Project Monterey会是从私有云开始的,不过,VMware也跟像AWS和Azure这样的合作伙伴在探讨,未来是否会有类似VMware Cloud on AWS和Azure VMware Solution类似的能力。
“长期而言答案是肯定的,有了这些合作伙伴的支持,我们会从私有云开始逐渐扩展到公有云和混合云,最后会涵盖到所有云。”Rajiv Ramaswami表示。
那么,看起来非常美好的这一切到底何时会实现?Rajiv Ramaswami坦诚,考虑到应用SmartNIC的复杂性,Project Monterey可能需要多年的努力。因为,和之前的Project Pacific相比,Project Monterey可能面临更多的挑战。如果说Project Pacific的重点是软件本身,那么Project Monterey的重点则是软件+硬件。
“首先,要把ESXi放在SmartNIC上运行,其次需要有路由,需要有网络交换,需要确保SmartNIC的安全性,要在SmartNIC上去加密,还有裸机的管理只有把所有这些问题都解决,最后才算成功。因此,这会是一个非常复杂的持续多年的项目。” Rajiv Ramaswami说。
而让事情更复杂的是,不像NSX是运行在服务器和CPU上,实现了标准化,而SmartNIC并没有标准化。
“我们谈过的合作伙伴,包括英特尔、NVIDIA和Pensando Systems都有不同的标准,还有它们的硬件加速器的一些性能和具体功能也不一样的,这样就使问题复杂化了,我们需要为每一个合作伙伴开发定制化的方案。” Rajiv Ramaswami表示。
Rajiv Ramaswami希望,行业最终能够实现API的标准化,这样无论用什么样的SmartNIC都可以有一个标准化的抽象层,然后通过这些API支持上层的应用。今天的vSphere就是这样做的,vSphere跨越所有的服务器的基础架构就是靠这样的抽象层。
显然,VMware对于Project Monterey的长期性和复杂性都有所准备,也许Project Monterey很可能不会像Project Pacific那么快就有结果,考虑Project Monterey承诺的愿景,这种等待也是值得的。让我们共同期待Project Monterey!
好文章,需要你的鼓励
研究人员正探索AI能否预测昏迷患者的医疗意愿,帮助医生做出生死决策。华盛顿大学研究员Ahmad正推进首个AI代理人试点项目,通过分析患者医疗数据预测其偏好。虽然准确率可达三分之二,但专家担心AI无法捕捉患者价值观的复杂性和动态变化。医生强调AI只能作为辅助工具,不应替代人类代理人,因为生死决策依赖具体情境且充满伦理挑战。
哥伦比亚大学研究团队开发了MathBode动态诊断工具,通过让数学题参数按正弦波变化来测试AI的动态推理能力。研究发现传统静态测试掩盖了AI的重要缺陷:几乎所有模型都表现出低通滤波特征和相位滞后现象,即在处理快速变化时会出现失真和延迟。该方法覆盖五个数学家族的测试,为AI模型选择和部署提供了新的评估维度。
麻省理工学院研究发现过度依赖AI会导致认知债务,削弱基本思维能力。研究表明交替进行无辅助思考和AI支持工作的模式能保持认知敏锐度。这种认知高强度间歇训练模仿体能训练中的HIIT模式,通过短时间高强度思考与恢复期交替进行,可以强化大脑神经回路,防止认知衰退,提升独立思考能力。
这项研究首次发现AI推理模型存在"雪球效应"问题——推理过程中的小错误会逐步放大,导致AI要么给出危险回答,要么过度拒绝正常请求。研究团队提出AdvChain方法,通过训练AI学习"错误-纠正"过程来获得自我纠错能力。实验显示该方法显著提升了AI的安全性和实用性,用1000个样本达到了传统方法15000个样本的效果,为AI安全训练开辟了新方向。