随着超融合在国内市场兴起并逐步成为主流,一场针对于IT基础架构的技术变革悄然而至。沿用二十多年的传统IT架构面临着新一代架构的严重冲击。近几年来,面对巨大的市场机遇,超融合厂商也如雨后春笋,不断涌现。企业用户的数字化转型发展得益于超融合架构的创新推动,但同时也面临着如何评测和遴选优质厂商及产品的难题。
这些主流国内外超融合厂商到底有哪些区别?他们产品有何优劣势?到底应该从那几方面去评测超融合架构才能拨开迷雾?本篇文章便要深度对比分析市场各主流超融合和厂商,帮助超融合入门用户全面而深入地理解超融合概念,并能从核心关键方面来了解不同厂商及产品的特点,从而结合企业的情况进行有针对性的评估与选择。
超融合是一种IT基础架构构建方式,其核心思想是使用通用硬件,用软件定义来实现IT基础架构的各项服务,包括:计算,存储,灾备,运维管理等,并且这些服务都在统一的平台上。
超融合概念包含三个要素:
可见超融合是一个概念,而不是一个技术,明确这一点对于理解超融合本身非常重要。不同超融合产品和厂商的区别或差距不在概念本身,而在超融合背后的技术和实现方式。一个简单的类比:“汽车”就是一个概念,字典里的解释是:“通常为四轮的自动车,用于街道和公路运输”。这里至于如果实现这个概念并没有做规定和限制,所以无论是纯电动的特斯拉,福田小卡,高尔夫球车,都是满足上面的定义,但是使用场景和背后的实现,可谓天壤之别。
明白了超融合只是概念,进一步的问题:各厂商超融合产品的实现有哪些不同?这个问题才是选择超融合真正的关注点,展开来有四个子问题:
分布式存储打破数据孤岛
虽说超融合通过软件定义的方式整合了多个IT服务,但其中软件定义存储是基石。这里需要说明一下:池化服务器的本地存储,要求软件定义存储必须是分布式的,且能被虚拟机挂在成虚拟卷使用,不加特殊的说明,超融合平台里的软件定义存储指的是分布式块存储。
没有稳定可靠的分布式块存储,就无法对外提供统一的存储资源抽象,没有统一的抽象,各个服务器的本地存储就是一个个数据孤岛,与传统的单机存储没有区别。所以,讨论超融合平台却不讨论分布式块存储,而避重就轻的展示平台 IT 服务的种类,更甚者竟然用支持IT种类的多少作为超融合的代数标准,基本可以判定是一种“误导”,本质是这类厂商不具备超融合与分布式存储的研发能力。主流核心厂商都无一例外的在分布式块存储上有着核心的竞争力和自主研发能力,比如:Nutanix Acropolis Enterprise Storage(内部之前叫NDFS),VMware VSAN ,SmartX ZBS等都是对应超融合平台里的核心分布式存储。
虚拟化计算同样不可或缺
虚拟化计算是超融合平台另一个不可或缺的服务,有了存储和计算就有了最基本的 IT 基础架构,很多厂商也会一部分网络服务的功能纳入到虚拟化计算。由于Hypervisor的技术相对成熟,无论是闭源的VMware ESXi还是开源的KVM,无论功能还是性能都通过了很多年市场验证。所以虚拟化计算服务在超融合平台上基本集中在VMware产品和基于KVM自研的产品,如:Nutanix的AHV(基于KVM),VMware的vSphere(基于ESXi),SmartX的Elf(基于KVM)等。当然Nutanix和SmartX也同样支持VMware虚拟化计算平台,而且借助其强大的存储服务,整体超融合平台的表现甚至还要优于 VMware。
一个平台管理多个IT服务,运维简化是趋势
随着单个服务器计算能力越来越强,越来越多的IT服务其实都可以通过软件定义的方式来实现,如:灾备服务、全闪存、容器服务、网络服务、安全服务等。
一个平台上有多个IT服务是一种趋势,伴随着革命性的变化就是:传统架构下需要运维管理多个IT平台,在超融合下,一套管理平台就够了,这就为从全新的角度审视IT运维,提供了极大的想象空间。同时,在超融合架构下实现强大好用的统一管理平台,其重要性和优先级也被提升到前所未有的高度。像超融合领导厂商Nutanix,SmartX等,在运维管理平台上都下足了功夫,分别推出了智能强大的管理平台:Nutanix Prism和SmartX Fisheye,极大的提升系统的易用性。
总结一下就是,超融合平台里分布式块存储、虚拟化计算和统一运维管理平台是最小,也是最核心的集合,缺少任何一个都无法称作超融合平台。但随着硬件的发展,更多的服务势必会在超融合平台里实现。
评测超融合产品,关键不是看包含了哪些IT服务,向超融合这个“盒子”里塞更多的IT服务远不如塞进“盒子”IT服务的质量重要。一些厂商借助客户对超融合市场认知的不成熟,会一味的拼超融合平台上服务和功能的数量。通常的做法就是拿开源的项目,如:“OpenStack+开源分布式存储(Ceph/GlusterFS...)” 搭一个功能看似大而全的“超融合平台”快速推向市场。可以看到,几乎没有用户最终能够真正的用起来,原因在于这种拼凑的“超融合”产品往往各个服务组件的质量无法过关,在可靠性,稳定性,性能方面问题多多,加上开源社区基本不在这些 厂商的控制之下,所谓的售后支持形同虚设,很难达到一个产品应该拥有的市场准备度。
服务的核心在于实现它的技术和机制。举一个手机电池的例子,为了实现手机长续航的能力,一家厂商简单的增加电池块的容量,另一家公司采用的是优化手机软件的电池管理算法,即便最后的测试下来都能续航两天,但第一家手机在续航的实现机制上是不如第二家的,因为增加电池块会引起手机发烫,并且有电池爆炸的风险,但这些缺陷无法在测试续航时间这个指标里得以体现。
同样的道理适用于超融合产品。超融合产品比拼最重要的必然是分布式块存储、虚拟化计算、运维管理平台的实现。
重中之重是软件定义存储,它是超融合平台的基石。当前市场里各家超融合平台分布式块存储的实现无非是两个途径:
自主研发,如:Nutanix NDFS,VMware VSAN,SmartX ZBS,华为Fusion Storage;
直接采用开源的分布式存储或在开源基础上小幅改造,如,Ceph,GlusterFS;
开源最大的好处是产品上市的周期可极大的缩短,最大的风险除了存储的稳定性没有保障,还有就是厂商对存储的控制力和维护能力几乎没有,存储系统不比其它系统,守护着企业最重要的数据,一旦发生问题就会陷入束手无策的失控境地,给企业带来的损失是惨重而不可估量。
这里有一个不可忽视的事实,国外知名超融合厂商无一例外的都走了自主研发的道路,也证实了在成熟的市场环境下,用户会理性的选择自主可控且有保障的产品。纵观IT发展的历史,甚至没有一家存储公司,使用开源的存储项目来实现自家的存储产品,并取得产品和商业的成功。再次验证了,存储关乎业务的连续性、数据的可靠性和安全性。没有一家企业客户“敢”把自己的业务托付给不可控的存储产品。
市场上所有的分布式块存储架构基本可以收敛到两种,一种数据放置和分布依赖元数据服务,另一种数据放置和分布依赖一致性哈希。但就分布式块存储本身而言,两种数据架构各有千秋。但在超融合场景上,元数据服务的方式有更多的优势,数据的放置更灵活可控,如:VM数据本地化能缩短I/O路径,大大减少网络流量。采用这种架构的产品有Nutanix NDFS和SmartX ZBS。
其次是虚拟化计算,与存储不同的是,虚拟化的核心技术Hypervisor相对成熟。各超融合产品更多比拼的是虚拟化平台的支持能力。支持多种虚拟化平台意味着更少的厂商绑定的风险。此外,是否支持虚拟化的特殊接口也是很重要的指标,它直接影响使用体验和维护支持,比如:VMware VAAI/VVol,Citrix Ready等。这块比较优秀的国外厂商是Nutanix,几乎支持所有的虚拟化平台;国内厂商SmartX、华为支持除Hyper-v以外的所有虚拟化平台;VMware只支持自家的虚拟化平台,开源超融合方案一般只支持KVM。
KVM作为开源的Hypervisor被很多厂商选用,但各家需要实现自己的虚拟化计算管理平台,除了基本的VM生命周期管理,还至少需要实现企业级常用的功能,如:VM HA、、虚拟分布式交换机、共享盘等。
除了存储和计算,其他IT服务或多或少会依赖以上两类核心服务,比如:容灾和备份依赖存储服务;容器编排依赖计算服务。
除了服务的实现机制,超融合平台有一项特殊的要求:资源消耗要尽可能的小。超融合场景下,消耗大量的资源是绝对不能接受的,每个物理服务器除了运行存储、计算等多个IT服务,还要把剩余的资源分配留给业务应用,IT服务占用资源越大,留给业务应用的资源就越小,甚至挤压到业务无法运行。资源消耗不仅节省TCO的指标,更是影响超融合实用性的重要变量。
以下收集了各厂商分布式块存储产品的资源消耗情况。
服务如何进行整合与管理?
服务整合广义是超融合平台上各服务的结合方式,但业内讨论更多的是存储与虚拟化的整合。大致可以分为三类:
存储服务作为内核模块运行在Hypervisor内部。最典型的代表是VxRail,存储服务VSAN作为ESXi/vSphere 内核模块被整合 。这种架构下存储服务不经过Hypervisor直接访问存储设备,几乎无性能损耗,理论上本地I/O性能可以充分发挥,遗憾的是VSAN的实际性能在超融合产品里并不突出,应该是存储软件的优化相比其它厂商还有差距。这种紧耦合架构存在以下风险:
存储服务运行于Hypervisor上独立的虚拟机里,该虚拟机实际起到虚拟存储设备VSA(Virtual Storage Applicance)的作用,所以也称为控制虚拟机(Nutanix称CVM)或者存储控制虚拟机(SmartX称SCVM)。VSA需要通过Hypervisor访问物理硬件资源,一般为了降低性能的开销,VM会以直通的方式访问硬件资源,如:HDD,SSD,网卡等。这种架构里虚拟化与存储解耦,互不影响,可以独立升级,甚至VSA发生故障不工作,也不会影响该物理节点,通过I/O路由的技术,VSA故障节点上的VM会通过其他正常的VSA访问存储资源。当然,给用户带来的最大收益还有消除了Hypervisor锁定的风险,VSA可以支持多种虚拟化计算平台。 采用这种整合的产品有Nutanix,SmartX Halo for VMware。
存储服务运行在Hypervisor外部,但与Hypervisor隶属于同一个软件栈。这种架构适用于KVM超融合平台。比如,SmartX Halo超融合平台自带的虚拟化平台Elf基于KVM实现,分布式块存储ZBS与Elf都在Halo(SmartX OS) 软件栈上。这种整合的最大优势在于:

由于涉及比传统平台更多的IT服务,超融合更加强调管理平台的重要性和易用性。强大好用的管理平台能大大提升运维效率,降低运维成本,将超融合架构敏捷的特性发挥得淋漓尽致。
超融合厂商产品家的管理平台一览:
一个优秀的超融合管理平台应该涵盖产品从交付到日常运维的方方面面:
超融合依托标准的x86服务器,一般可以是安装了超融合软件的一体机或者是独立的软件授权。当前主流厂商支持的交付方式如下:
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。