超融合的概念自2012年被提出到现在,经历了6年的时间。其技术已经从最初的以存储的融合为重点,经历过计算、存储、网络的全面融合,到现在,重心落在云计算平台的交付,整个技术趋于成熟。
今天我们有幸邀请到青云QingCloud青立方产品总监廖洋(Lester)老师,请他分享青云在超融合的技术和产品上所做的一些尝试,我们一起来学习超融合的发展现状和未来方向,以及超融合是如何兼顾企业的“敏态”和“稳态”的业务需求的。
遇见未来
未来数据中心的建设战略之超融合
廖洋(Lester Liao),青云QingCloud青立方产品总监。15年IT行业从业经验,专注于存储及云计算产品,对超融合系统、SAN存储、分布式存储系统、虚拟化、云计算等领域有较深入的研究。
目前团队的工作重心主要在青云QingCloud的硬件产品线--“青立方”,包括青立方超融合一体机、青立方对象存储一体机和青立方NeonSAN一体机等。团队涵盖以上产品线的硬件设计、云平台及存储集成、测试与服务等产品技术人员。
作为超融合领域资深的专家,请您简单介绍下超融合技术的发展历程和现状,它主要帮助用户在数据中心建设中解决什么样的问题和痛点,以及其最佳应用场景
超融合(HCI :HyperConverge Infrastructure)最初是借鉴了Google、Facebook等互联网公司的技术,通过产品化的包装,导入到企业级IT市场。2012年美国Nutanix公司提出超融合的概念至今已有6年的时间。
市场上的超融合产品至今也经历了三个阶段的发展。
第一个阶段,融合1.0。重点在存储:以Nutanix为例,其产品刚推向市场的时候主要强调其分布式存储技术。从技术本身来看并没有什么创新,而主要的创新其实是在其部署架构上,即将VMware的虚拟机与分布式存储部署在相同的服务器上。这一阶段的主要价值是帮助用户从传统的集中存储架构切换到以软件定义存储为核心的分布式存储架构,简化了存储管理的复杂性,提高了存储的可扩展及利用率,从而降低了存储成本,并且在某些特定的场景中提供比集中存储更高的性能和可用性。
第二个阶段,融合2.0,重点在于计算、存储、网络的融合,即将数据中心基础架构的三大件——计算、存储、网络实现软件定义,通过软件+通用服务器的方式,在同一个架构里进行交付。这一阶段的主要价值是:简化了用户对IT的管理,从计算、存储、网络三个层面实现横向扩展。
第三个阶段,融合3.0,重点在于云计算平台的交付,实现应用(PaaS、SaaS等企业级应用)的横向扩展。青云QingCloud在2015年发布超融合产品时,就强调超融合不仅是计算、存储、网络等资源层面的问题,还要交付完整的云计算。
在第三个阶段以前,业界普遍认为超融合仅适用于面向互联网、横向扩展的分布式业务,而一些传统应用很难构建在超融合架构上。但是青云QingCloud提供的超融合一体机积累了大量公有云的实践经验,融合了多种创新技术来解决扩展性问题。
在存储层面,青云不仅提供分布式存储(SDS 2.0),也提供NeonSAN共享块存储;
在计算层面,青云不仅提供虚拟主机和容器主机,还提供物理主机,在统一架构上满足应用对基础架构的所有需求;
在应用层面,QingCloud AppCenter能够实现应用的横向扩展。
这也是全模云的概念,即面向企业兼顾“敏态”和“稳态”的需求,为分布式和集中式业务架构进行云端部署提供一体化解决方案。企业用户可以根据自身业务特点灵活选择不同类型的云端资源,构建灵活、敏捷、高效的全模式业务系统,并实现统一管理。
超融合给用户带来的主要价值是什么呢?
降低基础架构复杂度,易于管理;
采用横向扩展方式,易于扩展;
采用通用硬件,可降低成本;
更加适合承载云计算业务,提高了性能;
支持全模云,兼顾企业“敏态”和“稳态”的业务需求。(青云QingCloud独有的价值)
目前市面上比较流行的超融合技术派系及其优缺点分析
第一类是传统IT厂商,他们的产品更关注硬件层面的融合,软件层面一般采用开源技术,缺乏自己的核心技术;
第二类是专注软件定义存储的IT厂商,他们将以往的软件存储方案加上计算,以超融合一体机的形式交付。但是产品成熟度较差,在功能、可扩展性和稳定性上还有待提升;
第三类是云计算厂商,把云计算技术,通过超融合一体机的形式,形成私有云的交付。以青云QingCloud为例,从软件层面来看,不管是公有云、私有云还是混合云,青云QingCloud采用统一的代码、自研的技术,核心代码自主可控。因此无论从需求自定义还是产品更新迭代的能力上,都优于开源软件。从硬件层面,青云QingCloud对底层硬件持开放态度,兼容各种主流硬件,不存在硬件绑定。成熟度、稳定性,自研、定制化,兼容性,技术演进路线清晰。
目前超融合技术涉及到的似乎都是IaaS层面,也就是都只在基础架构上,那么未来会朝着什么方向发展呢,会上升到PaaS层吗?
上面融合3.0里有提到应用层面的扩展,不仅是PaaS,也有SaaS,主要通过QingCloudAppCenter实现。
在IT的管理维护上,数据架构的高可用与安全总是备受关注的两个问题,请您简单介绍下贵公司的超融合产品在实现高可用和数据保护上,都有哪些具体的方案,达到的效果如何?
首先从管理架构上看,青云QingCloud支持计算、存储与管理节点分离的部署模式,从而在高可用和安全性上达到高可靠性。其次是P2P运维机器人系统,能够自动处理各类硬件故障、数据中心级的灾难等。此外,青云的高可用和数据保护可以细致到“卷”的级别,这是很多超融合厂商无法做到的。同时,青云QingCloud支持各种容灾级别,如同步复制、异步复制、同中心三副本、异地副本等,都可以自定义。
在您看来,超融合技术会朝着什么样的方向发展呢? 在贵公司下一步产品在超融合这些方面进行哪些优化?
接下来,青立方超融合一体机将做到更精简的交付。我们现在最小可以做到两台服务器交付,未来从交付规模上会做到更小的集群交付。随着业务规模的不断扩展,能够从1-2台的小规模扩展到上百万台的大集群,或者从易捷版(Express)扩展到高级版、企业版,都是完全平滑的过渡方式。为企业提供从基础的计算虚拟化到企业级的私有云,一条完整通畅的数字化转型路径。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。