近些年,随着“分布式”计算的越来越火热,Scale out分布式应用架构也如雨后春笋般不断涌现,大到Big Data平台架构,小到前端应用App的架构,似乎都要基于Scale out 的架构才算是与时俱进的先进架构。
分布式架构的优势显而易见,一方面,Scale out的架构可以将大的计算任务进行分解,分布到不同的计算节点,这样对每一个计算节点的计算能力要求自然也就下降了;另一方面,Scale out的架构可以在多个节点实现计算负载平衡,任何节点发生宕机都不影响最终结果的达成,换句话说,对每一个计算节点的可靠性要求降低了。那么,Scale out的架构是否真的需要多台小计算量的节点来实现才是最完美的架构呢,让我们来细细剖析什么样的Scale out架构才能最有效的满足分布式计算的特点。
分布式=物理分布 or 逻辑分布?
我们且来看“中国科学技术信息研究所”对于分布式计算的权威定义:“分布式计算是一种新的计算方式。所谓分布式计算就是在两个或多个软件互相共享信息,这些软件既可以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。”从这个定义我们可以看出:首先,分布式计算是定义的软件分布式,也就是逻辑分布式,而非硬件分布式,也就是并不是物理分布式;其次,硬件平台的选择,是要根据实际情况,把程序放在最适合运行它的计算机上。换句话说,分布式架构指的是逻辑分布,而不是一味强调要用多台机器去部署,而是要结合实际情况选择合适的部署架构。
逻辑分布指的是多个逻辑计算节点共同运行同一个计算任务,这些节点可以部署在多个物理节点上,也可以通过虚拟化等方式部署在少量物理节点上,我们把多个逻辑节点部署在一个或少量几个物理节点上的部署方式称之为“逻辑分布,物理集中”。
“逻辑分布,物理集中”的部署方式从软件部署层面来看,是完全的Scale out 架构,再从硬件部署层面看,它又具有集中部署的优势,可以说是结合了分布式和集中式部署的优势,同时又摒弃了两者的缺陷,具有如下优点:
1、高可靠,高容错性。一个节点的系统崩溃不会影响到其他的服务器;
2、高可扩展。可以根据计算能力的需要,增加更多的计算节点或者增加某些节点的性能;
3、灵活性。便于实施,同时支持新应用的快速上线;
4、高性能。由多个节点共同提供计算能力,来满足实际业务需求;
5、易管理,降低运维复杂度。物理集中的部署方式可以减少实际物理机器的数量,降低整体运维复杂度,从而大大降低运维人员的工作量;
6、节能减排。物理机器数量减少了,机柜位置就减少了,耗电量下降了,对于空调的制冷要求降低了,节能减排,实现“绿色数据中心”的需求。
“逻辑分布,物理集中”意味着物理集中部署的机器要承担多个逻辑计算节点,那么这种部署方式对于硬件平台选择的要求:
1、高可靠高稳定。放鸡蛋的篮子减少了,意味着篮子要足够扎实,才能保证鸡蛋的安全。
2、高可扩展。为了满足逻辑节点的Scale out横向增加,那么物理集中的机器就需要具有强大的Scale up纵向扩展能力,能够满足应用节点横向扩展需求。
3、高性能。如果是单纯计算能力的累加,那么实际上物理并没有减少,为了实现更高密度的整合,物理集中部署的机器需要具有强大的性能,以更少的资源来整合更多的计算节点。
4、开放性。我们知道分布式计算往往是基于开放式系统的,这就要求服务器具有强大的开放性,能够兼容商业或开放平台的软件,才能更好支持分布式部署架构。
金融行业大规模负载整合项目实践
某大型金融机构欲建设一个异地灾备数据中心,在应用服务器的灾备架构选择中,客户希望选择一套基础架构用于承接生产数据中心1400余套应用服务器节点,若与生产数据中心保持同样的架构,则灾备数据中心需要200台4路X86服务器通过虚拟化的方式来承载,其需求及困难点大致为:
1、因灾备数据中心需要在生产数据中心不可用时,完全承接生产任务,因此从性能层面看,灾备数据中心应用服务器平台必须具有与生产数据中心一致的处理能力,即相当于200台4路10核X86服务器的处理能力;
2、灾备数据中心与生产数据中心相隔近千公里,其IT人员均在生产中心就职,灾备中心维护力量特别薄弱,若采用200台X86架构,根据2017年ITIC调查统计的各平台计划外宕机时间(参见下图),每年预计会有10%左右的意外宕机时间,维护压力大,灾备中心可能需要通过新增人力才能满足;
3、灾备数据中心机房空间资源吃紧,虽然现阶段可以满足200台服务器的建设需求,但随未来业务发展,灾备数据中心资源瓶颈会日益显现;
针对于此金融机构的灾备数据中心建设需求,在基础架构选型上客户面临两个选择,一是在灾备中心继续沿用现有生产中心基于X86的物理分布式架构,但会面临灾备中心运维力量不足,机房空间紧张,甚至电力不足的问题;二是在灾备中心选择物理集中逻辑分布的架构,在保证处理能力相当的清理下,减少物理服务器的数量,降低维护压力,减少机房空间占用和电力消耗。
在详细了解了LinuxONE的平台特点后,该金融机构立即联合IBM启动了针对LinuxONE的功能和性能测试,一方面验证LinuxONE的整合能力,即同等工作负载下,LinuxONE和X86各自需要的配置,另一方面验证LinuxONE针对于分布式平台的灵活性,如虚机承载能力,瞬时扩展能力等。最后实验证实,两台LinuxONE可以完全承载该金融机构的应用服务器负载,且LinuxONE平台在扩展性和灵活性方面更优。特别是在扩容方面,LinuxONE的瞬时微码激活能力可以秒级提供更多的计算资源,当面临性能瓶颈时,既可以通过增加分布式节点的方式进行扩容,还能够通过增加某个或某些个节点的处理能力进行扩容,在不增加节点的情况下,轻松应对负载高峰。
用户最终选定LinuxONE作为其灾备数据中心应用服务器的承载平台,采用2台LinuxONE作为灾备数据中心应用服务器平台,总共部署1400余个虚机,并纳入已有的ICO云平台进行统一管理,充分展现了LinuxONE强大的整合能力、无与伦比的性能及其广泛的兼容性。
在本次项目建设中,LinuxONE表现出强大的整合能力和性能,同时,LinuxONE拥有业内最强大的可靠性和稳定性,完全契合金融机构“快”和“稳”的双速IT建设需求。
通过采用2台LinuxONE替代200台4路X86的架构,在机房空间、耗电、商用软件许可方面资源节省对比如下:
LinuxONE 大规模负载整合成本分析
LinuxONE单台可提供多达8000个虚机、两百万个容器的能力,从TCO的角度看,通过“逻辑分散,物理集中”的部署方式实现“以一顶百”高密度整合,能够节省大量的电力消耗、机房空间、空调消耗及商用软件License成本,助力实现“绿色数据中心”,能够更加节省整体成本投入。同时,由于服务器数量大大减少了,LinuxONE又都是全冗余架构的高可靠稳定服务器,还能进行全在线微码升级及部件更换,所以运维也都变得开心快乐,不再是劳心劳力的事情,对于运维部门人力吃紧,或者本来就不打算投入太多人力的灾备数据中心,LinuxONE无疑是最优选择。
IT大势,分久必合,合久必分,随着各行业业务种类的增多和业务量的增长,各行业都可能面临服务器数量众多、故障点多、运维压力大、电力消耗大、商用软件合规成本巨大等问题,上文分享了基于LinuxONE实现大规模负载整合的实践经验,谨以此为广大同仁提供参考。
作者:汪莉,12年IT行业从业经验,7年IBM系统事业部工作经历,一直致力于金融行业基础架构研究及项目管理,积累了丰富的金融行业架构经验。目前作为IBM大中华区系统事业部LinuxONE架构师,重点负责金融行业和医疗行业的基础架构设计和技术支持保障。
了解更多 https://www.ibm.com/it-infrastructure/cn-zh/linuxone/home.html
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。
主动型 AI 是人工智能的下一次进化,它不仅能生成内容,还能自主决策和追求目标。这种 AI 可以设定自己的目标,制定策略并根据情况调整方法,实现真正的自主性。它将彻底改变机器与世界的互动方式,为人机协作开启新的可能性,但也带来了透明度和伦理等挑战。