当前,以AI为代表的数字化技术正在驱动各行各行业的业务重塑。比如制造业通过AI提高产品良品率、金融业采用AI优化用户体验、物流业通过AI提升运输效率、医疗业通过AI提高诊断结果正确率等。之所以AI能够帮助行业客户增强市场表现和竞争力,主要在于AI帮助企业实现了数据驱动的业务发展。
分析数据显示,全球2000家跨国公司中,67%的CEO已将数字化确定为公司战略的核心。数字化过程中产生大量的数据,使用AI从海量数据中挖掘智慧成为共同的选择。华为GIV(Global Industry Vision)预测,到2025年企业对AI的采用率将达到86%,AI成为企业重塑商业模式、提升客户体验和开创未来的关键推动力。
同时,AI也正驱动着ICT架构的变革。在数据化转型驱动下,企业IT基础设施需要具有优异的计算、存储和网络性能。计算与存储指标依赖于硬件的发展,存储介质从传统硬盘变成固态硬盘,时延降低了100倍,处理数据的CPU变成GPU甚至专用的AI芯片,计算性能提升了100倍。
在计算和存储性能得到提升的同时,网络通信正在成为企业ICT架构的瓶颈,通信协议的演进、应用架构的变化均呼吁网络的变革。针对这样的情况,由华为CloudEngine系列数据中心交换机组建,华为称为AI Fabric智能无损数据中心网络的方案,可帮助企业构建与传统以太网兼容的RDMA(Remote Direct Memory Access,即远程直接数据存取)网络,为数据中心带来零丢包、低时延和高吞吐的极致性能。特别是CloudEngine系列数据中心交换机通过搭载华为昇腾AI芯片以及iLossless智能无损交换算法,实现更智能的调度和无损的转发。
自2012年CloudEngine 12800发布后,华为数据中心网络产品在市场一路走高,2013年华为成为增长最快的数据中心网络厂商;2014年年增长率达137%;2015年华为成为唯一进入全球SDN领导者行列的中国厂商;2016年中国区市场份额第一,全球份额第三;2017年迈入Gartner数据中心网络魔力象限的挑战者象限;2018年迈入数据中心SDN网络硬件厂商领导者行列。
AI时代的到来,数据中心网络性能成为重要挑战。传统以太网千分之一的丢包率,将导致数据中心的AI算力只能发挥50%;同时,大数据时代现有100GE为主的数据中心网络已无法支撑数字洪水的挑战;另外,随着数据中心服务器规模的增加,以及计算网络、存储网络和数据网络三网融合,传统人工运维手段已难以为继,亟需引入创新的技术提升智能化运维的能力。
面对挑战,华为首次给CloudEngine系列数据中心交换机装上了智慧的“芯”,并独创了iLossless智能无损算法。在首款面向AI时代的数据中心交换机CloudEngine 16800,华为定义了AI时代数据中心交换机的三大特征,创新性地引入AI技术,普惠AI助力客户加速智能化转型。
众所周知,华为在AI芯片的投入是巨大的和持续的。在全联接大会2018上,华为发布了自研云端AI芯片“昇腾(Ascend )”系列。昇腾作为华为全栈全场景AI解决方案的关键部分, 是华为全面AI战略的重要支撑。在设计方面,突破了人工智能芯片设计的功耗、算力等约束,实现了能效比的大幅提升。未来将为平安城市、自动驾驶、云业务和IT智能、智能制造、机器人、便携机、智能手机、智能手表等应用场景提供全新的解决方案。
昇腾采用华为自研达芬奇架构,使用了华为自研的高效灵活CISC指令集,每个AI核心可以在1个周期内完成4096次MAC计算,集成了张量、矢量、标量等多种运算单元,支持多种混合精度计算,支持训练及推理两种场景的数据精度运算。昇腾的统一架构可以适配多种场景,功耗范围从几十毫瓦到几百瓦,弹性多核堆叠,可在多种场景下提供最优能耗比。
在CloudEngine 16800中,华为就将昇腾AI芯片“融入其中”。借助独创的iLossLess智能无损交换算法,CloudEngine 16800“软硬结合”实现流量模型自适应自优化,从而在零丢包基础上获得更低时延和更高吞吐的网络性能,克服传统以太网丢包导致的算力损失,将AI算力从50%提升到100%,数据存储IOPS(Input/Output Operations Per Second)性能提升30%。
CloudEngine 16800全面升级了硬件交换平台,在正交架构基础上,突破超高速信号传输、超强散热、高效供电等多项技术难题,使得单槽位可提供业界最高密度48端口400GE线卡,单机提供业界最大的768端口400GE交换容量,交换能力高达业界平均的5倍,满足AI时代流量倍增需求。同时,单比特功耗下降50%,更绿色节能。
提升智能运维水平和网络故障修复效率是CloudEngine 16800承继华为推动的意图驱动的智简网络(IDN)的理念延伸,从而使能自动驾驶网络加速到来。
得益于AI芯片,CloudEngine 16800可大幅度提升“网络边缘”即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力;并且,通过本地智能结合集中的FabricInsight网络分析器,构建分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位;此外,基于iNetOps智能运维算法,华为提供了超过72种典型故障秒级根因分析的能力,使故障自动定位率达到90%。
除了以上三大特征,在CloudEngine 16800的设计中,通过SuperFast超高速互联、SuperPower高效供电、SuperCooling超强散热等黑科技,华为突破了多项技术难题,以支持数据中心网络超高密度及其演进能力,并显著降低了数据中心能耗。
所以,依靠独有的AI芯片以及算法能力,CloudEngine 16800更加智能。同时,在硬件设计上的创新,也让CloudEngine 16800具备更多“看点”。这些都是华为持续研发创新的成果,必将开启CloudEngine 16800的另一个创奇。
如果说以上的特征是华为帮助行业应对AI网络挑战的回应,那么来自权威机构的测试验证则为企业吃了一个“定心丸”!华为AI Fabric智能无损数据中心网络解决方案通过了两大权威测试机构的层层测试,证明了AI Fabric的实力。
欧洲高级网络测试中心(EANTC)被全世界公认为全球领先的电信技术独立测试中心之一。华为委托EANTC,验证了华为AI Fabric解决方案的网络性能。在EANTC,采用业界公认的Intel MPI基准测试验证华为AI Fabric解决方案的数据转发能力。为了评估其转发效率,EANTC对相同组件启用和不启用ECN两种场景进行对比测试。作为一个关键的性能指标,EANTC对启用动态ECN后数据转发时延是否会降低进行了验证。
经测试,Intel MPI基准测试场景下,华为AI Fabric解决方案可不同程度地降低数据包传输时延:小数据包的时延降低了0.2%,超大数据包的时延降低了44%。
对于数据中心来说,网络的可靠性至关重要。EANTC对网络收敛性进行了测试以验证华为AI Fabric解决方案在运行HPC应用时从网络链路故障恢复的能力。此外,为了验证华为AI Fabric解决方案在优化后的网络基础设施上是否能够高效地传输文件,EANTC还进行了分布式文件系统(DFS)的基准测试。
经过测试,在分布式文件系统(DFS)场景下,对于I/O深度值较大的消息,华为AI Fabric解决方案可使时延降低多达15%。此外,华为AI Fabric解决方案成功实现100GE和25GE智能网卡以及Leaf和Spine交换机的集成。
随着SSD技术的发展,存储性能已经达到甚至超过网络速度。EANTC验证了华为AI Fabric在这种情况下的表现。通过基于融合以太网的RDMA(RoCE)和显式拥塞通知(ECN)两种高级实现,华为AI Fabric解决方案实现无损、弹性传输。
RoCE是RDMA over Converged Ethernet的简称,是一种允许通过以太网使用远程直接内存访问(RDMA)的网络协议。RDMA可绕过CPU和其他计算组件直接将网络数据传输到内存中,不需要进行拷贝,从而提高效率。基于标准以太网的IP/UDP消息传递的一个主要架构问题是业务承载需要对报文进行排队。一旦队列溢出,报文最后会被丢弃。在这种情况下,上层应用需要重新传输被丢弃的报文,导致性能下降。华为AI Fabric解决方案使用ECN优化排队行为、降低时延以及最大程度地减少传输过程中IP报文的丢弃。EANTC对该解决方案进行了验证。
除了成功通过EANTC数据中心高性能测试,华为还委托Tolly在三大应用场景(高性能计算HPC、分布式AI训练、分布式存储)中,对华为AI Fabric解决方案进行性能评估,并与思科Nexus交换机组网的性能进行了对比。华为和思科的方案均基于RDMA over Converged Ethernet(RoCEv2)。在所有三大场景中,华为AI Fabric解决方案的性能均优于思科。
本次测试,Tolly针对华为CloudEngine和业界其他主流厂商的数据中心交换机组网方案,选取AI时代数据中心的高性能计算(HPC)、人工智能/机器学习(AI/ML)和分布式存储三大典型应用场景,在全100GE和100GE/25GE相同Spine-leaf组网环境下,进行了IMB(Intel MPI Benchmark)模型、TensorFlow模型和吞吐率、丢包率及时延等性能指标的全面对比测试评估。经过严格测试证明,华为AI Fabric全面领先,性能平均高出30%左右。
通过以上两大权威组织的测试,我们看到基于CloudEngine的华为AI Fabric解决方案在实现AI网络方面是“名不虚传”的,可以帮助企业构建应对AI时代挑战的网络架构。
万物互联的智能世界正加速到来,数据中心也正在从云时代向AI时代演进,成为5G、人工智能等新型基础设施的核心。作为云数据中心网络建设的领导者之一,华为数据中心网络已在全球7800多家企业成功商用,助力金融、互联网、运营商等行业客户数字化转型。
华为CloudEngine数据中心交换机和AI Fabric智能无损数据中心网络方案适用于分布式存储、高性能计算(HPC)和AI应用等场景,依靠的独创的AI芯片和iLossLess智能无损交换算法,解决了当前以太网易丢包,吞吐率低的难题,引领数据中心网络迈入AI时代,匹配AI业务的快速普及,助力客户加速实现智能化转型。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。