至顶网服务器频道 10月30日 新闻消息(文/李祥敬):毋庸置疑,我们现在处于一个数据大爆炸的时代,数据无处不在,数据成为企业创新的重要来源。数据影响我们的行为,但是数据价值的实现并不是一蹴而就的,这需要在计算力的支撑下,通过一定的算法来实现。于是,我们看到计算形态的多样化,比如云计算、边缘计算等,还有人工智能技术的流行。
但是问题来了,在传统数据中心是以CPU为中心的,也就是所有的数据都需要被送到CPU,CPU的计算包含了应用的计算、通信的计算、存储的计算等,每一类计算都需要独占的CPU资源、内存资源、网络资源,当我们的数据量越来越大、计算单元越来越多的时候,各项操作就会开始抢占资源,CPU、内存和网络就成为了计算性能的瓶颈,特别是像HPC、机器学习、深度学习、大数据和存储等类型的应用。
在以数据为中心的时代,我们的计算架构也需要变革,由此而诞生了各种新的计算技术,如网络计算(In-Network Computing)、存储计算等。网络计算,是相对于CPU计算而言的。顾名思义,就是利用网络来代替CPU处理某些计算工作,让CPU的计算效率变得更高。通过网络计算不仅可以解决通信瓶颈的问题,还可以将CPU和GPU的资源释放出来,让应用获得更多的计算资源,从整体应用的性能上得以提升。
目前网络计算的研究刚起步不久,但已经有越来越多的科研机构、大学和企业参与到网络计算的研究中来,如美国的橡树岭国家实验室、Sandia国家实验室、Lawrence Livermore国家实验室、俄亥俄州大学、IBM公司和Mellanox公司等,都投入了大量的开发人员来共同研究如何优化CPU计算和网络计算的资源,让应用运行更有效率。
作为端到端的网络设备提供商,Mellanox不光提供InfiniBand和以太网互连解决方案,还将网络计算融入到自身的产品和方案中,实现无缝集成,通过将各种通信相关的计算从CPU卸载到网络中来,提升计算效率,帮助企业应对数据挑战。
Mellanox公司全球市场副总裁Gilad Shainer
Mellanox公司全球市场副总裁Gilad Shainer告诉记者,当前的世界是一个数据时代,如何能更快甚至实时的分析不断增长的数据,直接关系到一个公司新产品和业务的开发,甚至影响到竞争力。“这是一个数据驱动的时代,数据为企业带来创新的力量。而Mellanox交付关键技术去释放数据的价值,为企业带来最快和最智能的数据分析结果。今天我们加速了数据的传输速度,明天我们要实现实时的数据处理。”
Mellanox为业内提供了加快内部设备互连的技术和产品,包括网络适配器、交换机、软件和芯片,这些产品可以加速应用的执行。Mellanox互连解决方案通过低延迟、高吞吐量的强大性能,可以极大地提升数据中心效率,在应用和系统之间快速的传递数据,提升系统可用性。如Mellanox公司的ConnectX系列网卡,可以通过网卡硬件来加速网络的性能;Mellanox公司的Spectrum系列的以太网交接机可以支持更多的VXLAN功能,提供超过其他同类产品10倍以上的性能。
Mellanox的产品线几乎满足了厂商对各种速率的需求,为了保证对端到端连接路径中每一个节点的速度控制,Mellanox实现了在芯片、网卡、交换机甚至线缆等所有产品的全覆盖。在产品多样性上,Mellanox也做足了功课。以交换机为例,Mellanox可以提供包括机顶、机架、机柜式等在内的全系列交换机。除此而外,Mellanox还拥有完整的网管管理软件和一系列应用加速软件来配合硬件完成网络性能的整体提升。
提到Mellanox,在HPC领域几乎无人不知。Mellanox从2001年推出一代InfiniBand产品以来,一直是InfiniBand市场的领导者。Mellanox InfiniBand现已被业界大规模应用,并且在高性能计算和人工智能领域占据了领先的市场份额。
Gilad说,HPC是Mellanox的传统领域,但是现在HPC和AI呈现了融合趋势,人工智能也被Mellanox锁定为今后的重点领域。中国有很多合作伙伴正在使用Mellanox的InfiniBand和以太网高速网络解决方案在实现深度学习或人工智能等技术,包括京东、百度、英伟达、商汤科技、旷世科技、科大讯飞等公司。
如上,Mellanox在高速网络方面的成绩得益于其独特的技术理念和基于这些理念下的诸多独特优势,为业界贡献了十足创新的产品,当然Mellanox并没有满足于此,而在数据时代,积极探索网络计算,赋能更快更智能的数据处理,为企业加速数据价值的实现贡献自己的力量。
目前Mellanox能够提供的网络计算功能主要包括RDMA(Remote Direct Memory Access)技术、SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术、NVMe Over Fabric硬件卸载等;以及面向未来智能云计算中心的网络智能修复功能SHIELD(Self Healing Communication Technology)等先进的功能,可大幅提升云计算中心的整体性能,系统的健壮性和易管理性。
RDMA技术,RDMA(Remote Direct Memory Access,远程直接内存访问)技术直接颠覆了传统的TCP/IP的通信方式,可以直接从网络的传输层将所有的通信相关的计算交由网卡设备来做,不需要CPU参与任何通信计算,甚至在整个通信过程中都不需要和CPU有任何沟通。目前RDMA技术已经被广泛使用到了各种不同的应用当中,如机器学习的各种框架、大数据分析应用、数据库应用、存储应用、HPC应用。
此外,GPU Direct RDMA技术可以直接在GPU内存和远端GPU内存直接建立一个通信通道,直接传输数据,不需要和CPU有任何沟通,既提升了性能,又降低了主机CPU和内存的利用率。这个技术也被广范用到了AI和HPC中,如NCCL2.0、CNTK和TensorFlow就在使用GPU Direct RDMA技术。
SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术,通过SHARP技术可以将CPU在通信计算中的操作卸载到交换机上来,如Reduce、AllReduce、Broadcast、And、Max、SUM、Barrier等等操作。这样既可以让应用获得更多的CPU计算资源来计算,又有效地解决了大量数据需要送往参数服务器带来的网络拥塞问题。在未来,SHARP技术还能将参数服务器的计算工作完全卸载到交换机上来,直接替代参数服务器,用户可以用交换机来做参数服务器,而不必购买价格昂贵的服务器。
在NVMe Over Fabric技术规范里,已经将RDMA定义为默认的传输协议,其原因是NVMe技术的出现,将磁盘访问的速度由原来传统硬盘的毫秒降低到了微秒级,最新的NVMe磁盘可以达到低于10微妙的访问速度,同时NVMe Over Fabric技术也重新改写了传统的存储访问方式,大大简化了存储访问的软件协议栈,提升了从Initiator端到Target端的通信效率,通过网卡硬件直接向NVMe磁盘写数据或从磁盘读取数据,可以在零CPU利用率的情况下达到超过百万次的IOPS,大大提升了NVMe Over Fabric的性能。
随着应用性能的越来越高,要求的通信效率也越来越高,丢包成为应用不可接受的结果,但是网络出故障总是在所难免。SHIELD技术可以通过交换机硬件来在网络中自动处理这种网络故障,自动选择新的路径将后续的数据送到终点,在网管软件采取措施之前已经有新的传输路径,从而大大降低了丢包的次数和时间,可以在上千节点的规模下达到低于1毫秒的丢包时间,应用将不会感知这个链路问题,大大增强了网络的健壮性。
Gilad介绍说,采用SHARP技术,在某些HPC和机器学习应用中可以得到10倍以上的性能提升;采用RDMA和MPI加速技术,可以提升35倍以上的性能;采用SHIELD,可以加快5000倍网络故障的恢复时间;采用GPU Direct RDMA技术,可以在一些HPC和AI应用中得到10倍以上的性能提升。网络计算功能可以在HPC和AI应用中大幅提升数据中心用户的ROI和降低投资成本和运行成本,已经被大量的用户应用在他们的数据中心、计算中心和云计算中心中。Mellanox 200Gb/s和400Gb/s的产品将会在今年年底量产,更多的新技术将会用到新的产品中来,用户可以得到更大收益。
除了以上网络计算功能以外,Mellanox也正在积极开发新的网络计算功能,比如安全计算功能、NVMe Emulation功能等,新的功能将会进一步提升数据中心的性能,给用户带来更大的益处。同时,为了推动网络计算,Mellanox还推出了BlueField系列SoC可编程芯片。该芯片以ARM处理器作为内核,支持Mellanox ConnectX网络卸载加速技术,可以面向NFV(网络功能虚拟化)的数据面进行卸载、实现数据平面和安全平面的隔离、以及闪存阵列的嵌入式存储控制器等等。
Gilad表示,Mellanox推出SoC芯片并不是排斥CPU计算,而是为了加速计算,硬件加速和软件定义结合为用户带来最佳的性能体验。“没有硬件支撑的软件定义是没有意义的,离开了硬件支撑,软件定义不光带不来好处,反而会给企业带来管理上的灾难。”
广泛的生态系统是Mellanox业务发展的重要根基。长期以来,Mellanox一直致力于与产业链各环节的合作与分享。惠普、IBM、戴尔、华为、曙光、浪潮等服务器厂商都集成了Mellanox的网络产品;EMC、IBM、华为等纷纷推出了一系列支持Mellanox网络的存储产品;微软、Redhat、VMware、甲骨文等软件厂商也与Mellanox有很好的集成合作。
Gilad还特别提到了Mellanox在中国市场的投入和成长,Mellanox已经在中国设立了研发中心,将很多关键技术的开发工作放到了中国。同时,Mellanox积极与中国合作伙伴开展合作,在云数据中心市场为用户奉献完善的行业解决方案。
在2018年,Mellanox端到端网络产品已经全线进入了中国政府采购网;Mellanox和华为云签订了战略合作协议,发布了基于200Gb/s InfiniBand HDR网络的华为云高性能云计算解决方案;Mellanox成为阿里云的策略合作伙伴共同打造阿里“可信云2.0”,阿里云使用基于Mellanox BlueField芯片的智能网卡,可以将网络通信时的数据平面和安全平面隔离开来,减少网络攻击者接触用户数据的机会,增加数据的安全性,同时还能通过Offload部分CPU的安全操作,让应用能得到更多的计算资源,提升应用性能;Mellanox也和滕讯云紧密合作,成为腾讯云大带宽、低延迟、高性能网络的重要合作伙伴;Mellanox获颁百度数据中心2018年度 “优秀合作伙伴奖”;同时Mellanox也在ODCC 2018年会上,成功当选为ODCC专家委员会成员,未来将积极参与中国数据中心的建设。
“不管是高速网络还是网络计算,Mellanox提供了端到端的解决方案,释放了所有计算架构的力量,这包括x86、OpenPower、GPU、ARM、FPGA等。基于Mellanox智能互连解决方案,加速了数据中心应用和业务决策流程,为用户提供更好的体验。”Gilad最后说。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。