科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道 Mellanox解决方案

Mellanox解决方案

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Mellanox公司(NASDAQ: MLNX)是一家世界领先的面向服务器、存储和超融合系统的以太网和InfiniBand端到端智能网络产品的提供商

来源:业界供稿  2018-11-24 14:56:32

关键字:

  • 评论
  • 分享微博
  • 分享邮件

公司名称: Mellanox

公司介绍:

Mellanox公司(NASDAQ: MLNX)是一家世界领先的面向服务器、存储和超融合系统的以太网和InfiniBand端到端智能网络产品的提供商,通过提供高带宽、低延迟和各种先进的网络加速功能,Mellanox智能网络产品可以让数据中心中的数据移动更快捷,让应用得到更高的性能。Mellanox的智能网络产品包括网络设备芯片、卡、交换机、线缆、光模块、基于SOC的智能网卡以及各种应用加速软件,可以加速各种应用提升用户的投资回报率。目标市场包括高性能计算、人工智能、数据中心、企业级客户、云计算、存储、网络安全、电信及金融等各个行业。

解决方案介绍:

高性能计算和人工智能解决方案

Mellanox高性能智能网络端到端解决方案可以实现在数据传输的过程中进行计算(网络计算),通过和CPU和GPU的协同计算,解决目前数据中心、计算中心和云计算中心由于通信模式而产生的网络和计算瓶颈问题,大幅提升系统的整体应用性能。如RDMA技术、GPU Direct RDMA技术和SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术、NVMe Over Fabric Target Offload技术等共同构成了网络计算的核心。

Mellanox和IBM、Nvidia一起合作共同为美国橡树岭国家实验室构建的Summit CORAL超级计算机,是目前世界上最快的超级计算机以及人工智能机器。在这个机器中,用到了IBM Power 9 CPU、Mellanox EDR InfiniBand智能端到端网络和Nvidia GPU,可以达到187PetaFlops的峰值计算性能。在这台机器中,就用到了网络计算技术,通过网络计算 + CPU计算 + GPU计算的整合,可以最优化地利用所有的资源,减少计算和通信的瓶颈,实现了最高的效率。

Mellanox ConnectX-5 and ConnectX-6系列全面支持PCIe Gen4与Power9 CPU 互联,可提供高达200Gb/s的网络吞吐量。Mellanox 作为OpenCAPI组织的核心成员之一,一直关注CAPI(Coherent Acceleration Processor Interface)技术在网络层面的应用和优化。数据处理已经成为数据中心的核心,越来越多的应用已经不满足于单台服务器性能的提升,如何提升整体数据中心集群的性能至关重要。CAPI的高性能可以让服务器性能最大化,CAPI+ Mellanox的网络计算技术可以让数据中心的性能最大化。服务器总线技术和网络技术能做最佳整合,实现数据中心性能最大化。

Mellanox的全新智能网卡Innova2集成了ConnectX-5和FPGA可编程加速器功能,支持基于Power9芯片的CAPI2.0及OpenCAPI接口,其数据传输带宽分别可达16GB/s和25GB/s。在异构计算领域提供了更好的计算性能和成本优势方案。

解决方案优势/带给客户的好处:

Summit CORAL超级计算机相比较橡树岭国家实验室的前一台机器Titan来言,性能提升了5到10倍,节点数降低到了四分之一,单节点性能提升了越30倍,网络通信带宽提升了14倍,延迟降低到了十五分之一,Barrier延迟降到了二十三分之一,总体功耗仅提高了50%。 

在Summit CORAL的设计中,每台服务器采用了2颗Power 9 CPU、6颗Nvidia V100 GPU和两片EDR InfiniBand网卡,通过Mellanox独特的Socket Direct技术实现了两个CPU和6个GPU共享一片EDR卡,两片卡可以同时工作在Active和Active状态,实现了性能和冗余的双保险。同时在网络拓扑上使用了传统的Fat-Tree拓扑,实现了全网络的冗余。

为了提升这台系统的性能,用到了网络计算中的GPU Direct RDMA技术和SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术,GPU和GPU在通信的时候有直接的通道,不需要和CPU有任何沟通,在通信过程中的Collective相关操作,有交换机代替了CPU来操作,解决了Collective相关操作带来的网络瓶颈问题,同时CPU得到了更多的资源来做计算。为了提升整体系统的健壮性,用到了动态路由技术和SHIELD(Self-Healing Technology)技术,数据可以根据网络的拥塞状况自动调整路径,或者遇到链路问题的时候自动改变路径,大大降低了网络问题对于应用的影响。

解决方案使用场景和案例:

CORAL超级计算机和人工智能系统主要面向科学技术可人工智能两个市场,并不是针对特定的市场,可以被设计成各种规模来满足不同应用的需求。

Innova2智能网卡在网络数据安全,流量分析等方面提供了更好的异构方案。使主机CPU可以更专注于应用处理,提升整机性能。同时OpenCAPI技术有助于缩短流量处理过程中和FPGA和CPU交互数据的延迟,非常适用于数据监控内容实时性要求很高的流量分析场景。

 

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    相关文章
    最新文章