面向创新技术 点存科技与NVIDIA开展新型云服务实践

作者:李祥敬   【原创】   2021-04-15 10:12:34

关键字: NVIDIA

NVIDIA网络事业部以太网产品总监王栋表示,点存科技和NVIDIA对于新一代的产品和技术都有迫切的要求,希望能够构造出新的产品和服务满足用户的要求。双方一拍即合,在分布式GPU Cloud计算方面进行了新型云服务的实践。

近几年异军突起的IPFS分布式存储系统以及新的区块链项目Filecoin正快速发展,越来越多的新兴企业投入到分布式存储领域进行布局。作为一家专注于新型分布式云平台的科技型企业,点存科技自2018年以来一直深耕于分布式存储、区块链和边缘计算领域。

点存科技CEO李浩天告诉记者,当前计算模型正在发生巨大变革,也就是分布式时代的到来。从最初的单机设备到传统的数据中心系统,再到现在主流的基于云的基础构建平台,每一次的模型变革都伴随着信息处理效率和安全性的提高。随着区块链技术和分布式账本技术(DLT)的发展,一种新的模型分布式云平台将成为新的演进方向。

点存科技DC-Cloud平台应运而生

当前计算呈现多元化发展,特别是近年来GPU加速计算得到迅猛发展。李浩天说,在接触客户的过程中,我们发现企业对GPU等算力资源的需求呈现短期性和集中性的特点。

一方面,如果客户采用自建计算资源的模式,那么成本是巨大的。另一方面,在单一机器上,网络训练所需要的时间非常漫长,而借助分布式GPU环境可以提升神经网络训练系统的计算能力。

凭借自身大量的存储和计算资源,点存科技利用分布式网络构建了DC-Cloud分布式云平台,其具备透明性、安全性、可溯源性、降低成本、弹性伸缩等特性,赋能各个行业的转型和创新。

DC-Cloud平台所有的文件采用Merkle DAG格式进行存储,保证隐私性和安全性。同时DC-Clould能够结合IPFS、IPNS、Filecoin等系统运行任何Serverless的Web应用程序。

DC-Cloud基于高性能GPU计算节点提供一站式服务。用户在提交任务后,无需担心计算节点调度、训练环境准备、数据上传下载以及容灾等问题。平台可用于面向AI训练任务、零知识证明外包、科学计算、渲染等业务。

分布式GPU Cloud计算的实现其实面临诸多挑战,比如硬件设施的高成本投入、网络的高要求以及软件层面的资源调度等。为此,点存科技与NVIDIA展开合作,结合NVIDIA在高性能网络、应用加速和计算方面的优势,以及点存科技在IPFS软件和GPU加速平台及系统能力、数据中心运营能力和业务拓展能力等多方面的特色,共同为终端客户提供优质、高效的解决方案。

”NVIDIA在计算和网络加速方面技术精湛,而且在解决方案的实践过程当中也帮我们解决了很多关键性的问题,表现出他们深厚实践的经验,并且还给我们提出了很多建设性的意见,并能持续地优化,精益求精,这给我们留下了很深刻的印象。“李浩天说。

强强合作开展新型云服务的实践

对于双方的合作,NVIDIA网络事业部以太网产品总监王栋表示,点存科技和NVIDIA对于新一代的产品和技术都有迫切的要求,希望能够构造出新的产品和服务满足用户的要求。双方一拍即合,在分布式GPU Cloud计算方面进行了新型云服务的实践。

点存科技的数据中心采用了基于NVIDIA SN系列白盒以太网交换构造的三层五级CLOS架构,IP Fabric形式组网,并使用基于EVPN-VxLAN提供的业务层服务。方案采用了现代数据中心的典型架构,在规划和部署上应用了大量的基于最佳实践的优化技术。

在NOS平台的选择上,点存科技根据自身需求,在白盒平台上使用了NVIDIA Cumulus操作系统。实现了快速部署,有效提高自动化、管理、监控方面的应用水平。

在可视化方面,依托NVIDIA以太网交换机内置的 “What Just Happened” 故障快照技术,点存科技的运维人员可以第一时间发现和定位网络故障,并可以立即获得故障原因,从而提高故障定位和修复速度,显著降低了运维压力。

李浩天说,点存科技对网络的需求是必须要大带宽、低延时、无堵塞、无损网络,这在同行里可能要求是比较高的。经过选型,NVIDIA的产品能满足我们的需要。

在产品选择角度,点存科技最终选择了25G以太网,作为其基础接入的带宽颗粒,100Gb作为其标准的汇聚带宽颗粒。使用了NVIDIA的ConnectX-5系列25G高性能网卡,该款网卡具备支持高性能应用的能力,功能挖掘空间巨大,能够有效满足业务需求。

传统基于TCP的应用,由于受到主机协议栈、TCP协议特性、InCast问题、丢包等问题的制约,导致了主机侧较高的资源消耗和对网络管道较低的利用率。为此,在高性能应用领域,优化对主机协议栈的应用、摆脱传统TCP的流控、拥塞控制机制等技术方向成为了行业热点。

在长期的技术实践中,点存科技对高性能应用中的性能问题有充分的认知,实现应用的RDMA改造就成为应用开发的必然选择。通过RDMA改造,可以使数据穿越操作系统内核,到达网络接口的时间下降到过去的1/30,存储系统吞吐量相对于TCP也有成倍的提升,扩大了竞争优势,构造了技术层面的护城河。

在适配RDMA/RoCE应用方面,NVIDIA提供了从驱动、网卡、交换、网管方面的全线支持,甚至超低误码率的AOC和光模块都为RDMA所需的无损网络带来了贡献。在可部署性方面,NVIDIA网络支持ROCE Over VxLAN技术,从而使RDMA应用有了良好的可部署性,更加适合点存科技的基础设施。NVIDIA在RDMA编程和RoCE组网方面有丰富的产品、经验和案例,这也帮助点存科技快速迁移,从而避免了漫长的摸索过程。

王栋说,从算力、应用一直到底层基础设施,双方对于技术都有很多的考量,这些业界的最佳实践已经被实践证明具备非常好的可维护性、可靠性以及成本优势。同时,我们也在推动新的技术实践。NVIDIA和点存科技也在共同研讨基础设施下一歩演进的方向,这些方向包括:

DPU和存算分离——作为NVIDIA BlueField DPU系列的一部分提供的Mellanox NVMe SNAP技术使客户能够组成远程服务器连接的NVMe Flash存储,并像访问本地存储一样对其进行访问,为客户提供了可组合和灵活的网络闪存,并具备本地SSD性能,管理和软件透明度。

NVMe SNAP技术与BlueField强大的多核ARM处理器以及虚拟交换机和RDMA卸载引擎技术相结合,可以用于加速分布式文件系统、压缩、重复数据删除、大数据、人工智能、负载平衡、安全性和许多其他应用程序。

存储和零信任安全领域的业务加速——NVIDIA ConnectX SmartNIC支持独特的以存储为中心的功能并提供硬件加速器和卸载,以确保主机上有效的CPU利用率。通过利用硬件远程直接内存访问(RDMA/RoCE和NVMe-oF)流量的加速绕过了网络协议栈,释放了CPU以提高工作效率。

过去的安全是边界式ConnectX适配器也可对数据加密、TLS流量等新型进行硬件卸载。在数据安全、零信任安全方面也有多种应用的场景。

定制化开源网络操作系统的适配——NVIDIA提供的基于自研Spectrum ASIC芯片的以太网交换设备,除了具备业界领先的带宽和时延指标外,也具备优异的开放特性。全系列支持开源的SONiC操作系统。SONiC适配会使交换机更加贴近业务和管理需求。同时,NVIDIA提供的硬件和管理软件环境,均可和SONiC适配。便于用户在适合的时候部分或全面转向开源系统。

”从NVIDIA角度讲,万物都可加速。加速不仅仅是网络技术对应用和产品的加速,也体现NVIDIA能够快速地满足像点存科技这样的服务商对终端客户服务要求的加速,例如工程师与客户研发部门紧密合作、开源生态的投入等。“王栋说,”双方展开合作,通过对产品、基础设施共同的设计和规划,实现自动化交付。接下来,双方研发也会紧密合作,持续地沟通,不断找到新的应用场景,引入新技术来构造更好更新的服务。“

李浩天也表示,接下来点存科技会在大规模计算中心和先进网络架构上和NVIDIA有更多的合作,一起探索符合未来业务需求的产品。”未来我们有两个主要方面:第一,分布式存储方向,基于NVIDIA产品和技术,打造超高性能的NVMe的分布式存储平台;第二,AI计算方向,我们可以和NVIDIA合作,打造一个高性价比的AI综合训练推理平台。“

    扫一扫

    分享文章到微信


    北京第二十六维信息技术有限公司(至顶网)版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号
    举报电话:13070156560 举报邮箱:jubao@zhiding.cn 安全联盟认证