2018年10月10日,华为云携手Mellanox今日在华为全联接大会(HC)2018上,发布基于200Gb/s InfiniBand HDR网络的华为云高性能云计算解决方案,华为云也由此成为全球率先支持200Gb/s InfiniBand HDR高速网络的公有云厂家。
Mellanox是全球领先的数据中心高速网络解决方案提供商,在全球范围内为服务器和存储提供端到端InfiniBand和以太网互连解决方案。Mellanox提供网卡、交换机、高速线缆和光模块、软件和芯片,其高速智能网络解决方案可以极大的提升数据中心效率,在应用和应用之间快速的传递数据,从而提升应用的性能。
历经多年的深度合作,Mellanox端到端的网卡、交换机、光模块、线缆等产品现已应用于华为多个产品线,为华为IT基础设施和云计算提供性能业界领先的关键技术支撑。今天,华为云基于200Gb/s InfiniBand HDR网络的高性能云计算解决方案能够为高性能计算(HPC)、人工智能(AI)、云数据中心、金融实时交易等应用场景提供更强有力的性能保证。Mellanox的InfiniBand HDR网络技术除了可以提供高达200Gb/s的带宽和更低的端到端延时之外,更是集成了面向人工智能和高性能计算的网络计算功能,如RDMA(Remote Direct Memory Access)技术、SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)技术、NVMe Over Fabric硬件卸载等;以及面向未来智能云计算中心的网络智能修复功能SHIELD(Self Healing Communication Technology)等先进的功能,可大幅提升云计算中心的整体性能,系统的健壮性和易管理性。
Mellanox InfiniBand HDR交换机,可以在1U的机架空间内拥有40个200Gb/s的交换端口,或者扩展成80个100Gb/s带宽的HDR100端口。此外,Mellanox还提供独特的“Y”型线缆和“H”型线缆,实现一分二(一个200Gb/s HDR端口分成两个100Gb/s HDR100端口)和二对二的功能(2个HDR100端口对应2个HDR100端口),可以帮助客户大大简化网络拓扑架构,减少数据中心成本。
在这次华为全联接大会(HC 2018)上,华为云和Mellanox共同展示了基于InfiniBand HDR的高性能云计算方案,包括弹性云服务器、裸金属服务器、异构计算加速服务器,以及存储并行文件系统等,全方位展现了完整的新型HPC云方案,将为需要高性能云服务的领域带来快速高效、开放安全、更高性价比的服务模式。
华为云大企业项目群总监马麟瑜先生表示:“Mellanox是华为重要的合作伙伴,此次联手发布基于InfiniBand HDR 200G/s的HPC云方案,将为客户提供更高性能的云服务,面向对性能需求日益增长的人工智能市场,高性能计算市场、存储市场等提供一流的产品。华为云也将继续致力于为客户提供卓越的性能和可靠性,并为客户提供更多样、更有竞争力的解决方案。”
Mellanox公司市场部副总裁Gilad Shainer先生表示:“在机器学习、HPC云日益发展的今天,客户们对于网络性能的要求达到了极致。Mellanox InfiniBand HDR 200Gb/s互连方案的高性能、网络计算能力和网络自修复能力,是未来智能云计算中心的关键技术。作为高性能计算(HPC)互连领域的领导者,我们很高兴与华为合作,共同构建前沿的HPC云平台,实现HPC应用在云端的交付,为用户提供面向未来的HPC解决方案。"
好文章,需要你的鼓励
Lumen Technologies对美国网络的数据中心和云连接进行重大升级,在16个高连接城市的70多个第三方数据中心提供高达400Gbps以太网和IP服务。该光纤网络支持客户按需开通服务,几分钟内完成带宽配置,最高可扩展至400Gbps且按使用量付费。升级后的网络能够轻松连接数据中心和云接入点,扩展企业应用,并应对AI和数据密集型需求波动。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
RtBrick研究警告,运营商面临AI和流媒体服务带宽需求"压倒性"风险。调查显示87%运营商预期客户将要求更高宽带速度,但81%承认现有架构无法应对下一波AI和流媒体流量。84%反映客户期望已超越网络能力。尽管91%愿意投资分解式网络,95%计划五年内部署,但仅2%正在实施。主要障碍包括领导层缺乏决策支持、运营转型复杂性和专业技能短缺。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。