Nvidia发布了下一代InfiniBand网络平台Nvidia Quantum-2,致力于推动高性能计算的发展。
今天Nvidia在GTC 2021大会上宣布推出了Nvidia Quantum-2(如图),这是一个传输性能达到每秒400GB的InfiniBand网络平台,配置了全新的Nvidia Quantum-2交换机、ConnectX-7网络适配器,以及即将推出的BlueField-3数据处理单元。Nvidia表示,这一组合出色的网络吞吐性能和现金的多租户功能,可同时支持多个用户。
Nvidia的InfiniBand是一种计算机网络通信标准,用于对处理器和I/O设备之间的数据流进行高性能计算,以其高吞吐量和极低的延迟而闻名。
最新一代InfiniBand Quantum-2引入了新的功能,可进一步加速超算中心和提供了高性能计算服务的公有云平台中要求最为苛刻的工作负载。
Nvidia网络高级副总裁Gilad Shainer表示:“当今超级计算中心和公有云的需求正在走向融合,必须应对下一代高性能计算、人工智能和数据分析带来的挑战,提供尽可能高的性能,同时还必须安全地隔离工作负载,响应用户流量的各种需求。现在,Nvidia Quantum-2 InfiniBand实现了现代数据中心的这一愿景。”
Nvidia表示,为了提供所需的性能,Quantum-2 InfiniBand将网络速度提高了1倍,同时将上一代标准可用网络端口的数量增加了2倍,这意味着Quantum-2将性能提升高达3倍,同时将数据中心光纤交换机的需求减少6倍,此外还在大幅降低数据中心功耗的同时,将数据中心空间减少了7%。
这一切都要归功于最新的Nvidia Quantum-2 InfiniBand交换机(如图),该设备的7纳米芯片上容纳了570亿个晶体管,提供多达64个400Gbps端口或128个200Gbps端口。Nvidia表示,将在各种交换机提醒中提供这款交换机,规模最大的配置中最多有2048个端口,是上一代Quantum-1系统的5倍多。
与此同时,Quantum-2还提供了多租户性能隔离方面的好处,可确保一个租户或者一个用户的活动不会受到其他租户在性能上的影响。Nvidia表示,这是通过先进的、基于遥测的拥塞控制系统实现的,可确保有足够的吞吐量可用,无论需求或用户数是否激增。
Quantum-2的另一个亮点是一种独有的SHARPv3网络计算计算,以上一代InfiniBand相比,该技术为AI应用程序提供了高达32倍的加速引擎,不仅如此,还有一个全新的纳秒级精确计时系统,可通过同步分布式应用(例如数据库处理)来减少等待和空闲时间带来的开销,从而提高性能水平。
Nvidia解释说,纳秒计时是一种新功能,可让云数据中心成为电信网络的一部分,并托管软件定义的5G无线电服务。
此次发布时,Quantum-2 InfiniBand设计支持2个网络端点、新的Nvidia ConnectX-7网络接口卡(下图)和即将推出的BlueField-3 DPU。ConnectX-7将于2022年1月打样,据说是由80亿个晶体管组成的,采用了7纳米设计,与上一代ConnectX-6相比,可处理的数据量增加了1倍。BlueField-3 DPU将于5月打样,采用7纳米设计,拥有220亿个晶体管,提供16个64位Arm CPU,用于卸载和隔离数据中心基础设施任务。
Nvidia表示,Quantum-2 InfiniBand交换机现在已经开始从基础设施和系统合作伙伴处供货,包括Atos Computing、DataDirect Networks、戴尔、Excelero、技嘉、HPE、IBM、浪潮、联想、Penguin Computing、超微、WekaIO和Vast Data。
好文章,需要你的鼓励
美光发布新款2600客户端QLC固态硬盘,采用自适应写入技术动态优化缓存,使QLC闪存达到TLC级写入性能。该技术通过顶层SLC缓存处理新写入数据,二级TLC缓存应对SLC满载情况,空闲时将数据迁移至QLC模式。硬盘无DRAM设计,采用Phison四通道控制器和美光276层3D NAND,提供512GB至2TB容量选择,相比竞品QLC和TLC固态硬盘,顺序写入速度提升63%,随机写入速度提升49%。
澳大利亚堪培拉大学研究团队首次发现AI在调试代码时存在"疲劳"现象,调试能力会按指数衰减规律急剧下降。研究提出了调试衰减指数(DDI)评估框架,能预测AI调试的最佳干预时机。通过战略性重启方法,在合适时机让AI重新开始,可显著提升调试成功率而无需额外计算资源,为AI编程工具的优化使用提供了科学指导。
在AMD AI推进大会上,CEO苏姿丰展示了公司在AI硬件和软件方面的显著进展。新一代MI350系列GPU性能提升4倍,高端MI355X在内存、计算吞吐量和性价比方面均优于英伟达B200。公司计划2026年推出Helios机架级平台,ROCm 7推理性能提升3.5倍。尽管在GPU训练、TCO优势等方面表现良好,但在NIMs微服务、企业级GPU市场渗透等领域仍需加强,以进一步缩小与英伟达的差距。
Cohere Labs研究团队提出了一种革命性的多语言AI优化方法,无需重新训练模型即可显著提升非英语语言的表现。通过"多重采样+智能选择"策略,让AI生成多个候选答案后选出最优回应。实验显示该方法让8B参数小模型在多语言任务上挑战大型商业模型,平均性能提升6.8-17.3个百分点,为AI多语言应用开辟了高效可行的新路径。