全新Microsoft Azure NDv2超大型实例可扩展至数百个互联的NVIDIA Tensor Core GPU,满足复杂的AI和高性能计算应用需求
NVIDIA于今日发布在Microsoft Azure云上的一种新型GPU加速超级计算机。
此次发布的全新NDv2实例是Azure上规模最大的一次部署,该产品专为处理要求苛刻的AI和高性能计算应用而设计,是全球速度最快的超级计算机之一。它能在一个Mellanox InfiniBand后端网络上提供多达800个互联的NVIDIA V100 Tensor Core GPU。这是首次用户可以根据需求,在自己的桌面上租用整台AI超级计算机,而且其性能与那些需要数个月时间才能完成部署的大型本地超级计算机相匹配。
NVIDIA副总裁兼加速计算总经理Ian Buck表示:“此前,只有一些全球性的大型企业和机构才能使用超级计算机进行AI和高性能计算。而这款在Microsoft Azure上推出的新产品实现了AI的大众化,使更多人能够获得基础工具,来解决一些全球最大的挑战。”
微软Azure Compute企业副总裁Girish Bablani补充说:“由于云计算在全球各地呈现增长趋势,客户正在寻求更高性能的服务。此次微软与NVIDIA的合作,能够让用户即时获取超级计算能力,这在以前是无法想象的。可以说,我们开创了一个创新的新时代。”
这款新产品十分适用于复杂的AI、机器学习和高性能计算工作负载。相比基于CPU的传统计算,它具有显著的性能和成本优势。对于需要快速解决方案的AI研究人员来说,它可以快速启动多个NDv2实例,并在短短几小时内完成复杂的会话式AI模型的训练。
此前,微软和NVIDIA的工程师已在该集群的预览版本上使用64个NDv2实例进行了实验。他们用了约三小时完成了BERT会话式AI模型的训练。能够实现这一速度的原因之一是使用了NCCL(一款NVIDIA CUDA X库)提供的多GPU优化以及高速Mellanox互联解决方案。
另一个优点是客户可以使用多个NDv2实例运行复杂的高性能计算工作负载,比如LAMMPS,这是一种流行的分子动力学应用程序,用于在药物开发和探索等领域中模拟原子级物质。相比于一个专用于特定应用程序(如深度学习)的、未使用GPU的 HPC计算节点,单个NDv2实例就能实现高达一个数量级的速度提升。如果需要进行大规模的模拟,还可以将这一性能线性扩展至一百个实例。
所有NDv2实例都能够受益于NVIDIA NGC容器注册表和Azure Marketplace中所提供的TensorFlow、PyTorch和MXNet等GPU优化高性能计算应用、机器学习软件及深度学习框架。该注册表还提供Helm图表,让用户在Kubernetes集群上可以轻松地部署AI软件。
NDv2目前已推出预览版本。一个实例中包含8个NVIDIA V100 GPU,可组成集群,根据不同的工作负载需求进行扩展。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。