据IDC预计,到2021年将有75%的企业应用采用人工智能。为了更好地应对这一不断增长的市场,IBM今天推出了一款功能强大的AI优化融合系统——Spectrum AI with Nvidia DGX。
如今市场中有越来越多专门为机器学习量身定制的数据中心平台。今年9月,思科推出了一款人工智能服务器,该服务器配置了8个Nvidia顶级的Tesla V100 GPU。今年早些时候,NetApp和Pure Storage推出采用了Nvidia DGX-1的AI优化平台。
正如其名,Spectrum AI with Nvidia DGX也是基于Nvidia DGX。与思科的服务器一样,DGX-1包括8个Tesla V100 GPU,超过45000个处理核心,其中大约5000个核心被成为Tensor Cores的专用电路,可以很好地运行机器学习模型。
根据Nvidia的说法,这款芯片让DGX-1能够提供超过千万亿次的计算能力。
IBM的新系统将DGX-1与其自己的Elastic Storage Server进行搭配,后者是IBM的一个存储平台,可以提供高达1PB的可用闪存容量,采用IBM Spectrum Scale管理软件。
采用Spectrum Scale的原因有几个,其中最主要的是Spectrum Scale被用于全球最强大的超级计算机Summit。除了能够容纳大量数据外,该软件还提供了广泛的管理功能,其中有一款工具可以让IT团队将环境中的一些记录卸载到公有云上。
此外,Spectrum AI with Nvidia DGX还采用了Nvidia两个月前发布的RAPIDS框架。这是一组可以与主流AI和分析工具一起安装库,让Nvidia的GPU释放更多的计算能力。
据IBM称,Spectrum AI with Nvidia DGX适用于各种规模的项目。企业可以使用一个Elastic Storage Server和少量DGX-1设置Spectrum AI with Nvidia DGX,或者部署多个机架的设备。配备了9个DGX-1设备的一个机架可以提供高达每秒120GB的数据吞吐量,IBM表示这比测试的所有竞争对手解决方案都要多。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。