Nvidia宣布与高性能计算初创公司Rescale展开合作,简化在公有云基础设施上运行人工智能应用的任务。

此次双方的合作伙伴关系包括几个部分,其中Rescale将把自己的技术与Nvidia的几个人工智能开发和部署工具集成在一起。此外,Rescale正在推出一种软件功能,可以自动优化企业人工智能应用环境的成本和性能。
总部位于美国旧金山的Rescale已经获得了来自Nvidia、微软和其他一些知名投资者超过1.5亿美元的资金支持,它提供的软件平台可以更轻松地在云中运行高性能计算应用。高性能计算应用是一种硬件密集型应用,例如用于支持研究和工程项目的物理模拟器。
Rescale的Rescale平台可以自动执行在云基础设施上部署高性能计算软件所涉及的大部分手动工,还可以执行应用保护等相关任务。
Resale公司首席产品官Edward Hsu在新闻发布会上说:“我们正在从我所说的基于直觉的工程转向更科学的模型。”
Hsu举了几个例子来说明这项工作。例如,一家机翼设计公司过去必须提出设计并在风洞中进行测试,这是一个漫长且成本极高的过程。他说,这家公司可以在不使用风洞的情况下,在Rescale的平台上模拟20到30种翼型设计,而且现在借助Nvidia的新功能,他们可以进行所有这些实验并使用人工智能和机器学习来确定哪个是适合当前目标的。
Rescale还在功能集中提供了预打包高性能计算应用的目录。客户无需大量手动操作即可部署应用。Rescale还通过这次与Nvidia的合作,向软件目录中增加了对Nvidia几种AI工具的支持。
首先是Nvidia AI Enterprise平台,这个集合中包含了十多款软件工具,旨在简化构建、部署和维护神经网络的任务。
Nvidia AI Enterprise平台中的一些工具专注于简化Nvidia AI软件云基础设施的管理过程,还可以优化神经网络以更有效地使用Nvidia芯片。为了简化开发人员的工作,Nvidia还在其中提供了软件构建块,可以更轻松地为机器人等场景创建AI应用。
除了Nvidia AI Enterprise,Rescale将在自己的平台上支持其他很多Nvidia的软件工具。
其中一个工具是Nvidia Base Command Platform,研究人员通过这个界面可以协调训练新神经网络的过程,此外还有Nvidia Modulus软件,该软件可以更轻松地构建用于执行涉及物理计算研究和工程任务的神经网络。
Nvidia公司创始人、首席执行官黄仁勋表示:“物理机器学习人工智能模型融合了原则性和数据驱动的方法,让我们能够以比以往任何时候都高出许多数量级的速度和规模探索我们的设计空间。Rescale则处于这些主要趋势的交汇处。Nvidia的加速计算和AI计算平台是对Rescale的完美补充,有助于推进工业科学计算。”
除了扩大对Nvidia软件的支持之外,此次Rescale还推出了一款名为Compute Recommendation Engine(CRE)的新工具,在帮助公司优化运行人工智能和高性能计算应用的云环境。
据Rescale称,CRE工具将硬件成本最小化,对于把哪些基础设施资源添加到云环境中进行优化。而且,该工具能够配置基础设施资源以最大限度地提高性能,企业组织可以根据自己的要求定制CRE平衡成本效益和绩效的方式。
Rescale公司创始人、首席执行官Joris Poort表示:“我们独特的为云而构建的方法,让我们能够为全球任何云上的任何工作负载按需地提供最佳的加速计算性能,我们与Nvidia的合作,将为我们的工业高性能计算客户带来强大的AI新功能。”
Rescale表示,企业组织依赖他们的平台进行医学研究、飞机开发和芯片设计。而且,Rescale利通过从1亿多个高性能计算工作负载中收集元数据,开发了新的CRE基础设施优化工具。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。