NVIDIA Omniverse不但能推动科学和工业工作流的发展,还能助力世界上最复杂设施的设计师、建造方和运营商,使其能利用虚拟世界的优势获益。

驱动全球700万座数据中心运行的技术正在发生快速变化。IT组织能够利用最新技术应对数据成倍增长带来的挑战,同时降低运营成本。
数据中心的设计师、建设方和运营商可以利用模拟和数字孪生技术创建高效率、高性能的设施。但构建能够精确描绘AI超级计算设施所有组成部分的数字孪生,是一项庞大且复杂的工程。
NVIDIA Omniverse模拟平台可简化协作式虚拟设计流程,以应对这一挑战。NVIDIA在SC22上进行了Omniverse演示,展示了数据中心的相关开发人员如何利用这一开放的开发平台,来加强复杂的超级计算设施的设计和开发。
Omniverse助力数据中心运营商,首次实现了来自其核心第三方CAD、模拟和监控应用的实时数据输入的汇总,使他们能够实时查看和处理完整的数据集。
该演示展示了Omniverse如何赋能用户充分利用加速计算、模拟,以及与实时监测和AI相连接的、可用于运营的数字孪生,以简化设施设计、加速设施建设与部署,并持续优化运营效果。
该演示还着重展示了数据中心模拟平台——NVIDIA Air。该平台可用于与Omniverse共同模拟数据中心的中枢神经系统——网络。团队可以利用NVIDIA Air,对整个网络堆栈进行建模,能够在上线之前实现网络硬件和软件的自动化与验证。
创建数字孪生,提升设计与模拟水平
在规划和建造最新的AI超级计算机时,NVIDIA从Autodesk Revit、PTC Creo和Trimble SketchUp等第三方行业工具中采集了多个工程CAD数据集,使设计师和工程师能够查看基于通用场景描述(USD)构建的全保真模型,并通过实时协作进行设计迭代。
PATCH MANAGER是一个用于规划网络布线、资产和物理层点对点连接的企业软件应用。通过将PATCH MANAGER连接至Omniverse,可使端口到端口的连接、机架和节点布局以及布线的复杂拓扑结构集成至实时模型中,以让数据中心工程师能够看到模型的全貌及其依赖关系。

工程师们使用用于计算流体力学的软件Cadence 6SigmaDCX来预测气流和热传递。此外,工程师们还可以使用在NVIDIA Modulus中训练的AI代理进行近乎实时的“假设 ”分析,团队可借此模拟复杂的热力和冷却变化并实时查看模拟结果。
NVIDIA Air可以模拟和先验具体的网络拓扑结构,包括协议、监控和自动化等方面。

当数据中心建设完成后,工程师能够将传感器、控制系统和遥测系统连接到Omniverse内构建的数字孪生中,实时监控数据中心运营情况。工程师借助完全同步的数字孪生,可以模拟功率峰值、冷却系统故障等常见的危险情况。运营商可以通过AI的修改建议来优化重要的优先事项,例如提高能效、减少碳足迹等。通过数字孪生,运营商可以在将软件与组件升级部署到实体数据中心之前,对其进行测试和验证。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。