Nvidia正在通过自己的超现实物理模拟和协作产品Omniverse持续推动工业虚拟世界的边界。工业元宇宙是一个与真实世界平行的虚拟空间,在其中模拟真实的物理资产。
近日,Nvidia在针对开发者在线举行的GTC 2022大会期间,宣布推出了Omniverse Cloud,一种基于云的综合软件即服务解决方案,供艺术家、开发人员和企业团队使用Omniverse,在任何地方都可以设计、发布和运营元宇宙应用。
Omniverse是一个实时协作和模拟平台,可实现对世界的大规模真实再现。设计师和工程师团队使用该平台可以重新创建和模拟汽车、飞机、建筑物、工厂等,一个引擎或者是一座工厂的所有部件都可以设计成可以完全实时地模拟物理实体,可以像现实环境中一样做出各种反应。
这被称为“数字孪生”,是一种真实空间和物体的完全虚拟孪生,是工业元宇宙的一个组成部分。因此,通过对数字孪生进行迭代、更改和试验,就可以了解在现实世界中进行高成本的更改之前可能会发生什么。
不管是个人还是团队,使用Omniverse Cloud将能够围绕工作流程展开设计和协作,而无需本地计算能力。
Nvidia创始人、首席执行官黄仁勋表示:“元宇宙,3D互联网,连接了Universal Scene Description中虚拟3D世界,并通过模拟引擎进行查看。我们借助云中的Omniverse,可以连接全球团队来设计、构建和运营虚拟世界和数字孪生。”
Omniverse Cloud运行在Nvidia数据中心内专门设计的云计算架构上,硬件负责运行用于图形和模拟的Nvidia OVX架构,Nvidia HGX服务器用于运行高级AI工作负载。Omniverse Cloud采用了Nvidia Graphics Delivery Network,一个全球规模的分布式数据中心网络,用于交付从Nvidia基于云的视频游戏流媒体服务GeForce Now体验中积累的低延迟元宇宙内容。
让数字孪生在现实世界中发挥作用
数字孪生的强大之处在于,它可以非常精确地在元宇宙中模拟现实世界,就像是在虚拟世界中进行测试和可视化并结合物理世界的最终确定性一样。
零售巨头Lowe's为他们的员工提供了Nvidia Omniverse Enterprise和AR眼镜,就像是让他们具备了X光一般的视觉,例如以前员工为了要看清高处盒子上的小标签,就得爬上梯子才能看到,而有了数字孪生和AR眼镜,他们只需抬起头,眼镜上就可以显示出那个位置商品有关的数据。
员工还可以通过将数字孪生的AI全息图与当前货架上的商品进行比较,通过眼镜查看货架上的库存是否准确——例如货架上是否放错了商品,或者货架上的商品不够了,然后进行纠正和补充。
Lowe's首席数字和信息官Seemantini Godbole表示:“我们借助Nvidia Omniverse以前所未有的方式将数据整合在一起,赋予我们员工一种超能力。”
在门店管理方面它更进了一步,通过数字孪生和AI商店规划工具可以优化顾客的体验,先是检查购物者同时购买的商品,然后,将这些商品放置在靠近的位置,查看顾客步行流量的3D热图,这样员工把商品摆放得更靠近一些,以减少顾客挑选这些商品所需的步数。
Nvidia还宣布与德国铁路运营商Deutsche Bahn的数字部门Digitale Schiene Deutschland展开合作,该部门开始在不建造新轨道的情况下扩大网络容量,这就需要一个安全的自动化列车系统,让列车彼此之间的距离更短,以及涉及建立第一个国家级的轨道网络数字孪生模拟。
由于这涉及到对整个轨道系统进行逼真且物理上精确的模拟,所以是一项非常艰巨的任务,不仅如此,还包括穿过城市和乡村的各种轨道,以及来自包括站台测量和车辆传感器在内的许多来源的数据。
把整个网络的数字孪生嵌入到Omniverse中,Omniverse与真实的铁路网络同时运行,实时输入相同的数据,这样就能够利用AI来监控传感器和其他数据,通过模拟来防止事故发生。
德国铁路公司旗下DB Netz的Lead Perception Group的Ruben Schilling说:“借助Nvidia技术,我们能够开始实现全自动列车网络这一愿景。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。