元宇宙,当下炙手可热的话题。实现物理世界和虚拟世界的融合成为业界的关注焦点。
在近日举行的NVIDIA GTC线上大会上,NVIDIA创始人兼首席执行官黄仁勋为我们带了NVIDIA Omniverse Avatar和NVIDIA Omniverse Replicator等多项最新发布和演示,并展示了用于3D工作流程的虚拟世界模拟和协作平台 —— NVIDIA Omniverse,以及Omniverse是如何将NVIDIA的各项技术相结合。
Omniverse更新看过来
Omniverse平台是物理级准确的3D虚拟世界的“连接件”,将拥有AR、VR和多GPU渲染等新功能,并集成基础设施和工业孪生应用程序与Bentley Systems和Esri的软件。
Omniverse支持工程师和设计师为建筑和产品构建物理级准确的数字孪生,或者创建大规模的逼真仿真环境,以便在现实世界中部署机器人或自动驾驶汽车之前对其进行训练。
自去年12月发布Omniverse公测版以来,已有500家公司的70000多个创作者下载。此外,还有700多家公司的专业人士使用。这些公司包括宝马集团、CannonDesign、Epigraph、Ericsson、建筑公司 HKS 和 KPF、Lockheed Martin以及Sony Pictures Animation。
Omniverse的目标是面向4000万的3D设计人员,NVIDIA Omniverse生态系统随新的扩展程序和Omniverse Connector 继续增长。
众所周知,Omniverse可以模拟仓库、工厂、物理和生物系统、5G边缘、机器人、自动驾驶汽车,甚至是虚拟形象的数字孪生,创建全新3D世界,或对物理世界进行建模。
例如NVIDIA宣布了针对数字孪生的开放框架Modulus,并将建立一个数字孪生来模拟和预测气候变化。该数字孪生名为Earth Two,简称E-2。
此外,Omniverse更新的新功能还包括NVIDIA CloudXR、Omniverse VR、Omniverse Remote、Omniverse Farm、Omniverse Showroom等。
打通各个产品线
Omniverse正在日益茁壮成长,NVIDIA发布了Omniverse Avatar,致力于助力开发者使用Omniverse创建交互式角色,并使此角色具备视觉和语言能力,能够就各类主题进行交谈,并理解自然语言中的深层含义。
Omniverse Avatar能够连接NVIDIA在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术。在该平台上创建的虚拟化身是具有光线追踪3D图像效果的交互式角色,可以看到、说话、谈论各种主题,以及合理地理解表达意图。
Omniverse Avatar为AI助手的创建开辟了道路,而且可以根据各个行业的需求轻松定制。AI助手可以帮助处理数十亿次日常客户服务互动,比如餐厅订单,银行交易,个人预约和预订等,带来更多商机并提升客户满意度。
NVIDIA还展示了用于客户支持的Project Tokkio、用于永久在线车载智能服务的NVIDIA DRIVE Concierge以及用于视频会议的Project Maxine。
真实世界数据是昂贵、费力、需要人工标记的,它容易出错且不完整。
为了帮助开发者创建训练AI所需的海量数据,NVIDIA发布了Omniverse Replicator——一款用于训练深度神经网络的合成数据生成引擎。
该引擎能够创建大量、多样化的精确物理数据以满足自动驾驶汽车和机器人开发者的需求。它还能生成人类难以或无法标记的真值数据,如速度、深度、被遮挡的物体、恶劣的天气条件、追踪各传感器上的物体移动等。
笔者注意到此次Omniverse更加注重与其他产品线的打通,为此NVIDIA开发了两款Replicator合成数据生成引擎:面向通用机器人、用于Isaac Sim的Omniverse Replicator,以及面向自动驾驶汽车、用于DRIVE Sim的Omniverse Replicator。
其中,建立在Omniverse之上的Isaac Sim是有史以来最逼真的机器人模拟器。该模拟器的目标是让机器人无法分清自己是在模拟环境中还是在现实世界中。
NVIDIA还宣布Omniverse Enterprise已进入正式发布阶段。它允许跨多个软件套件工作的全球3D设计团队在共享虚拟空间中通过任意设备实时协作。
Omniverse Enterprise 通过包括全方位的 NVIDIA 企业支持服务的订阅,提供灵活部署,从小型工作组到分布全球的团队皆包含在内。
结语
Omniverse能将NVIDIA旗下GPU、CUDA、实时光线追踪RTX技术等所有软硬件技术,及NVIDIA在生态系统中整合性的特质集中到一个平台,形成完整全栈解决方案,从而以更高效和兼容的方式,解决与“物理世界拟真”相关的各项痛点。
在这一过程中,英伟达提供Omniverse等工具,让ISV、开发者和用户自己根据各式各样的创造性思维,打造逼真的世界和高度还原的物体,最终成为元宇宙基础底层服务架构的提供者。
好文章,需要你的鼓励
这项由加州大学圣地亚哥分校和微软研究院合作开发的REAL框架,通过程序分析反馈训练大型语言模型生成高质量代码。与传统方法不同,REAL采用强化学习将代码安全性和可维护性作为奖励信号,不依赖人工标注或特定规则。研究在多个数据集上的实验表明,REAL在保证功能正确性的同时显著提高了代码质量,有效解决了"即兴编程"中的安全漏洞和维护性问题,为AI辅助编程提供了新的范式。
加州大学伯克利分校与Meta FAIR研究团队开发了"Self-Challenging"框架,让大语言模型通过自己创建和解决任务来提升能力。该方法引入创新的"Code-as-Task"格式,包含指令、验证函数、示例解决方案和失败案例,确保生成的任务既可行又有挑战性。在工具计算、网页浏览、零售服务和航班预订四种环境测试中,仅使用自生成训练数据,Llama-3.1-8B模型性能提升了两倍多,证明AI可以通过自我挑战实现有效学习,减少对人类标注的依赖。
南洋理工大学与SenseTime Research合作提出了PoseFuse3D-KI,一种创新的人体中心关键帧插值框架。该方法将3D人体模型信息融入扩散过程,解决了现有技术在处理复杂人体动作时产生扭曲结果的问题。研究团队开发了专门的SMPL-X编码器直接从3D空间提取几何信息,并设计了融合网络将3D线索与2D姿态无缝整合。他们还构建了CHKI-Video数据集,包含2,614个视频片段及完整的人体标注。实验结果显示,PoseFuse3D-KI在PSNR上提升9%,LPIPS减少38%,显著超越现有方法。
这项研究提出了LongGuide算法,解决了大型语言模型在长文本生成任务中的局限性。研究团队发现,仅依靠上下文学习无法使模型充分掌握文本的语言和格式特性。LongGuide通过自动生成两种指导原则:度量指导原则和输出约束指导原则,显著提升了模型性能。在七种长文本生成任务中,该方法使开源和闭源模型的ROUGE-L评分平均提高约6%。LongGuide具有通用性强、易于学习、成本效益高等优点,为提升AI长文本生成能力提供了新方向。