各个行业的开发人员正在构建 3D 工具和应用程序,以帮助团队在艺术、设计、制造等领域创建虚拟世界。NVIDIA Omniverse 是一个可扩展平台,可以用来进行全保真设计、模拟以及开发基于 USD 的工作流程。该平台有一个不断扩大的开发者生态系统,其中的开发者们正在构建基于 Python 的扩展程序。NVIDIA 过去曾发起过一个使用 Omniverse Create 应用构建惊艳 3D 模拟的比赛。
NVIDIA 现已宣布举办首届专为开发者、工程师、技术艺术家、业余爱好者和研究者打造的 NVIDIA Omniverse 比赛,参赛者需要开发用于 3D 世界的 Python 工具。本次比赛从 2022 年 7 月 11 日持续到 8 月 19 日。总冠军将获得一块 NVIDIA RTX A6000,每个类别的亚军将获得一块 GeForce RTX 3090 Ti。
比赛的内容是使用 Omniverse Kit 和以开发者为中心的 Omniverse 应用——Omniverse Code 构建一个 Omniverse 扩展程序。参赛者可以创建以下的 Python 扩展程序来参加 Extend the Omniverse 比赛:
布局和场景创作工具
对 3D 内容和环境的需求呈指数级增长。布局和场景创作工具有助于扩展用于世界构建的工作流,充分利用基于规则的算法和人工智能来生成资产。
创作者可以使用更多种类的笔触绘制和自动生成书籍、灯具或栅栏等实物来填充场景,不需要繁琐地手动放置每个组件。由于能够更自由地迭代布局和场景,创作者可以加快他们的工作流程并腾出时间来专注于创作。
Universal Scene Description ( USD )是参赛者可以在 Omniverse 中开发的布局和场景创作工具的基础。这个强大、易于扩展的场景描述可以处理稳定地庞大的 3D 数据集,支持 3D 世界中的创建、编辑、查询、渲染和协作。
带有 Omniverse 工具包的 Omni.ui
精心设计的用户界面为艺术家和开发者提供了卓越的体验。它们可以提高生产力,并使非技术和技术用户能够利用复杂算法的力量。
Omni.ui 是一个用于创建美观、灵活图形 UI 设计的 Omniverse UI 工具包,它让自定义用户界面的构建变得前所未有的简单。Omni.ui 使用现代异步技术和 UI 设计模式设计,因此具备反应性和响应性。
用户可以使用 Omniverse Kit 中用于创建可视组件、接收用户输入和创建数据模型的小部件,来深度定制应用程序的最终外观。它的样式表架构类似于 HTML 或 CSS ,因而用户可以更改小部件的外观或为整个应用程序创建新的配色方案。
用户可以组合现有的小部件,并定义新的小部件来构建想要的界面。这些扩展包括导航栏中的浮动面板以及 Omniverse View 和 Showroom 中的标记工具。用户还可以创建数据模型、视图和委托,以构建强大、灵活的界面。
场景修改器和操控工具
场景修改器和操控工具为艺术家提供了与他们的场景互动的新方法。无论是改变物体的几何形状、场景的照明,还是创建动画,这些工具让艺术家只需要进行很少的手动操作就能修改和操作场景。
用户可以使用用于在 3D 空间中构建 UI 的低代码模块 omni.ui.scene 开发 3D 小部件和操控器,并使用 Python 在 3D 投影场景中创建和移动形状。还可以使用许多原始对象,包括文本、图像、矩形、弧线、直线、曲线和网格等。NVIDIA 正在定期添加更多的对象。
NVIDIA 迫不及待地想看看用户将创建哪些扩展来为这个扩展程序生态系统锦上添花,进一步扩大 Omniverse 的可能性。进一步了解比赛,访问 GitHub 比赛页面获得入门所需的示例代码和其他资源。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。