如何将基于2D图像创建3D物体?逆渲染就是这样的技术,其是将一系列静态照片重建为3D物体或场景模型的技术。该技术长期以来一直是统一计算机视觉和计算机图形学的关键。
在近日举行的计算机视觉和模式识别会议CVPR上,NVIDIA Research推出了可逆渲染流程NVIDIA 3D MoMa,图形创作者可以使用其快速创建出的3D物体。
这个被称为“NVIDIA 3D MoMa”的方法可以让建筑师、设计师、概念艺术家和游戏开发者迅速将物体导入图形引擎,并开始对其进行处理——修改比例、改变材质或尝试不同的照明效果。
NVIDIA图形学研究副总裁David Luebke表示,NVIDIA 3D MoMa渲染流水线可以将逆渲染问题的每个部分表示为GPU加速的可微分组件,然后使用现代AI机器和NVIDIA GPU的原始算力快速生成3D物体,且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。
为了使艺术家或工程师能够充分利用3D物体,其形式应能够导入游戏引擎、3D建模器和电影渲染器等各种被广泛使用的工具。带有纹理、材质的三角网格形式,就是此类3D工具使用的通用语言。
三角网格是用于定义3D图形和建模形状的基本框架。
游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建3D物体,这需要耗费大量的时间和精力。近期的神经辐射场(Neural Radiance Fields)研究可以快速生成物体或场景的3D模型,但并不是使用易于编辑的三角网格形式。
当在单个NVIDIA Tensor Core GPU上运行时,NVIDIA 3D MoMa能在一个小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的3D图形引擎和建模工具直接兼容。
流水线的重建功能包括3D网格模型、材质和照明。网格就像由三角形构建的3D形状混凝纸浆模型。有了它,开发者就可以依照自己的创意对物体进行修改。材质是叠加在3D网格上的2D纹理,就像人的皮肤一样。NVIDIA 3D MoMa通过对场景光线进行估算,使创作者能够在日后修改物体上的照明。
为虚拟爵士乐队调校乐器
为了展示NVIDIA 3D MoMa的功能,NVIDIA的研究和创意团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯、架子鼓和单簧管)的约100张图片。
NVIDIA 3D MoMa将2D图像重建为每种乐器的3D表示,并以网格形式呈现。然后,NVIDIA团队将这些乐器从原始场景中取出,并将其导入NVIDIA Omniverse 3D模拟平台中进行编辑。
在任何传统图形引擎中,创作者都可以轻松为形状调换由NVIDIA 3D MoMa生成的材质,就像给网格穿上不同的衣服一样。例如该团队对小号模型采取了这种做法,将原来的塑料材质快速更换成黄金、大理石、木材或软木。
然后,创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。他们证明了虚拟乐器对光线的反应与在物理世界中完全一样:闪亮的铜管乐器反射出亮光,哑光的鼓皮则会吸收光线。
这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。视频的最后展示了虚拟爵士乐队。
结语
逆渲染是用于基于2D图像迭代地恢复3D模型的形状、照明和材料属性的技术。逆渲染是具有挑战性的,因为用于渲染3D模型以产生2D图像的操作不能简单地反向执行以从2D图像产生3D模型。NVIDIA 3D MoMa的推出展示了业界在逆渲染方面的最新探索,其势必会对相关AI应用产生促进作用。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。