如何将基于2D图像创建3D物体?逆渲染就是这样的技术,其是将一系列静态照片重建为3D物体或场景模型的技术。该技术长期以来一直是统一计算机视觉和计算机图形学的关键。
在近日举行的计算机视觉和模式识别会议CVPR上,NVIDIA Research推出了可逆渲染流程NVIDIA 3D MoMa,图形创作者可以使用其快速创建出的3D物体。
这个被称为“NVIDIA 3D MoMa”的方法可以让建筑师、设计师、概念艺术家和游戏开发者迅速将物体导入图形引擎,并开始对其进行处理——修改比例、改变材质或尝试不同的照明效果。
NVIDIA图形学研究副总裁David Luebke表示,NVIDIA 3D MoMa渲染流水线可以将逆渲染问题的每个部分表示为GPU加速的可微分组件,然后使用现代AI机器和NVIDIA GPU的原始算力快速生成3D物体,且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。
为了使艺术家或工程师能够充分利用3D物体,其形式应能够导入游戏引擎、3D建模器和电影渲染器等各种被广泛使用的工具。带有纹理、材质的三角网格形式,就是此类3D工具使用的通用语言。
三角网格是用于定义3D图形和建模形状的基本框架。
游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建3D物体,这需要耗费大量的时间和精力。近期的神经辐射场(Neural Radiance Fields)研究可以快速生成物体或场景的3D模型,但并不是使用易于编辑的三角网格形式。
当在单个NVIDIA Tensor Core GPU上运行时,NVIDIA 3D MoMa能在一个小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的3D图形引擎和建模工具直接兼容。
流水线的重建功能包括3D网格模型、材质和照明。网格就像由三角形构建的3D形状混凝纸浆模型。有了它,开发者就可以依照自己的创意对物体进行修改。材质是叠加在3D网格上的2D纹理,就像人的皮肤一样。NVIDIA 3D MoMa通过对场景光线进行估算,使创作者能够在日后修改物体上的照明。
为虚拟爵士乐队调校乐器
为了展示NVIDIA 3D MoMa的功能,NVIDIA的研究和创意团队首先从不同角度收集了五种爵士乐队乐器(小号、长号、萨克斯、架子鼓和单簧管)的约100张图片。
NVIDIA 3D MoMa将2D图像重建为每种乐器的3D表示,并以网格形式呈现。然后,NVIDIA团队将这些乐器从原始场景中取出,并将其导入NVIDIA Omniverse 3D模拟平台中进行编辑。
在任何传统图形引擎中,创作者都可以轻松为形状调换由NVIDIA 3D MoMa生成的材质,就像给网格穿上不同的衣服一样。例如该团队对小号模型采取了这种做法,将原来的塑料材质快速更换成黄金、大理石、木材或软木。
然后,创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。他们证明了虚拟乐器对光线的反应与在物理世界中完全一样:闪亮的铜管乐器反射出亮光,哑光的鼓皮则会吸收光线。
这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。视频的最后展示了虚拟爵士乐队。
结语
逆渲染是用于基于2D图像迭代地恢复3D模型的形状、照明和材料属性的技术。逆渲染是具有挑战性的,因为用于渲染3D模型以产生2D图像的操作不能简单地反向执行以从2D图像产生3D模型。NVIDIA 3D MoMa的推出展示了业界在逆渲染方面的最新探索,其势必会对相关AI应用产生促进作用。
好文章,需要你的鼓励
AMD Radeon(TM) RX 9000 系列依托AI 加速为玩家带来极致游戏体验。
Inception Labs 于周四发布了 Mercury Coder,这是一种新的 AI 语言模型,利用扩散技术比传统模型更快地生成文本。与逐字生成文本的传统模型(如 ChatGPT)不同,基于扩散的模型(如 Mercury)能够同时生成完整的响应,并将其从最初的遮蔽状态逐步精炼为连贯的文本。
微软终于将其 AI 助手 Copilot 作为独立应用程序推出 macOS 版本。这款免费应用现已在 Mac App Store 上线,支持多种功能如文本翻译、问题解答、文档生成等。Copilot 采用 OpenAI 的 GPT-4 和 DALL-E 3 等模型,标志着微软在 AI 领域的重要布局。该应用要求 M1 或更新的 Mac 设备,以及 macOS 14 或更高版本。