因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从2D转换为3D的AI工具都是使用像ShapeNet这样的合成3D数据集进行训练的,而这样的逆图形模型依赖于3D图形作为训练数据。

NVIDIA研究院正在研发一种全新深度学习引擎,其把GAN模型变成了一个非常高效的数据生成器,这样就可以基于网络上的任何2D图像创建出3D对象。而且由于是根据真实图像而不是合成数据进行训练的,所以AI模型能更好地推广到现实世界的应用中。
据悉,由多伦多的NVIDIA AI研究实验室开发的GANverse3D应用将平面图像放大成逼真的3D模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要3D建模方面的专业知识,也不需要在渲染上花费大量预算。
从2D到3D GANverse3D独辟蹊径
为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA研究人员转而使用GAN模型,修改其神经网络层,将其转化为数据生成器。
为了生成训练数据集,研究人员利用生成性对抗网络——GAN合成图像,从多个角度描绘同一物体——就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从2D图像推断3D网格模型的过程。
该团队发现,仅训练神经网络的前4层,冻结剩余的12层参数,可以让GAN从不同的角度渲染同一对象的图像;保持前4层参数冻结,其他12层可变,可以让神经网络基于同一角度生成不同的图像。
通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个2D图像快速生成多视图数据集。
一旦完成了多视图图像训练,GANverse3D只需要一个2D图像即可预测3D网格模型。该模型可以与3D神经渲染器一起使用,使开发人员能够自定义对象和交换背景。
例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。
最终的模型,在55000由GAN生成的汽车图像上训练而得,优于在流行的Pascal3D数据集上训练的逆图形网络。
从研究到生产 GANverse3D赋能3D设计
3D制作团队通常规模庞大、应用技术繁多且所在地点分散,NVIDIA Omniverse Enterprise可以让处于世界各地的3D设计团队跨多个软件套件工作,并在同一共享虚拟空间中进行实时协作的技术平台。目前,诸如宝马集团、Foster建筑事务所和WPP传播集团等公司已经在使用NVIDIA Omniverse Enterprise。
当作为NVIDIA Omniverse平台的扩展导入并在NVIDIA RTX GPU上运行时,GANverse3D可将任何2D图像重建为3D,将帮助游戏、架构和设计领域的创作者为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。
并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建3D模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。
而训练好的GANverse3D应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在 Omniverse中自定义和制作动画的3D图形。借助Omniverse Connectors,开发人员可以在Omniverse中使用他们首选的3D应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。
GANverse3D已经为诸如由Knight Rider的AI驱动的KITT等标志性汽车带来创新活力。为了重建 KITT,研究人员只需给训练好的模型输入汽车的图像,让GANverse3D预测相应的3D纹理网格,以及车辆的不同部分,例如车轮和前照灯。

然后,他们使用NVIDIA Omniverse套件和NVIDIA PhysX工具将预测的纹理转换成高质量的材料,使KITT具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。
总结
GANverse3D应用为2D到3D的图像转换提供了全新的思路,而目前3D图像设计在建筑师、创作者、游戏开发人员与设计师等领域有着广泛的应用,这样GANverse3D具有广阔的应用空间,特别是通过NVIDIA Omniverse触达用户,为用户业务创新提供更有力的支撑。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。