因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从2D转换为3D的AI工具都是使用像ShapeNet这样的合成3D数据集进行训练的,而这样的逆图形模型依赖于3D图形作为训练数据。
NVIDIA研究院正在研发一种全新深度学习引擎,其把GAN模型变成了一个非常高效的数据生成器,这样就可以基于网络上的任何2D图像创建出3D对象。而且由于是根据真实图像而不是合成数据进行训练的,所以AI模型能更好地推广到现实世界的应用中。
据悉,由多伦多的NVIDIA AI研究实验室开发的GANverse3D应用将平面图像放大成逼真的3D模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要3D建模方面的专业知识,也不需要在渲染上花费大量预算。
从2D到3D GANverse3D独辟蹊径
为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA研究人员转而使用GAN模型,修改其神经网络层,将其转化为数据生成器。
为了生成训练数据集,研究人员利用生成性对抗网络——GAN合成图像,从多个角度描绘同一物体——就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从2D图像推断3D网格模型的过程。
该团队发现,仅训练神经网络的前4层,冻结剩余的12层参数,可以让GAN从不同的角度渲染同一对象的图像;保持前4层参数冻结,其他12层可变,可以让神经网络基于同一角度生成不同的图像。
通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个2D图像快速生成多视图数据集。
一旦完成了多视图图像训练,GANverse3D只需要一个2D图像即可预测3D网格模型。该模型可以与3D神经渲染器一起使用,使开发人员能够自定义对象和交换背景。
例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。
最终的模型,在55000由GAN生成的汽车图像上训练而得,优于在流行的Pascal3D数据集上训练的逆图形网络。
从研究到生产 GANverse3D赋能3D设计
3D制作团队通常规模庞大、应用技术繁多且所在地点分散,NVIDIA Omniverse Enterprise可以让处于世界各地的3D设计团队跨多个软件套件工作,并在同一共享虚拟空间中进行实时协作的技术平台。目前,诸如宝马集团、Foster建筑事务所和WPP传播集团等公司已经在使用NVIDIA Omniverse Enterprise。
当作为NVIDIA Omniverse平台的扩展导入并在NVIDIA RTX GPU上运行时,GANverse3D可将任何2D图像重建为3D,将帮助游戏、架构和设计领域的创作者为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。
并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建3D模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。
而训练好的GANverse3D应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在 Omniverse中自定义和制作动画的3D图形。借助Omniverse Connectors,开发人员可以在Omniverse中使用他们首选的3D应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。
GANverse3D已经为诸如由Knight Rider的AI驱动的KITT等标志性汽车带来创新活力。为了重建 KITT,研究人员只需给训练好的模型输入汽车的图像,让GANverse3D预测相应的3D纹理网格,以及车辆的不同部分,例如车轮和前照灯。
然后,他们使用NVIDIA Omniverse套件和NVIDIA PhysX工具将预测的纹理转换成高质量的材料,使KITT具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。
总结
GANverse3D应用为2D到3D的图像转换提供了全新的思路,而目前3D图像设计在建筑师、创作者、游戏开发人员与设计师等领域有着广泛的应用,这样GANverse3D具有广阔的应用空间,特别是通过NVIDIA Omniverse触达用户,为用户业务创新提供更有力的支撑。
好文章,需要你的鼓励
2025施耐德电气智算峰会上,全新EcoStruxure(TM) Energy Operation电力综合运营系统正式亮相,定位场站级智慧能源管理中枢,集技术领先性与本土适配性于一体。
这项研究首次系统评估了AI代码智能体在科学研究扩展方面的能力。研究团队设计了包含12个真实研究任务的REXBENCH基准,测试了九个先进AI智能体的表现。结果显示,即使最优秀的智能体成功率也仅为25%,远低于实用化要求,揭示了当前AI在处理复杂科学推理任务时的显著局限性。
Atlassian、Intuit和AWS三大企业巨头正在为智能代理时代做准备,重新思考软件构建方式。当前企业API为人类使用而设计,未来API将成为多模型原生接口。Intuit在QuickBooks中应用自动发票生成,使企业平均提前5天收款;AWS通过AI辅助迁移服务显著提升效率;Atlassian推出内部员工入职代理和客户代理,节省大量时间成本。专家强调需要建立强大的数据架构和信任机制。
俄罗斯莫斯科国立大学研究团队开发出MEMFOF光流估计新方法,在保持顶尖精度的同时将1080p视频分析的GPU内存消耗从8GB降至2GB,实现约4倍内存节省。该方法通过三帧策略、相关性体积优化和高分辨率训练在多个国际基准测试中取得第一名成绩,为高清视频分析技术的普及奠定基础。