因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从2D转换为3D的AI工具都是使用像ShapeNet这样的合成3D数据集进行训练的,而这样的逆图形模型依赖于3D图形作为训练数据。
NVIDIA研究院正在研发一种全新深度学习引擎,其把GAN模型变成了一个非常高效的数据生成器,这样就可以基于网络上的任何2D图像创建出3D对象。而且由于是根据真实图像而不是合成数据进行训练的,所以AI模型能更好地推广到现实世界的应用中。
据悉,由多伦多的NVIDIA AI研究实验室开发的GANverse3D应用将平面图像放大成逼真的3D模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要3D建模方面的专业知识,也不需要在渲染上花费大量预算。
从2D到3D GANverse3D独辟蹊径
为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA研究人员转而使用GAN模型,修改其神经网络层,将其转化为数据生成器。
为了生成训练数据集,研究人员利用生成性对抗网络——GAN合成图像,从多个角度描绘同一物体——就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从2D图像推断3D网格模型的过程。
该团队发现,仅训练神经网络的前4层,冻结剩余的12层参数,可以让GAN从不同的角度渲染同一对象的图像;保持前4层参数冻结,其他12层可变,可以让神经网络基于同一角度生成不同的图像。
通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个2D图像快速生成多视图数据集。
一旦完成了多视图图像训练,GANverse3D只需要一个2D图像即可预测3D网格模型。该模型可以与3D神经渲染器一起使用,使开发人员能够自定义对象和交换背景。
例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。
最终的模型,在55000由GAN生成的汽车图像上训练而得,优于在流行的Pascal3D数据集上训练的逆图形网络。
从研究到生产 GANverse3D赋能3D设计
3D制作团队通常规模庞大、应用技术繁多且所在地点分散,NVIDIA Omniverse Enterprise可以让处于世界各地的3D设计团队跨多个软件套件工作,并在同一共享虚拟空间中进行实时协作的技术平台。目前,诸如宝马集团、Foster建筑事务所和WPP传播集团等公司已经在使用NVIDIA Omniverse Enterprise。
当作为NVIDIA Omniverse平台的扩展导入并在NVIDIA RTX GPU上运行时,GANverse3D可将任何2D图像重建为3D,将帮助游戏、架构和设计领域的创作者为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。
并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建3D模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。
而训练好的GANverse3D应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在 Omniverse中自定义和制作动画的3D图形。借助Omniverse Connectors,开发人员可以在Omniverse中使用他们首选的3D应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。
GANverse3D已经为诸如由Knight Rider的AI驱动的KITT等标志性汽车带来创新活力。为了重建 KITT,研究人员只需给训练好的模型输入汽车的图像,让GANverse3D预测相应的3D纹理网格,以及车辆的不同部分,例如车轮和前照灯。
然后,他们使用NVIDIA Omniverse套件和NVIDIA PhysX工具将预测的纹理转换成高质量的材料,使KITT具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。
总结
GANverse3D应用为2D到3D的图像转换提供了全新的思路,而目前3D图像设计在建筑师、创作者、游戏开发人员与设计师等领域有着广泛的应用,这样GANverse3D具有广阔的应用空间,特别是通过NVIDIA Omniverse触达用户,为用户业务创新提供更有力的支撑。
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
加拿大女王大学研究团队首次对开源AI生态系统进行端到端许可证合规审计,发现35.5%的AI模型在集成到应用时存在许可证违规。他们开发的LicenseRec系统能自动检测冲突并修复86.4%的违规问题,揭示了AI供应链中系统性的"许可证漂移"现象及其法律风险。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
这项由剑桥大学、清华大学和伊利诺伊大学合作的研究首次将扩散大语言模型引入语音识别领域,开发出Whisper-LLaDA系统。该系统具备双向理解能力,能够同时考虑语音的前后文信息,在LibriSpeech数据集上实现了12.3%的错误率相对改进,同时在大多数配置下提供了更快的推理速度,为语音识别技术开辟了新的发展方向。