因为从不同角度捕捉同一物体的真实数据集很少,所以大多数将图像从2D转换为3D的AI工具都是使用像ShapeNet这样的合成3D数据集进行训练的,而这样的逆图形模型依赖于3D图形作为训练数据。
NVIDIA研究院正在研发一种全新深度学习引擎,其把GAN模型变成了一个非常高效的数据生成器,这样就可以基于网络上的任何2D图像创建出3D对象。而且由于是根据真实图像而不是合成数据进行训练的,所以AI模型能更好地推广到现实世界的应用中。
据悉,由多伦多的NVIDIA AI研究实验室开发的GANverse3D应用将平面图像放大成逼真的3D模型,可以在虚拟环境中可视化和控制。这种性能可以帮助建筑师、创作者、游戏开发人员和设计师轻松地将新对象添加到他们的实体模型中,而不需要3D建模方面的专业知识,也不需要在渲染上花费大量预算。
从2D到3D GANverse3D独辟蹊径
为了从现实世界的数据中获得多视图图像,例如网上公开的汽车图像,NVIDIA研究人员转而使用GAN模型,修改其神经网络层,将其转化为数据生成器。
为了生成训练数据集,研究人员利用生成性对抗网络——GAN合成图像,从多个角度描绘同一物体——就像摄影师绕着一辆停着的汽车走动,从不同的角度拍摄。这些多视图图像被插入到逆图形的渲染框架中,逆图形是从2D图像推断3D网格模型的过程。
该团队发现,仅训练神经网络的前4层,冻结剩余的12层参数,可以让GAN从不同的角度渲染同一对象的图像;保持前4层参数冻结,其他12层可变,可以让神经网络基于同一角度生成不同的图像。
通过手动分配标准角度,在特定高度和距离拍摄车辆照片,研究人员可以从单个2D图像快速生成多视图数据集。
一旦完成了多视图图像训练,GANverse3D只需要一个2D图像即可预测3D网格模型。该模型可以与3D神经渲染器一起使用,使开发人员能够自定义对象和交换背景。
例如,单张汽车照片可以转换为3D模型,该模型可以在虚拟场景中行驶,并配有逼真的前灯、尾灯和转向灯。
最终的模型,在55000由GAN生成的汽车图像上训练而得,优于在流行的Pascal3D数据集上训练的逆图形网络。
从研究到生产 GANverse3D赋能3D设计
3D制作团队通常规模庞大、应用技术繁多且所在地点分散,NVIDIA Omniverse Enterprise可以让处于世界各地的3D设计团队跨多个软件套件工作,并在同一共享虚拟空间中进行实时协作的技术平台。目前,诸如宝马集团、Foster建筑事务所和WPP传播集团等公司已经在使用NVIDIA Omniverse Enterprise。
当作为NVIDIA Omniverse平台的扩展导入并在NVIDIA RTX GPU上运行时,GANverse3D可将任何2D图像重建为3D,将帮助游戏、架构和设计领域的创作者为游戏开发、城市规划甚至训练新的机器学习模型创建更丰富的虚拟世界。
并不是每个创作者都有时间和资源为他们所绘制的每一个对象创建3D模型。若要渲染展厅的汽车,或一条街的建筑,需捕获所需数量的多视图图像,成本可能高得令人望而却步。
而训练好的GANverse3D应用可以用来将汽车、建筑甚至一匹马的标准图像转换成可以在 Omniverse中自定义和制作动画的3D图形。借助Omniverse Connectors,开发人员可以在Omniverse中使用他们首选的3D应用程序,通过实时光线跟踪来模拟复杂的虚拟世界。
GANverse3D已经为诸如由Knight Rider的AI驱动的KITT等标志性汽车带来创新活力。为了重建 KITT,研究人员只需给训练好的模型输入汽车的图像,让GANverse3D预测相应的3D纹理网格,以及车辆的不同部分,例如车轮和前照灯。
然后,他们使用NVIDIA Omniverse套件和NVIDIA PhysX工具将预测的纹理转换成高质量的材料,使KITT具有更真实的外观和感觉,并将其与其他汽车一起放置在动态驾驶序列中。
总结
GANverse3D应用为2D到3D的图像转换提供了全新的思路,而目前3D图像设计在建筑师、创作者、游戏开发人员与设计师等领域有着广泛的应用,这样GANverse3D具有广阔的应用空间,特别是通过NVIDIA Omniverse触达用户,为用户业务创新提供更有力的支撑。
好文章,需要你的鼓励
英特尔CEO谭立武警告,除非有"重要外部客户"保证利润,否则可能停止14A半导体制程投资。他表示,英特尔18A前的制程可仅靠自有产品获得合理回报,但14A制程的资本成本增加,需要外部客户才能实现可接受回报。如果实施这一决定,可能意味着英特尔无法继续遵循摩尔定律,这对半导体行业将产生深远影响。
浙江大学团队开发的LAPO方法成功解决了AI推理模型"过度思考"问题,通过两阶段训练让AI学会根据问题复杂度自主调整推理深度。实验显示该方法将计算用量减少40.9%的同时准确率提升2.3%,为AI系统的智能化和实用化发展提供了重要突破。
Dispo社交网络和约会应用Teaser AI联合创始人Daniel Liss创立了钢铁制造公司Nemo Industries。该公司计划利用AI技术优化生铁生产,并自建熔炉设施。Liss认为从创立之初就使用AI的公司将比竞争对手拥有20%-30%的利润优势。公司此前已融资2820万美元,目前正与现有投资者洽谈1亿美元A轮融资,并获得两个南方州超过10亿美元的激励措施承诺。
本研究提出了首个针对视觉自回归模型的测试时缩放框架TTS-VAR,通过自适应批次管理、聚类式多样性搜索和重采样式潜力选择三大策略,将AI图像生成质量显著提升8.7%。该框架巧妙地将生成过程视为路径搜索问题,在早期保持结构多样性,后期进行智能选择,实现了计算效率与生成质量的双重优化,为视觉生成技术发展提供了新思路。