Neuralangelo是NVIDIA Research 开发的一个全新AI模型,它利用神经网络进行3D重建,可将2D视频片段转换为详细的3D结构,为建筑物、雕塑以及其他真实物体生成逼真的虚拟复本。
就像米开朗基罗用大理石雕刻出令人惊叹、栩栩如生的雕塑一样,Neuralangelo能生成具有复杂细节和纹理的3D结构。随后,创意人士可以将这些3D物体导入设计软件中,对其进行进一步编辑,用于艺术、视频游戏开发、机器人和工业数字孪生。
Neuralangelo将复杂材料——包括屋顶瓦片、玻璃板和光滑的大理石——的纹理从2D视频转换为3D物料的能力大大超过了以前的方法。高保真度让开发者和创意专业人士更容易进行3D重建,使用智能手机拍摄的视频快速为项目创建可用的虚拟物体。
NVIDIA Research高级研究总监、上述论文的合著者刘洺堉表示:“Neuralangelo的3D重建能力将使创作者受益匪浅,能够帮助他们在数字世界中重建现实世界。这个工具最终将使开发人员能够将详细的对象——无论是小雕像还是大型建筑——导入到虚拟环境中,用于电子游戏或工业数字孪生。”
在一次演示中,NVIDIA研究人员展示了该模型如何重建米开朗基罗“大卫像”这样的标志性物体以及平板卡车这样的普通物体。Neuralangelo还可以重建建筑物的内部和外部——以NVIDIA湾区办公园区的详细3D模型为例进行了演示。
本次发布相关精彩视频已在NVIDIA中国西瓜视频账号发布:
数字文艺复兴:NVIDIA Neuralangelo研究重构3D场景
在3D中应用神经渲染模型
之前用于重建3D场景的AI模型很难准确捕捉重复的纹理、均匀的颜色和强烈的颜色变化。Neuralangelo采用即时神经图形基元——即NVIDIA Instant NeRF背后的技术——来帮助捕捉这些更精细的细节。
使用从不同角度拍摄的物体或场景的2D视频,该模型会选择从不同角度捕捉的镜头来确定物体或场景的深度、大小和形状,就像艺术家会从多个角度描绘一个物体一样。
一旦确定了每个镜头的相机位置,Neuralangelo的AI就会创建一个粗略的3D场景,相当于雕塑家开始雕刻主体的形状。
然后,该模型对渲染进行优化以锐化细节,就好像雕塑家辛苦雕琢石头来模仿织物或人的纹理。
最终会生成一个3D物体或大规模场景,可用于虚拟现实应用、数字孪生或机器人开发。
在6月18-22日举行的CVPR大会上探寻NVIDIA Research的研究成果
在6月18日至22日于温哥华举行的CVPR上,NVIDIA Research将展示近30个项目,其中包括Neuralangelo。这些论文的主题涵盖姿态估计、3D重建和视频生成。
其中一个名为DiffCollage的项目是一种创建大规模内容的扩散法,包括长横向、360度全景图和循环运动图像。当输入一个具有标准长宽比的图像训练数据集时,DiffCollage将这些较小的图像视为更大视觉片段的一部分——就像一张张拼贴画。这使得扩散模型能够生成看上去有凝聚力的大型内容,而无需使用相同比例的图像进行训练。
该技术还可以将文本提示转换为视频序列,技术演示中使用了预先训练的扩散模型来捕捉人体动作:
本次发布相关精彩视频已在NVIDIA中国西瓜视频账号发布:
了解有关NVIDIA Research参展CVPR的更多信息。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。