作者:MIKE WHEATLEY
更新时间:2023年5月2日13:00
Nvidia公司的研究人员宣布了一系列创新,可以帮助开发者和艺术家将人工智能与计算机图形软件结合起来,将他们的创造性想法变成现实。
该公司表示将在8月6日至10日举行的SIGGRAPH 2023年会上发布不少于18篇新的研究论文详细介绍其创新成果,该会议是一个专注于计算机图形的年度会议。这些论文是与美国、欧洲和以色列的几十所大学的研究人员合作完成的,涵盖了将文本转化为图像的生成式人工智能模型、可以将静止图像转化为三维版本的逆渲染工具、使用人工智能模拟复杂三维元素的物理模型等等。
Nvidia在一篇博文中解释说,创作者已经可以使用各种生成式人工智能模型将文本转化为图像。这类工具被广泛用于创建概念艺术、电影故事板、视频游戏和3D虚拟世界等任务。然而,它们仍有一定的局限性,特别是在艺术家有非常具体的想法的时候。例如,一个广告主管可能正在计划围绕一款新的泰迪熊进行宣传,并希望创造出各种场景,在不同的情况下(例如泰迪熊的茶会)展示这个玩具。
现有的工具无法很好地创造出这样的特定内容,所以Nvidia的研究人员设计出了一种技术,让生成式人工智能能够使用一张示例图像,以非常具体的方式定制输出的内容。第二种技术描述了一种名为Perfusion的高度紧凑模型,它允许用户将多个个性化元素和一些概念图结合起来,利用AI创建出更具体的视觉效果。
另外,将2D图像渲染成3D环境的过程非常耗时,Nvidia的研究人员也一直专注于加快这个过程。第三篇研究论文围绕的是一种新技术,Nvidia称该技术能够在传统笔记本电脑上运行,用一张2D肖像生成3D头部和肩部模型。该公司表示,这是一项重大突破,能够极大地加快3D头像的创建,对视频会议和虚拟现实应用具有重大影响。
Nvidia的另一项举措是与斯坦福大学的研究人员合作,为3D任务生成逼真的运动。例如,用户可以向模型提供网球比赛的视频,然后将这些逼真的运动转移到3D网球运动员的角色上。Nvidia表示,然后这个模拟球员可以与其他角色进行长时间的对攻。该模型的独特之处在于它能够解决具有不同技能和逼真运动的3D角色的问题,而且不需要昂贵的动作捕捉视频数据。
Nvidia还将其AI智能应用于神经渲染,这是一种模拟光线在虚拟场景中反射的物理学的技术。它的研究展示了如何利用纹理、材料和体积的人工智能模型,为电子游戏和虚拟世界实时创建电影级、逼真的物体视觉效果。
该公司介绍了其最新的神经渲染压缩技术能够如何大幅提高此类场景的真实性,捕捉到比以往格式更清晰的细节,例如,在以往格式中模糊不清的文字变得更加清晰。
最后,Nvidia的研究人员展示了他们在神经材料研究方面的最新进展。该论文详细介绍了一个人工智能系统,该系统可以学习光线如何从拟真多层材料中反射出来,然后将这些资产的复杂程度降低到更小的神经网络可以实时运行的程度。Nvidia的研究人员表示,其结果是着色速度提高了10倍。下面这张神经渲染的茶壶图片中展现了它所能达到的极端真实水平,准确地表现了陶瓷材料及其透明釉面涂层的不完美性质,以及指纹、污点和灰尘。
Nvidia表示,所有的最新研究都将在今年的SIGGRAPH会议上公布。它希望开发者和企业能够拥抱这些新技术,用它们生成合成物体和人物,为机器人和自动驾驶汽车培训等应用填充虚拟世界。此外,它还希望艺术家、建筑师、电影制片人和视频游戏设计师等创作者利用这些技术,生产出比以往质量更高的视觉效果。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。