作者:MIKE WHEATLEY
更新时间:2023年5月2日13:00
Nvidia公司的研究人员宣布了一系列创新,可以帮助开发者和艺术家将人工智能与计算机图形软件结合起来,将他们的创造性想法变成现实。

该公司表示将在8月6日至10日举行的SIGGRAPH 2023年会上发布不少于18篇新的研究论文详细介绍其创新成果,该会议是一个专注于计算机图形的年度会议。这些论文是与美国、欧洲和以色列的几十所大学的研究人员合作完成的,涵盖了将文本转化为图像的生成式人工智能模型、可以将静止图像转化为三维版本的逆渲染工具、使用人工智能模拟复杂三维元素的物理模型等等。
Nvidia在一篇博文中解释说,创作者已经可以使用各种生成式人工智能模型将文本转化为图像。这类工具被广泛用于创建概念艺术、电影故事板、视频游戏和3D虚拟世界等任务。然而,它们仍有一定的局限性,特别是在艺术家有非常具体的想法的时候。例如,一个广告主管可能正在计划围绕一款新的泰迪熊进行宣传,并希望创造出各种场景,在不同的情况下(例如泰迪熊的茶会)展示这个玩具。
现有的工具无法很好地创造出这样的特定内容,所以Nvidia的研究人员设计出了一种技术,让生成式人工智能能够使用一张示例图像,以非常具体的方式定制输出的内容。第二种技术描述了一种名为Perfusion的高度紧凑模型,它允许用户将多个个性化元素和一些概念图结合起来,利用AI创建出更具体的视觉效果。
另外,将2D图像渲染成3D环境的过程非常耗时,Nvidia的研究人员也一直专注于加快这个过程。第三篇研究论文围绕的是一种新技术,Nvidia称该技术能够在传统笔记本电脑上运行,用一张2D肖像生成3D头部和肩部模型。该公司表示,这是一项重大突破,能够极大地加快3D头像的创建,对视频会议和虚拟现实应用具有重大影响。
Nvidia的另一项举措是与斯坦福大学的研究人员合作,为3D任务生成逼真的运动。例如,用户可以向模型提供网球比赛的视频,然后将这些逼真的运动转移到3D网球运动员的角色上。Nvidia表示,然后这个模拟球员可以与其他角色进行长时间的对攻。该模型的独特之处在于它能够解决具有不同技能和逼真运动的3D角色的问题,而且不需要昂贵的动作捕捉视频数据。
Nvidia还将其AI智能应用于神经渲染,这是一种模拟光线在虚拟场景中反射的物理学的技术。它的研究展示了如何利用纹理、材料和体积的人工智能模型,为电子游戏和虚拟世界实时创建电影级、逼真的物体视觉效果。
该公司介绍了其最新的神经渲染压缩技术能够如何大幅提高此类场景的真实性,捕捉到比以往格式更清晰的细节,例如,在以往格式中模糊不清的文字变得更加清晰。
最后,Nvidia的研究人员展示了他们在神经材料研究方面的最新进展。该论文详细介绍了一个人工智能系统,该系统可以学习光线如何从拟真多层材料中反射出来,然后将这些资产的复杂程度降低到更小的神经网络可以实时运行的程度。Nvidia的研究人员表示,其结果是着色速度提高了10倍。下面这张神经渲染的茶壶图片中展现了它所能达到的极端真实水平,准确地表现了陶瓷材料及其透明釉面涂层的不完美性质,以及指纹、污点和灰尘。
Nvidia表示,所有的最新研究都将在今年的SIGGRAPH会议上公布。它希望开发者和企业能够拥抱这些新技术,用它们生成合成物体和人物,为机器人和自动驾驶汽车培训等应用填充虚拟世界。此外,它还希望艺术家、建筑师、电影制片人和视频游戏设计师等创作者利用这些技术,生产出比以往质量更高的视觉效果。
好文章,需要你的鼓励
短视频营销正成为品牌推广的重要方式,但寻找最佳片段并精准分发始终是一大难题。初创公司Clouted通过整合逾10万名自由创作者网络,结合AI技术自动完成视频剪辑与分发策略。其AI系统持续测试不同格式与渠道组合,让每次营销活动都比上一次更精准高效。该公司近日完成700万美元种子轮融资,由Slow Ventures领投,正朝着企业级营销基础设施市场迈进。
CurveBench是由四所高校联合构建的视觉拓扑推理基准,通过让AI识别嵌套闭合曲线的层次包含关系,揭示了顶尖视觉语言模型在空间结构理解上的系统性缺陷。
本月初,Anthropic宣布购买300兆瓦算力的协议,锁定位于田纳西州孟菲斯附近的Colossus 1数据中心全部产能。据悉,Anthropic将在2029年5月前每月向xAI支付12.5亿美元,协议总价值超400亿美元。该交易细节源自SpaceX向SEC提交的S-1文件。xAI此举实质上是将闲置算力变现——近期Grok用户量下滑,大量服务器空闲,xAI由此转型为"新云服务商",向竞争对手出售计算资源。
圣母大学与亚利桑那州立大学联合构建首个真实骗局对话进展预测基准PRESCAM,揭示当前AI模型识别骗局推进逻辑的核心局限。