作者:MIKE WHEATLEY
更新时间:2023年5月2日13:00
Nvidia公司的研究人员宣布了一系列创新,可以帮助开发者和艺术家将人工智能与计算机图形软件结合起来,将他们的创造性想法变成现实。
该公司表示将在8月6日至10日举行的SIGGRAPH 2023年会上发布不少于18篇新的研究论文详细介绍其创新成果,该会议是一个专注于计算机图形的年度会议。这些论文是与美国、欧洲和以色列的几十所大学的研究人员合作完成的,涵盖了将文本转化为图像的生成式人工智能模型、可以将静止图像转化为三维版本的逆渲染工具、使用人工智能模拟复杂三维元素的物理模型等等。
Nvidia在一篇博文中解释说,创作者已经可以使用各种生成式人工智能模型将文本转化为图像。这类工具被广泛用于创建概念艺术、电影故事板、视频游戏和3D虚拟世界等任务。然而,它们仍有一定的局限性,特别是在艺术家有非常具体的想法的时候。例如,一个广告主管可能正在计划围绕一款新的泰迪熊进行宣传,并希望创造出各种场景,在不同的情况下(例如泰迪熊的茶会)展示这个玩具。
现有的工具无法很好地创造出这样的特定内容,所以Nvidia的研究人员设计出了一种技术,让生成式人工智能能够使用一张示例图像,以非常具体的方式定制输出的内容。第二种技术描述了一种名为Perfusion的高度紧凑模型,它允许用户将多个个性化元素和一些概念图结合起来,利用AI创建出更具体的视觉效果。
另外,将2D图像渲染成3D环境的过程非常耗时,Nvidia的研究人员也一直专注于加快这个过程。第三篇研究论文围绕的是一种新技术,Nvidia称该技术能够在传统笔记本电脑上运行,用一张2D肖像生成3D头部和肩部模型。该公司表示,这是一项重大突破,能够极大地加快3D头像的创建,对视频会议和虚拟现实应用具有重大影响。
Nvidia的另一项举措是与斯坦福大学的研究人员合作,为3D任务生成逼真的运动。例如,用户可以向模型提供网球比赛的视频,然后将这些逼真的运动转移到3D网球运动员的角色上。Nvidia表示,然后这个模拟球员可以与其他角色进行长时间的对攻。该模型的独特之处在于它能够解决具有不同技能和逼真运动的3D角色的问题,而且不需要昂贵的动作捕捉视频数据。
Nvidia还将其AI智能应用于神经渲染,这是一种模拟光线在虚拟场景中反射的物理学的技术。它的研究展示了如何利用纹理、材料和体积的人工智能模型,为电子游戏和虚拟世界实时创建电影级、逼真的物体视觉效果。
该公司介绍了其最新的神经渲染压缩技术能够如何大幅提高此类场景的真实性,捕捉到比以往格式更清晰的细节,例如,在以往格式中模糊不清的文字变得更加清晰。
最后,Nvidia的研究人员展示了他们在神经材料研究方面的最新进展。该论文详细介绍了一个人工智能系统,该系统可以学习光线如何从拟真多层材料中反射出来,然后将这些资产的复杂程度降低到更小的神经网络可以实时运行的程度。Nvidia的研究人员表示,其结果是着色速度提高了10倍。下面这张神经渲染的茶壶图片中展现了它所能达到的极端真实水平,准确地表现了陶瓷材料及其透明釉面涂层的不完美性质,以及指纹、污点和灰尘。
Nvidia表示,所有的最新研究都将在今年的SIGGRAPH会议上公布。它希望开发者和企业能够拥抱这些新技术,用它们生成合成物体和人物,为机器人和自动驾驶汽车培训等应用填充虚拟世界。此外,它还希望艺术家、建筑师、电影制片人和视频游戏设计师等创作者利用这些技术,生产出比以往质量更高的视觉效果。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。