作者:MIKE WHEATLEY
更新时间:2023年5月2日13:00
Nvidia公司的研究人员宣布了一系列创新,可以帮助开发者和艺术家将人工智能与计算机图形软件结合起来,将他们的创造性想法变成现实。
该公司表示将在8月6日至10日举行的SIGGRAPH 2023年会上发布不少于18篇新的研究论文详细介绍其创新成果,该会议是一个专注于计算机图形的年度会议。这些论文是与美国、欧洲和以色列的几十所大学的研究人员合作完成的,涵盖了将文本转化为图像的生成式人工智能模型、可以将静止图像转化为三维版本的逆渲染工具、使用人工智能模拟复杂三维元素的物理模型等等。
Nvidia在一篇博文中解释说,创作者已经可以使用各种生成式人工智能模型将文本转化为图像。这类工具被广泛用于创建概念艺术、电影故事板、视频游戏和3D虚拟世界等任务。然而,它们仍有一定的局限性,特别是在艺术家有非常具体的想法的时候。例如,一个广告主管可能正在计划围绕一款新的泰迪熊进行宣传,并希望创造出各种场景,在不同的情况下(例如泰迪熊的茶会)展示这个玩具。
现有的工具无法很好地创造出这样的特定内容,所以Nvidia的研究人员设计出了一种技术,让生成式人工智能能够使用一张示例图像,以非常具体的方式定制输出的内容。第二种技术描述了一种名为Perfusion的高度紧凑模型,它允许用户将多个个性化元素和一些概念图结合起来,利用AI创建出更具体的视觉效果。
另外,将2D图像渲染成3D环境的过程非常耗时,Nvidia的研究人员也一直专注于加快这个过程。第三篇研究论文围绕的是一种新技术,Nvidia称该技术能够在传统笔记本电脑上运行,用一张2D肖像生成3D头部和肩部模型。该公司表示,这是一项重大突破,能够极大地加快3D头像的创建,对视频会议和虚拟现实应用具有重大影响。
Nvidia的另一项举措是与斯坦福大学的研究人员合作,为3D任务生成逼真的运动。例如,用户可以向模型提供网球比赛的视频,然后将这些逼真的运动转移到3D网球运动员的角色上。Nvidia表示,然后这个模拟球员可以与其他角色进行长时间的对攻。该模型的独特之处在于它能够解决具有不同技能和逼真运动的3D角色的问题,而且不需要昂贵的动作捕捉视频数据。
Nvidia还将其AI智能应用于神经渲染,这是一种模拟光线在虚拟场景中反射的物理学的技术。它的研究展示了如何利用纹理、材料和体积的人工智能模型,为电子游戏和虚拟世界实时创建电影级、逼真的物体视觉效果。
该公司介绍了其最新的神经渲染压缩技术能够如何大幅提高此类场景的真实性,捕捉到比以往格式更清晰的细节,例如,在以往格式中模糊不清的文字变得更加清晰。
最后,Nvidia的研究人员展示了他们在神经材料研究方面的最新进展。该论文详细介绍了一个人工智能系统,该系统可以学习光线如何从拟真多层材料中反射出来,然后将这些资产的复杂程度降低到更小的神经网络可以实时运行的程度。Nvidia的研究人员表示,其结果是着色速度提高了10倍。下面这张神经渲染的茶壶图片中展现了它所能达到的极端真实水平,准确地表现了陶瓷材料及其透明釉面涂层的不完美性质,以及指纹、污点和灰尘。
Nvidia表示,所有的最新研究都将在今年的SIGGRAPH会议上公布。它希望开发者和企业能够拥抱这些新技术,用它们生成合成物体和人物,为机器人和自动驾驶汽车培训等应用填充虚拟世界。此外,它还希望艺术家、建筑师、电影制片人和视频游戏设计师等创作者利用这些技术,生产出比以往质量更高的视觉效果。
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。