当下,技术延展了我们的感官,也扩展了我们的想象边界。
谈及元宇宙,NVIDIA Omniverse和仿真模拟技术副总裁Rev Lebaredian告诉记者,技术高速发展时很难说接下来会发生什么。“我们所知道的是,我们正在构建的基本技术和它所实现的能力非常强大,它们将适用于消费、企业、工业、公共部门等一切领域,就像互联网一样。”
在Rev Lebaredian看来,元宇宙是进化版的互联网,将被用于从游戏和娱乐到工业制造和企业经营等各个领域。“许多人已经关注到元宇宙在娱乐和游戏领域的用途,但关于元宇宙如何用于商业、工业等‘严肃’领域的对话要少得多。我们认为这是一个蕴藏着数万亿美元的巨大商机。”
正是基于这样的思考,我们看到在今年的SIGGRAPH 2022上,英伟达(NVIDIA)围绕元宇宙公布了众多创新产品,让我们更快拥抱元宇宙。
NVIDIA创始人兼首席执行官黄仁勋在演讲分享中表示,元宇宙是互联网的再次演进,而AI和计算机图形技术的结合将为元宇宙提供动力。“我们今天发布的公告进一步推动了元宇宙的发展,这是一个新的计算平台,具有新的编程模型、架构和标准。”
加速数字虚拟人落地
元宇宙的世界离不开虚拟助手,数字人和虚拟形象需要自然语言处理、计算机视觉、复杂的面部和身体动画等技术。为了以逼真的方式移动和说话,这套复杂的技术必须同步到毫秒。
NVIDIA通过Omniverse Avatar Cloud Engine简化和加速这项工作。ACE是基于NVIDIA工作构建的一系列AI模型和服务集合,涵盖从对话式AI到Audio2Face和Audio2Emotion等动画工具的所有内容。
Omniverse Avatar Cloud Engine(ACE)能够为游戏、聊天机器人、数字孪生和虚拟世界的开发者提供用于构建和部署交互式虚拟形象的云原生AI模型,能够让用户更轻松地构建和自定义栩栩如生的虚拟助手和数字人。
ACE建立在NVIDIA的统一计算框架基础之上。该框架为用户提供丰富的软件工具和API,使他们能够使用各种用于创建高度逼真的全互动式虚拟形象的技能。这些工具包括用于开发语音AI应用的NVIDIA Riva、用于计算机视觉和智能视频分析的NVIDIA Metropolis、用于高性能推荐系统的NVIDIA Merlin、用于自然语言理解的大型语言模型 NVIDIA NeMo Megatron以及用于AI赋能动画的NVIDIA Omniverse。
NVIDIA的Project Maxine和Project Tokkio是建立在ACE上的两个应用。Project Maxine为虚拟协作和内容创建应用带来了最先进的视频和音频功能。Project Tokkio赋予交互式虚拟形象以视觉、感知和智能对话能力,并使虚拟形象能够提供建议,以提高餐厅等场所的客户服务水平。
USD是元宇宙的语言
Rev Lebaredian表示,元宇宙“需要一种标准的方式来描述3D世界中的所有事物”。
元宇宙的许多超能力都以通用场景描述(USD)为基础,而USD是3D互联网的基础。
NVIDIA将与USD的发明者皮克斯以及Adobe、Autodesk、西门子等多家行业内领先的企业合作,实施一项多年发展路线图,将USD的功能扩展到视觉效果应用之外,使其能够更好地支持建筑、工程、制造业、科学计算、机器人、工业数字孪生等领域的工业元宇宙应用。
为进一步加速USD的采用,NVIDIA将发布USD兼容性测试和认证套件。它可让开发者了解其自定义USD组件会产生预期结果。
此外,NVIDIA正在发布一系列免费资源来加速USD的采用范围,其中包括数千种专门用于帮助不具备3D专业知识的用户构建开放虚拟世界的USD资产。NVIDIA还提供数百个可按需选择的教程、文档和开发者工具来帮助普及USD教育。
Omniverse的重磅升级
黄仁勋将Omniverse称为“一个USD平台、是构建元宇宙应用的工具包,以及运行虚拟世界的计算引擎。”
Omniverse新版本包含多项升级的核心技术,并支持与更多热门工具连接。
Omniverse应用(包括Create 2022.2)获得了PhysX重大更新,此更新涉及柔体仿真、颗粒布料仿真和软接触模型,可为物理精准的虚拟世界提供更高的逼真度。新增的OmniLive Workflows可提供适用于完整的USD工作流程的新协作界面,让艺术家在创作时更加自由。
Omniverse现在包含全新的可定制视窗、改进的用户界面、增强的审查工具及Omniverse免费3D素材库的主要版本。用户可以使用多个免费的USD场景和内容包,从而以更快的速度构建虚拟世界。
此外,NVIDIA正在开发多个全新Omniverse连接器,包括 Autodesk Alias及Autodesk Civil 3D、Blender、Open Geospatial Consortium、Siemens JT、SimScale和Unity。现已推出的全新测试版连接器包括PTC Creo、SideFX Houdini和Visual Components。
每个人都能创建元宇宙内容
一直以来,创建游戏、虚拟世界(包括元宇宙)、产品设计或视觉效果场景中的3D物体都是一项高度精细的工作,即便是技艺精湛的艺术家也必须在细节逼真度与期限和预算压力之间取得平衡。
要制作出在物理世界中看起来无异的物品需要耗费很长的时间,更复杂的是有时需要让多个物体和角色在虚拟世界中互动。模拟物理已变得和模拟光线一样重要,例如虚拟工厂中的机器人不仅要有与真实机器人完全相同的外观,还要有完全相同的承重和制动能力。
完全做到这一点很难,但这也蕴含着巨大的机遇。除了产品设计外,它还影响到交通运输、医疗、电信、娱乐等多个万亿美元的行业。最终,在虚拟世界中创建的内容数量将超过在物理世界中创建的内容。
为了简化和缩短这一流程,NVIDIA发布新的研究和多款工具,这些工具将神经图形的应用于创建、动画3D物体和世界。
这些SDK包括为行业标准OpenVDB带来突破性更新的 NeuralVDB,以及建立神经场研究框架的Pytorch库——Kaolin Wisp 。它们不但简化了设计师的创作流程,还使数百万非专业设计人士也能轻松创建3D内容。
神经图形是将AI和图形学相结合的新领域,可以用来创建能够从数据中学习的加速图形流程。AI的加入改进了结果、帮助实现设计选择的自动化并为艺术家和创作者提供目前无法想象的新机会。神经图形学将重新定义用户的虚拟世界创建、模拟和体验方式。
NVIDIA AI工具可为各个级别的创作者(视觉特效和动画工作室、创意专业人士,甚至是摄像头发烧友)实现由深度学习驱动的表演捕捉技术。
借助NVIDIA Vid2Vid Cameo,创作者可以利用AI从专业摄像头或智能手机拍摄的标准2D视频中捕捉面部动作和表情。这种表演可实时用于为虚拟形象、人物或绘画制作动画。
通过3D人体姿态估计软件,创作者可以捕捉散步、跳舞和武术表演之类的全身动作,从而利用 AI 让虚拟角色栩栩如生。
对于没有3D经验的个人,这些工具可以助力他们使用智能手机视频片段轻松制作创意项目动画。专业人士可以更进一步,结合使用姿态估计和Vid2Vid Cameo软件,将自己的动作传输到虚拟角色,用于直播或动画项目。
创意工作室可以利用AI驱动的表演捕捉技术进行概念设计或预视觉化,从而快速传达特定动作在数字角色上的样子。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。