加速图形技术推动AWS和Microsoft Azure 云端XR串流技术发展
NVIDIA技术一直是全球各种精彩虚拟现实体验背后的推动力。
每一代GPU都在逐步提高VR环境的标准,创造出具有逼真细节的互动体验,将生产力、协作和乐趣提升到一个新的高度。
而在每一届GTC大会上,NVIDIA都会发布新的技术和软件开发工具包,帮助开发者创造出比以往更加沉浸、更令人愉悦的扩展现实(XR)内容和体验。
从使用NVIDIA CloudXR的无线串流功能到使用NVIDIA Omniverse在虚拟世界中进行协作,我们的最新技术正在赋能新一代XR。
在今年的GTC大会上,NVIDIA宣布推出新版CloudXR,增加了对iOS系统支持。我们还和领先的云服务供应商一起宣布,将在云端提供高质量的XR串流功能,并且我们还发布了新版可变速率超级采样(Variable Rate Supersampling),以提高可视化性能。
同时实现高性能和VR移动性
领先的NVIDIA CloudXR技术为XR用户提供了一个集NVIDIA GPU性能和无线一体式头戴显示器移动性于一身的两全其美选择。
CloudXR可在任何设备上串流任何服务器上的XR内容。用户可以在全球任何地点轻松获取强大、高质量的沉浸式体验,而且无需与工作站建立物理连接。
无论是审核3D模型的产品设计师还是运行模拟训练的第一响应人员,任何人都可以在Windows和Android设备上使用CloudXR。我们即将发布CloudXR 2.1,增加对苹果iOS AR设备的支持,包括iPad和iPhone。
将XR串流带到云端
随着5G网络普及,各行业可以通过在云端使用5G网络进行XR串流来大大增强他们的工作流程。但从云端提供XR的最大挑战是延迟性——为了让用户获得良好的VR体验,他们必须将移动时间延迟控制在20毫秒以内。
为了提供最佳云端串流体验,我们对NVIDIA CloudXR进行了略微调整。在过去的6个月中,我们已经取得了巨大的进展,为Amazon Web Services、腾讯等多家云服务供应商提供CloudXR串流功能。
在今年的GTC大会上,我们将继续朝这个方向前进并发布更多信息:
此外,在GTC大会上,谷歌还将通过分会展示CloudXR在谷歌云实例上运行。
为了支持全球各地的CloudXR,我们正在为我们的系列添加更多的客户端设备。
我们与高通技术公司合作推出无边界XR(boundless XR),并与爱立信合作开发其5G无线系统和数据分组核心网基础设施,以优化CloudXR。您可以通过GTC大会XR渠道,在BT分会上观看如何将这项工作转移到制造环境中。
我们已经和Magic Leap就CloudXR集成展开合奏,并且他们将在GTC大会上展示这一集成示例。Magic Leap和CloudXR朝空间计算迈出了一大步,也为企业客户提供大有裨益的先进解决方案。
重新定义XR体验
为给用户提供最佳画面表现而言,VR体验中的画面质量至关重要。为此,NVIDIA开发了Variable Rate Supersampling(VRSS),将渲染资源集中在对图像质量影响最大的区域。
第一个VRSS版本已支持屏幕中心的固定注视点渲染。最新版本的VRSS 2加入了动态视线追踪,能够随着用户的注视点区域移动。
这些XR技术上的进步也为解决方案打下了基础,让用户能够在高度逼真的沉浸式环境中学习、工作、协作或与他人一起进行游戏。CloudXR iOS集成即将在简化3D生产流水线的协作和模拟平台——NVIDIA Omniverse上推出。
全球各地的团队可以进入Omniverse并通过各种先进的内容创建应用在一个共享虚拟空间中进行同步协作。在即将发布的CloudXR 2.1版本中,Omniverse用户可以使用iOS平板电脑和手机传输特定的AR解决方案。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。