如今的 AI 智能体系统需要分别调用视觉、语音和语言模型 —— 而在模型间传递数据的过程中,不仅耗时,还会丢失上下文信息。
今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式多模态模型,它将上述功能集成至一个系统中,使智能体能够对视频、音频、图像和文本进行高级推理,从而提供更快、更智能的响应。这一出色的模型为企业和开发者提供了一条生产路径,帮助其构建更高效且更准确的多模态 AI 智能体,并赋予他们完全的部署灵活性与控制权。

Nemotron 3 Nano Omni 凭借其较高的准确性和成本优势,为开放式多模态模型设定了新的效率边界,并在复杂文档智能以及视频和音频理解领域的六项榜单中名列前茅。
目前已采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括 Aible、Applied Scientific Intelligence (ASI)、Eka Care、Foxconn、H Company、Palantir 和 Pyler,同时戴尔科技、Docusign、Infosys、K-Dense、Lila、Oracle 和 Zefr 正在评估该模型。
H Company 首席执行官 Gautier Cloix 表示:“要构建实用的智能体,不能花几秒钟等待模型来解析屏幕。我们的智能体基于 Nemotron 3 Nano Omni 进行构建,可以快速解析全高清屏幕录制内容 —— 而这在过去是无法实现的。这不仅仅是速度上的提升,也改变了我们的智能体实时感知和与数字环境交互的方式。
Nemotron 3 Nano Omni 助力打造更快、更精简的多模态智能体
试想一个客户支持 AI 智能体在处理屏幕录制内容的同时,还需要分析上传的通话音频并检查数据日志;或是一个财务 AI 智能体需要负责解析多个 PDF、电子表格、图表和语音笔记。如今,大多数智能体系统都通过独立的视觉、语音和语言模型来完成这些任务。
这种方法会因为重复推理而增加延迟,导致不同模态之间的上下文碎片化,并随时间推移增加成本和误差性。
通过在其 30B-A3B 的混合专家模型 (MoE) 架构中结合视觉和音频编码器,Nemotron 3 Nano Omni 无需独立的感知模型,从而大规模提高推理效率。它将这种效率与强大的多模态感知准确性相结合,使 AI 系统在保持相同交互性能的情况下,实现比其他开放式全模态模型高 9 倍的吞吐量。因此,其能够在不牺牲响应速度或质量的前提下降低成本并提高可扩展性。
在智能体系统中,Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型,例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra,同时也可结合其他供应商的专有模型协同工作,来支持计算机操作、文档智能和音频-视频推理等智能体工作流中的子智能体。
开放且可定制,随处可部署
Nemotron 3 Nano Omni 发布时附带开放权重、数据集和训练技术,赋予组织对模型定制和部署方式的完全透明度与控制力。
开发者可以使用诸如 NVIDIA NeMo 等工具来定制、评估和优化特定领域的用例。由于 Nemotron 系列模型是开放的,组织可以将其部署在符合监管、主权或数据本地化要求的环境中。
过去一年中,Nemotron 3 系列 —— 包括 Nano、Super 和 Ultra 模型 —— 下载量已超 5,000 万次。Omni 将该系列的能力扩展到多模态和智能体领域。
该模型已在 Hugging Face、OpenRouter 和 NVIDIA 官网以 NVIDIA NIM 的形式上线,并通过广泛的 NVIDIA 云合作伙伴、推理平台和云服务提供商生态系统提供支持。
其开放、轻量级的架构可支持从 NVIDIA Jetson 硬件、NVIDIA DGX Spark 等本地系统到数据中心和云环境的一致性部署。
好文章,需要你的鼓励
谷歌宣布为旗下互动世界构建工具Project Genie新增Google街景功能,用户可基于真实地点生成可探索的游戏世界。只需选定美国境内的地图位置,描述角色形象,并选择"沙漠"或"石器时代"等风格,系统即可生成与现实街景绑定的沉浸式虚拟场景。每次游玩时长限60秒,支持WASD操控,目前仅向AI Ultra订阅用户开放,后续将逐步扩展覆盖范围。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
随着AI编程工具的普及,越来越多的非开发者开始尝试自己构建应用。谷歌在I/O大会上宣布,AI Studio新增功能可让用户通过提示词快速生成原生Android应用,并直接导出到手机。此外,谷歌还推出了基于Gemini的自定义小组件功能,并提出"生成式UI"概念,让手机界面根据需求实时生成。与此同时,苹果据报道也在探索通过提示词创建快捷指令的功能,手机个性化体验或将迎来新突破。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。