GTC发布多项视觉AI技术更新,云原生微服务Metropolis Microservices帮助快速跟踪视觉 AI 应用程序的开发和部署,解决计算机视觉领域挑战。

AI正在迎来爆发,几乎每个行业都在使用AI赋能的计算机视觉解决最棘手的问题。
NVIDIA在3月23日周四举行的全球AI和元宇宙大会GTC上发布了多项引爆新一轮视觉AI热潮的技术更新,包括用于创建自定义生产级AI模型的NVIDIA TAO工具套件5.0、用于开发视觉AI应用和服务的软件开发工具套件NVIDIA DeepStream扩展,以及抢先体验用于加速视觉AI的强大云原生构建块Metropolis Microservices。
引爆视觉AI热潮和生态壮大

超过1000家公司正在使用NVIDIA Metropolis开发者工具的视觉AI解决方案,解决物联网(IoT)、传感器处理和运营方面的难题,采用速度还在加快。目前,这些工具已被想要构建视觉AI应用的用户下载超过100万次。
百事公司使用NVIDIA Metropolis优化自身运营,提高生产量、减少停工时间和最大程度地减少能耗。
作为方便食品和饮料巨头,百事率先使用NVIDIA Omniverse平台在配送中心开发AI驱动的数字孪生,以便直观了解设施中的各种设置是如何影响运营效率的,然后才部署到现实世界。百事公司同时也使用NVIDIA AI 平台和GPU驱动的先进机器视觉技术,提高分销流程效率和精准性。
工业自动化和数字化领域的技术领导者西门子也通过NVIDIA Metropolis,将新一代感知技术加入到其边缘应用中。借助工厂中数百万的传感器,西门子使用NVIDIA Metropolis(边缘AI的关键应用框架)连接整个机器人编队和物联网设备,并将AI引入到其工业环境中。
汽车制造商宝马集团在其慕尼黑工厂使用由Seoul Robotics构建、NVIDIA Jetson边缘AI平台驱动的基于激光雷达和摄像头的计算机视觉技术 ,实现汽车移动的自动化,此举大幅节省了时间和成本,提高了员工工作的安全性。
让所有开发人员能够在任何设备上使用世界级视觉AI
任何技能水平的开发人员都能使用AI,新一轮AI应用热潮即将到来。
NVIDIA在GTC上展示了Metropolis工作流程的重大扩展,通过NVIDIA TAO工具套件、 Metropolis Microservices和 DeepStream SDK,以及NVIDIA Isaac Sim合成数据生成工具与机器人仿真应用,为开发人员带来最新的AI性能和研究成果。

NVIDIA TAO工具套件是一个低代码AI框架,能够为任何开发人员在任何服务和设备上开发视觉AI模型提供极大便利。 TAO 5.0包含许多新的功能,包括视觉转换器预训练AI模型、通过标准ONNX导出在任何平台上部署的能力、使用AutoML自动超参数调整,以及AI辅助数据注释等。
全球领先的嵌入式微控制器制造商意法半导体,将TAO集成到其STM32Cube AI开发者工作流程中。借助TAO,该公司能够在STM32微控制器驱动的各种物联网和边缘用例中,根据它们的最大算力和内存运行各种复杂AI功能。

NVIDIA DeepStream SDK已成为各个行业想要创建视觉AI应用的开发人员所使用的一款强大工具。随着最近的一次更新,新的图形执行运行时(GXF)允许开发人员扩展到开源GStreamer多媒体框架之外。一些用户想要构建具备严格执行控制、高级调度和关键线程管理能力的应用,对于他们来说,GXF的加入彻底改变了“游戏规则”。这一功能为用户带来了工业质量控制、机器人和自主机器等方面的大量新应用。
为了在现实空间中加入感知能力,往往需要将视觉AI应用于覆盖多个区域的众多摄像头。
计算机视觉领域目前所面临的挑战,包括监测包装货物在仓库中的流动情况,以及分析大型零售空间中的独立客流。Metropolis Microservices使这些复杂的视觉AI任务能够便捷地集成和部署到用户的应用中。
行业领先的IT服务公司Infosys使用NVIDIA Metropolis大幅加快其视觉AI应用的开发和部署速度。NVIDIA TAO低代码训练框架和预训练模型帮助Infosys减少AI训练的工作量。Metropolis Microservices以及DeepStream SDK优化了该公司的视觉处理流程吞吐量,并降低整体解决方案成本。Infosys还可以使用NVIDIA Omniverse Replicator SDK生成大量合成数据,用新的库存单元和包装来轻松训练AI模型。
好文章,需要你的鼓励
TPU与GPU之间的竞争正在重塑AI硬件市场格局。GPU基于并行处理,能处理多样化任务,而TPU专门针对张量矩阵运算进行优化。谷歌TPU采用类似RISC的设计理念,通过限制功能来提升特定运算效率。随着Meta计划在2027年采购数十亿美元的TPU芯片,Anthropic宣布使用百万TPU训练Claude模型,TPU生态系统正在获得发展动力,对英伟达的GPU霸主地位构成挑战。
Meta与华盛顿大学联合研究团队开发出无需人类标注的AI评判官自我训练框架。该方法通过生成合成对比数据、自我判断筛选和反复学习,使110亿参数的AI评判官在多项视觉语言任务中超越GPT-4o等大型模型,成本仅为传统方法的1%,为AI自主学习和评估开辟新路径。
本文提出2026年AI发展十大预测,包括AI估值修正、投资泡沫持续、AGI不仅依赖大语言模型、AI代理将加剧工作替代等。作者强调社会接受度对技术发展的重要性,认为成功企业将重构运营模式以AI为核心,同时指出政府仍将重视STEM教育而忽视社会科学的价值。
华中科技大学团队开发出4DLangVGGT技术,首次实现AI系统对4D动态场景的语言理解。该技术突破传统方法需要逐场景训练的限制,能跨场景通用部署。系统结合几何感知和语义理解,不仅能识别物体还能描述其时间变化过程。实验显示在多项指标上超越现有方法1-2%,为机器人、AR/VR、智能监控等领域提供重要技术支撑。