GTC发布多项视觉AI技术更新,云原生微服务Metropolis Microservices帮助快速跟踪视觉 AI 应用程序的开发和部署,解决计算机视觉领域挑战。

AI正在迎来爆发,几乎每个行业都在使用AI赋能的计算机视觉解决最棘手的问题。
NVIDIA在3月23日周四举行的全球AI和元宇宙大会GTC上发布了多项引爆新一轮视觉AI热潮的技术更新,包括用于创建自定义生产级AI模型的NVIDIA TAO工具套件5.0、用于开发视觉AI应用和服务的软件开发工具套件NVIDIA DeepStream扩展,以及抢先体验用于加速视觉AI的强大云原生构建块Metropolis Microservices。
引爆视觉AI热潮和生态壮大

超过1000家公司正在使用NVIDIA Metropolis开发者工具的视觉AI解决方案,解决物联网(IoT)、传感器处理和运营方面的难题,采用速度还在加快。目前,这些工具已被想要构建视觉AI应用的用户下载超过100万次。
百事公司使用NVIDIA Metropolis优化自身运营,提高生产量、减少停工时间和最大程度地减少能耗。
作为方便食品和饮料巨头,百事率先使用NVIDIA Omniverse平台在配送中心开发AI驱动的数字孪生,以便直观了解设施中的各种设置是如何影响运营效率的,然后才部署到现实世界。百事公司同时也使用NVIDIA AI 平台和GPU驱动的先进机器视觉技术,提高分销流程效率和精准性。
工业自动化和数字化领域的技术领导者西门子也通过NVIDIA Metropolis,将新一代感知技术加入到其边缘应用中。借助工厂中数百万的传感器,西门子使用NVIDIA Metropolis(边缘AI的关键应用框架)连接整个机器人编队和物联网设备,并将AI引入到其工业环境中。
汽车制造商宝马集团在其慕尼黑工厂使用由Seoul Robotics构建、NVIDIA Jetson边缘AI平台驱动的基于激光雷达和摄像头的计算机视觉技术 ,实现汽车移动的自动化,此举大幅节省了时间和成本,提高了员工工作的安全性。
让所有开发人员能够在任何设备上使用世界级视觉AI
任何技能水平的开发人员都能使用AI,新一轮AI应用热潮即将到来。
NVIDIA在GTC上展示了Metropolis工作流程的重大扩展,通过NVIDIA TAO工具套件、 Metropolis Microservices和 DeepStream SDK,以及NVIDIA Isaac Sim合成数据生成工具与机器人仿真应用,为开发人员带来最新的AI性能和研究成果。

NVIDIA TAO工具套件是一个低代码AI框架,能够为任何开发人员在任何服务和设备上开发视觉AI模型提供极大便利。 TAO 5.0包含许多新的功能,包括视觉转换器预训练AI模型、通过标准ONNX导出在任何平台上部署的能力、使用AutoML自动超参数调整,以及AI辅助数据注释等。
全球领先的嵌入式微控制器制造商意法半导体,将TAO集成到其STM32Cube AI开发者工作流程中。借助TAO,该公司能够在STM32微控制器驱动的各种物联网和边缘用例中,根据它们的最大算力和内存运行各种复杂AI功能。

NVIDIA DeepStream SDK已成为各个行业想要创建视觉AI应用的开发人员所使用的一款强大工具。随着最近的一次更新,新的图形执行运行时(GXF)允许开发人员扩展到开源GStreamer多媒体框架之外。一些用户想要构建具备严格执行控制、高级调度和关键线程管理能力的应用,对于他们来说,GXF的加入彻底改变了“游戏规则”。这一功能为用户带来了工业质量控制、机器人和自主机器等方面的大量新应用。
为了在现实空间中加入感知能力,往往需要将视觉AI应用于覆盖多个区域的众多摄像头。
计算机视觉领域目前所面临的挑战,包括监测包装货物在仓库中的流动情况,以及分析大型零售空间中的独立客流。Metropolis Microservices使这些复杂的视觉AI任务能够便捷地集成和部署到用户的应用中。
行业领先的IT服务公司Infosys使用NVIDIA Metropolis大幅加快其视觉AI应用的开发和部署速度。NVIDIA TAO低代码训练框架和预训练模型帮助Infosys减少AI训练的工作量。Metropolis Microservices以及DeepStream SDK优化了该公司的视觉处理流程吞吐量,并降低整体解决方案成本。Infosys还可以使用NVIDIA Omniverse Replicator SDK生成大量合成数据,用新的库存单元和包装来轻松训练AI模型。
好文章,需要你的鼓励
OpenAI于周二发布AI浏览器ChatGPT Atlas,目标是让ChatGPT成为搜索和问答的首选界面而非谷歌。该浏览器目前仅支持Mac,但正在开发Windows、iOS和Android版本。Atlas将ChatGPT设为默认搜索选项,并具备记忆功能,可结合浏览历史提供个性化答案。与其他AI浏览器不同,Atlas更专注于强化ChatGPT生态系统,为OpenAI提供更多用户数据和分发控制权,而非改善传统浏览体验。
这项由伊利诺伊大学厦巴纳-香槟分校和滑铁卢大学联合完成的研究,开发了名为VideoScore2的AI视频评估系统,能够像人类专家一样从视觉质量、文本对齐和物理一致性三个维度对AI生成视频进行详细评估,并提供透明的分析过程。该系统在多项测试中显著超越现有评估工具,在准确率上提升近6个百分点,为AI视频行业提供了标准化、可解释的质量评估解决方案,有望推动整个领域的技术进步。
通用汽车宣布计划于2028年推出自动驾驶系统,允许驾驶员双眼离开道路、双手离开方向盘,首先应用于凯迪拉克Escalade IQ。该系统基于现有Super Cruise技术,采用激光雷达、雷达和摄像头感知技术,初期在高速公路使用。通用整合了已关闭的Cruise子公司的技术栈,包括基于500万英里无人驾驶数据训练的AI模型。目前美国仅奔驰拥有商用L3级自动驾驶系统。
滑铁卢大学研究团队提出批评强化学习新方法,让AI模型在学习编程的同时学会批评代码质量。CRITIQUE-CODER模型采用8:2混合训练,不仅保持编程能力还获得代码评价能力。实验显示,该方法让小参数模型超越大模型,4B参数版本在LiveCodeBench达59分,超越基础模型4.8分。更重要的是,批评能力可迁移到逻辑推理等其他领域,为AI训练范式转变指明新方向。