Nvidia即将推出Jetson AGX Orin平台的一款生产用模块,旨在嵌入设备内部,并为机器人和边缘计算等各种应用提供AI加速。
Jetson AGX Orin 32GB生产模块将结合一个基于Nvidia Ampere架构的GPU以及一个基于Arm的8核Cortex-A78AE CPU,还有32GB内存和64GB嵌入式(eMMC)闪存存储,搭载在一块尺寸为100mm x 87mm(比Raspberry Pi略大)的板子上。
不过,Jetson AGX Orin 32GB模块的价格比Raspberry Pi的价格要高得多,高达999美元(约合817.32英镑),这让任何感兴趣的用户都有些失望了。
这个模块是Nvidia今年早些时候在GTC大会上公布的四款基于Jetson Orin的生产模块中的第一款,除此之外,Nvidia还推出了Jetson AGX Orin开发工具包。Jetson AGX Orin的64GB版本将于10月上市,而另外两款功能相对弱一些的Orin NX生产模块将于今年晚些时候上市。
根据Nvidia提供的规格数据显示,Jetson AGX Orin 32GB模块每秒可进行200万亿次运算(TOPS),低于开发者套件中硬件的275 TOPS,后者拥有2048核Ampere架构的GPU。而Jetson AGX Orin 32GB中的是1792核GPU。不过据称该模块的性能是此前Jetson Xavier一代模块的6倍。
据Nvidia称,全球合作伙伴网络中约有三十多家技术提供商已经上市了由这款新模块驱动的商用产品。
与开发者工具包一样,这款生产模块采用Nvidia Jetson软件堆栈,让开发者能够在Jetson上构建和部署完全加速的AI应用,包括Nvidia JetPack SDK开发环境,以及用于调整性能的CUDA-X库和工具集合。
Nvidia还表示,Nvidia提供的其他平台也可以采用这款Jetson AGX Orin 32GB模块,例如用于机器人技术的Isaac、用于计算机视觉的DeepStream、用于自然语言理解的Riva,以及使用训练模型加速模型开发的TAO工具包。
该模块提供了一系列I/O选项,从2 x8、1x4 和2 x1 PCIe 4.0通道、千兆位和万兆以太网端口、8K显示输出和USB端口,此外还提供了更多的UART、SPI、I2S和I2C端口,以及CAN总线和GPIO。但是,其中一些I/O选项是共享通用PHY (UPHY)连接器上的通道。
据Nvidia称,这些功能让开发者能够构建和部署Orin驱动的系统,这些系统配备了摄像头、适用于边缘AI、机器人、物联网和嵌入式应用的传感器。
Nvidia表示,合作伙伴将提供可用于生产的系统,让客户能够应对从制造、零售和建筑到农业、物流、医疗保健和智慧城市等行业面临的各种挑战。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。