在研究与开发医疗设备算法的过程中,始终需要具有高端算力的专用PC来探索最先进的算法。
并行计算平台和编程模型CUDA的出现,推动了NVIDIA GPU在许多医疗设备、医疗器械和模型中的集成,实现了高性能算法工作负载的软件开发循环。如今,AI已被应用于医学影像工作流程,并且自然而然地扩展到了其他使用医学影像的领域,例如具有视频或图像采集功能的医疗设备等。为了将AI集成到医疗设备中,需要投入更多的计算资源来加快新功能的开发。
NVIDIA正在推出NVIDIA Clara AGX开发套件来满足这一需求,从而推动针对医疗器械的高级算法和AI技术的研究。Clara AGX开发套件包含:Jetson AGX Xavier、Mellanox Connect X-6 NIC、RTX 6000 GPU和HDMI 2.0输入。Clara AGX SDK提供必要的OS、驱动程序和存储库、容器化运行时,以及AI技术示例。这一硬件和软件的组合创建了一个独特的平台,通过该平台,医疗设备制造商、软件开发者和医学研究界能够更轻松地将AI先进技术应用于医疗器械。
用于AI技术开发的可扩展计算
Clara AGX开发套件建立在Jetson AGX Xavier基础之上,包含一个基于Jetson产品系列的丰富且多样化存储库和工具的生态系统。Jetson AGX Xavier模块将运行功率低至10W、算力高达32 TOPS的AI自主机器变成现实。作为全球领先AI计算平台的一部分,该模块受益于NVIDIA丰富的AI工具和工作流,开发者可使用它快速训练和部署神经网络。Jetpack SDK是一款用于构建AI应用的综合解决方案,它通过标准Linux操作系统、为主板组件提供支持的BSP以及对CUDA的支持(并因此带来了整个CUDA加速生态系统),为Clara AGX开发套件提供支持。此外,Clara AGX SDK包含用于构建流数据处理流程的Rivermax和DeepStream、支持通过EGX进行部署的容器化运行时,以及用于为特定用例建模的参考应用。
虽然Jetson平台在技术上非常适合产品化,但新一代算法的开发需要NVIDIA独立GPU提供更多计算资源。高性能的RTX GPU能够减少优化代码所需的时间,并且可以在不影响性能的情况下进行算法实验。
Clara AGX开发套件中包含NVIDIA RTX 6000 GPU,其峰值性能超过200 INT8 AI TOPS。RTX 6000可以运行最复杂、要求最高的AI应用中的多个并发推理流程,从而促进最新AI模型的研发。
当研发完成且最终AI模型已准备就绪时,开发者可以优化这些模型,并将它们部署到一个完全可扩展的架构上。追求低功耗用例的开发者可以使用Jetson产品系列,该系列产品满足了小型产品对功耗和尺寸要求。此外,开发者也可以在结合Jetson和RTX GPU的产品系统上,部署高性能用例。NVIDIA正通过一套应用软件提供一个完整且可扩展的产品系列。
适用于高带宽传感器的可扩展连接
医疗器械以及许多其他嵌入式系统都需要通过GPU Direct或RDMA流在各类上游传感器和GPU之间建立高带宽连接。Clara AGX开发套件让客户能够通过两种不同的媒介实现这类专用连接。
第一种是通过集成NVIDIA Mellanox ConnectX-6 NIC实现对100G以太网和10G以太网的支持。该先进设备能够以全线速将GPU Direct连接到RTX 6000 GDDR DRAM。Clara AGX开发套件可减轻网络堆栈的负担,从而使串流的传感器数据包能够实现最高的吞吐量和性能,同时最大程度地减少对CPU利用率的影响。
第二种是用户可以采用两个支持自定义PCIe卡或其它NIC的PCIe Gen4x8插槽。第一个PCIe端口用于连接NVIDIA Mellanox ConnectX-6 NIC中的集成交换机。该端口支持将RDMA数据直接传输到RTX6000 GDDR DRAM中,其用例包括具有多个4k60 12G SDI输入的自定义视频采集卡。第二个PCIe端口用于直接连接Jetson AGX Xavier模块。该端口可以连接外部主机或通过自定义卡实现专用输出。
合作伙伴开发者计划
NVIDIA还为Clara AGX开发套件推出了合作伙伴开发者计划,包含NVIDIA硬件和协作网络。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。