在研究与开发医疗设备算法的过程中,始终需要具有高端算力的专用PC来探索最先进的算法。
并行计算平台和编程模型CUDA的出现,推动了NVIDIA GPU在许多医疗设备、医疗器械和模型中的集成,实现了高性能算法工作负载的软件开发循环。如今,AI已被应用于医学影像工作流程,并且自然而然地扩展到了其他使用医学影像的领域,例如具有视频或图像采集功能的医疗设备等。为了将AI集成到医疗设备中,需要投入更多的计算资源来加快新功能的开发。
NVIDIA正在推出NVIDIA Clara AGX开发套件来满足这一需求,从而推动针对医疗器械的高级算法和AI技术的研究。Clara AGX开发套件包含:Jetson AGX Xavier、Mellanox Connect X-6 NIC、RTX 6000 GPU和HDMI 2.0输入。Clara AGX SDK提供必要的OS、驱动程序和存储库、容器化运行时,以及AI技术示例。这一硬件和软件的组合创建了一个独特的平台,通过该平台,医疗设备制造商、软件开发者和医学研究界能够更轻松地将AI先进技术应用于医疗器械。
用于AI技术开发的可扩展计算
Clara AGX开发套件建立在Jetson AGX Xavier基础之上,包含一个基于Jetson产品系列的丰富且多样化存储库和工具的生态系统。Jetson AGX Xavier模块将运行功率低至10W、算力高达32 TOPS的AI自主机器变成现实。作为全球领先AI计算平台的一部分,该模块受益于NVIDIA丰富的AI工具和工作流,开发者可使用它快速训练和部署神经网络。Jetpack SDK是一款用于构建AI应用的综合解决方案,它通过标准Linux操作系统、为主板组件提供支持的BSP以及对CUDA的支持(并因此带来了整个CUDA加速生态系统),为Clara AGX开发套件提供支持。此外,Clara AGX SDK包含用于构建流数据处理流程的Rivermax和DeepStream、支持通过EGX进行部署的容器化运行时,以及用于为特定用例建模的参考应用。
虽然Jetson平台在技术上非常适合产品化,但新一代算法的开发需要NVIDIA独立GPU提供更多计算资源。高性能的RTX GPU能够减少优化代码所需的时间,并且可以在不影响性能的情况下进行算法实验。
Clara AGX开发套件中包含NVIDIA RTX 6000 GPU,其峰值性能超过200 INT8 AI TOPS。RTX 6000可以运行最复杂、要求最高的AI应用中的多个并发推理流程,从而促进最新AI模型的研发。
当研发完成且最终AI模型已准备就绪时,开发者可以优化这些模型,并将它们部署到一个完全可扩展的架构上。追求低功耗用例的开发者可以使用Jetson产品系列,该系列产品满足了小型产品对功耗和尺寸要求。此外,开发者也可以在结合Jetson和RTX GPU的产品系统上,部署高性能用例。NVIDIA正通过一套应用软件提供一个完整且可扩展的产品系列。
适用于高带宽传感器的可扩展连接
医疗器械以及许多其他嵌入式系统都需要通过GPU Direct或RDMA流在各类上游传感器和GPU之间建立高带宽连接。Clara AGX开发套件让客户能够通过两种不同的媒介实现这类专用连接。
第一种是通过集成NVIDIA Mellanox ConnectX-6 NIC实现对100G以太网和10G以太网的支持。该先进设备能够以全线速将GPU Direct连接到RTX 6000 GDDR DRAM。Clara AGX开发套件可减轻网络堆栈的负担,从而使串流的传感器数据包能够实现最高的吞吐量和性能,同时最大程度地减少对CPU利用率的影响。
第二种是用户可以采用两个支持自定义PCIe卡或其它NIC的PCIe Gen4x8插槽。第一个PCIe端口用于连接NVIDIA Mellanox ConnectX-6 NIC中的集成交换机。该端口支持将RDMA数据直接传输到RTX6000 GDDR DRAM中,其用例包括具有多个4k60 12G SDI输入的自定义视频采集卡。第二个PCIe端口用于直接连接Jetson AGX Xavier模块。该端口可以连接外部主机或通过自定义卡实现专用输出。
合作伙伴开发者计划
NVIDIA还为Clara AGX开发套件推出了合作伙伴开发者计划,包含NVIDIA硬件和协作网络。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。