Nvidia认为,人工智能已经发展到可以可靠地用于帮助诊断疾病和发现新药。
为了实现这些目标,Nvidia今天宣布将与两个团队展开合作,包括与美国放射学会(American College of Radiology)合作研究一种开放式AI架构和参考实施,以及与加速医学治疗研发计划(Accelerating Therapeutics for Opportunities in Medicine,ATOM)联盟合作研究一种新型超级计算机平台。
与美国放射学会合作研究的开放式AI架构和参考实施是针对放射科医生群体的,他们擅长使用医学成像来诊断和治疗疾病,这个参考实施采用了Nvidia Clara AI工具包,提供了三项关键的AI功能包括AI辅助注释、转移学习和联合学习。放射科医生可以创建新的算法、验证这些算法、与同事共享这些算法、使算法可用于各种诊断目的,同时确保训练这些算法所使用的数据是安全的。
Nvidia将Nvidia Clara AI工具包打包在新的ACR AI-LAB软件平台中,放射科医生可以免费使用该平台,并根据自己的患者数据开发AI算法。美国放射学会数据科学研究所首席医疗官Bibb Allen Jr.表示:“这标志着美国放射学会数据科学研究所这个意义非凡的项目进入了初始阶段,该项目为放射科医生提供了在任何实践环境中参与他们所在机构的人工智能开发项目中的机会,利用他们自己的患者数据,来满足他们自己的临床需求。”
这种参考实施与此前项目的关键区别之一在于,AI模型被带入患者数据,而不是数据被转移到模型中,这么做的好处是所使用的任何数据都是保密的。Nvidia称,这还有助于改善人工智能训练的多样性、改进对算法的验证、有助于告诉放射科医生如何根据他们的特定临床需求调整AI模型。
在俄亥俄州立大学的另一个试点项目中,放射科医生采用了一种最初由马萨诸塞州总医院和布莱根妇女医院“临床数据科学中心”医生打造的AI模型。俄亥俄州立大学的医生们将他们自己的数据添加到该模型中,以改进原始的算法。之后,医生们创建了一种非常准确的“心脏计算机断层扫描血管造影模型”,可用于诊断心脏病。
而且,该模型是由没有任何编程经验的放射科医生创建的,不涉及任何机密数据的共享。
“放射科医生希望参与其中,他们希望打造能够满足他们需求的算法,”Nvidia医疗副总裁Kimberly Powell这样表示。
此外,俄亥俄州立大学韦克斯纳医学中心放射学和医学影像信息学系主任Richard White说,“在不同的医院之间构建人工智能网络,将创造出更强大的算法,带来更高的效率,这些对于患者来说可能意味着更好的结果。”
Nvidia还希望通过发现新药来帮助实现更好的患者治疗效果。为此,Nvidia与ATOM联盟合作开发了一个基于AI的新平台,旨在加速这一过程。
ATOM联盟成立于2017年,旨在加快研制新药这一漫长的过程。Nvidia表示,该平台可以处理各种复杂的数据,包括物理化学特性、体外测定结果和匿名人体临床数据。有了这个平台,医生就可以使用数据驱动模型和生成分子设计来设计新药,然后在计算机环境中模拟新药的效果。
ATOM的平台运行在基于Nvidia GPU的超级计算机上,ATOM表示,将向医学研究界提供这一功能以帮助加快新药的问世。ATOM理事会成员、加州大学旧金山分校商业发展、创新和合作伙伴关系副校长Barry Selick表示:“我们通过与Nvidia合作,将推进计算能力在药物设计中发挥的作用,减少实验瓶颈,加速药物发现。”
Constellation Research分析师Holger Mueller表示,Nvidia正在努力推动人工智进入下一个发展阶段:聚焦行业。
Mueller说:“很高兴看到Nvidia致力于让构建AI应用变得更容易,特别是在医疗领域,由于涉及到专业知识和患者隐私,医务人员自己去构建这种应用是很重要的。同时与像ATOM这样具有前瞻思维的机构合作,更有助于验证和传播新的最佳实践。”
他补充说,关键问题在于一些特定行业是否需要自己专有的硬件。
好文章,需要你的鼓励
这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。
香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。
这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。
这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。