1895年11月8日,全球第一张X光片诞生。距今125年的这项突破,为现代医学影像奠定了基础。
在过去的几十年间,整个医学影像硬件和软件的生态系统已逐渐形成。如今,AI初创企业在这一生态系统中发挥着关键作用。
11月30日,NVIDIA宣布成立NVIDIA医疗健康初创加速企业联盟。这项倡议将为医疗AI初创企业提供新的机会,让它们在NVIDIA及其医疗健康行业合作伙伴的帮助下实现创新,并加速获得成功。
NVIDIA 初创加速计划是NVIDIA为90个国家/地区的6500多家AI和数据科学初创企业所提供的一项加速器计划。现在,该计划的会员企业可加入GE医疗Edison开发者计划。通过与GE医疗Edison平台结合,这些初创企业可以访问GE医疗的全球网络,在160个国家/地区中,基于其庞大的400万台成像、移动诊断和监控装置,使用2.3亿份检查和相关数据扩展临床和商业活动。
获得FDA许可的会员企业,还可以加入用于诊断成像的Nuance AI Marketplace。Nuance AI Marketplace通过将开发者与放射学用户直接连接,将AI技术引入放射学工作流程中。它为AI开发者提供单一API,可将开发者的AI解决方案与Nuance PowerShare网络内的8000多家医疗机构中的放射科医生连接,并为用户提供审核、试验、验证和购买AI模型的一站式服务。此举不但弥合了技术鸿沟,还让AI变得更加有用、可用且实用。
实现增长的途径
最近,加入NVIDIA初创加速计划的医疗AI初创企业突破了1000家。该计划为会员企业提供各种长期福利,包括产品上市支持、技术援助以及获得NVIDIA专业知识的机会。这些福利均依据企业发展不同阶段的需求而量身定制。初创企业可通过NVIDIA深度学习学院接受培训、通过NVIDIA全球分销商网络获得硬件的优惠价格、并受邀参加独家社交活动等。
为帮助医疗健康行业以及整个医疗生态中的AI初创企业实现增长,NVIDIA正与医疗健康行业巨头合作,加速初创加速计划会员企业的产品上市。
NVIDIA医疗健康初创加速企业联盟将通过定向网络、AI培训、技术早期访问、营销比赛和技术集成,探索新的增长途径。会员企业将获得量身定制的培训和支持,帮助它们能够在医学影像生态系统中自由地开发、部署和集成NVIDIA GPU加速应用。
部分会员企业除了可以在市场上推广其研发成果之外,还可以直接与共同客户接洽。这项倡议,将一场针对医学影像及相关支持领域领先的AI初创企业营销竞赛拉开序幕。
GE医疗副总裁兼人工智能总经理Karley Yoder表示:“初创企业处在创新的最前沿。GE医疗Edison开发者计划助力其触及全球最大的医疗设备企业和客户群。通过将业内领先合作伙伴的顶尖能力整合在一起,就可以打通加快互联生态系统创新的捷径。此举将有助于改善护理质量、降低医疗成本,并为患者带来更好的治疗效果。”
Nuance高级副总裁兼诊断部门总经理Karen Holzberger表示:“凭借Nuance对放射科医生需求和工作流程的深刻理解,我们可以帮助他们运用AI改变医疗健康行业。通过Nuance AI Marketplace,放射科医生可以在日常使用的解决方案内轻松购买、验证和使用AI模型,从而让其工作变得更加智能、效率更高。AI模型可以帮助放射科医生集中自己的精力与专业知识,适时治疗合适的病例,从而减少大量重复、单调的工作,最终改善患者护理,挽救更多的生命。将NVIDIA初创加速计划会员企业与Nuance AI Marketplace联系起来是天然的契合,它们的结合将使整个行业受益。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。