英特尔和宾夕法尼亚大学佩雷尔曼医学院(宾夕法尼亚大学医学院)正在组建一个联盟,包含29家国际医疗和研究机构,使用一种叫做 “联邦学习”的隐私保护技术来训练可以识别脑肿瘤的人工智能模型。这项工作由美国国立卫生研究院(NIH)国家癌症研究所(NCI)的癌症研究信息技术(ITCR)项目资助,它将向宾夕法尼亚大学生物医学图像计算和分析中心(CBICA)的首席研究员Spyridon Bakas博士提供研究资金,为期三年总计120万美元。
“AI在脑肿瘤的早期检测方面大有可为,但要充分发挥全部潜力,将需要比任何一家医疗中心都要多的数据。借助英特尔软件和硬件以及一些英特尔顶尖人才的支持,我们正在与宾夕法尼亚大学和由29家协作的医疗中心组成的联盟展开合作,在保护敏感的患者数据的同时,促进脑肿瘤的识别。”——Jason Martin,英特尔研究院首席工程师
“机器学习训练需要大量和丰富多样的数据,这并不是某一单独的机构所能持有的,这点已被我们的科学界普遍认可。我们正在协调一个由29家相互协作的国际医疗和研究机构共同组成的联盟,该联盟能够使用包括“联邦学习”在内的隐私保护机器学习技术,将在此基础上训练最先进的AI医疗模型。今年,该联盟将开始开发识别脑肿瘤的算法,此算法的数据集来自于国际脑肿瘤分割(BraTS)挑战赛中大幅扩展的数据集版本。该联盟将允许医学研究人员访问比以往数量大很多的医疗数据,同时能够保护这些数据的安全。”——宾夕法尼亚大学Spyridon Bakas博士
这是如何做到的呢?宾夕法尼亚大学医学院与29家来自美国、加拿大、英国、德国、荷兰、瑞士和印度的医疗和研究机构,是使用“联邦学习”的技术来实现的。这种分布式机器学习方式,可以使得机构组织能够在不共享患者数据的情况下进行深度学习项目的协作。
去年,宾夕法尼亚大学医学院和英特尔率先发表了有关医学影像领域“联邦学习”的论文,特别展示了“联邦学习”方法可以训练出一种模型,使其准确率达到传统无隐私保护训练准确率的99%以上。该论文最初在西班牙格拉纳达举行的2018年国际医学图像计算和计算机辅助干预会议(MICCAI)上发表。这项新工作将利用英特尔软件和硬件实现“联邦学习”,为模型和数据提供额外的隐私保护。
根据美国脑肿瘤协会(ABTA)的数据,今年将有近8万人被确诊患有脑肿瘤,其中儿童患者超过4600名。为了训练和建立一种检测脑肿瘤的模型,以帮助早期检测并获得更好的结果,研究人员需要获得大量相关的医学数据。然而,保持数据私密性并使数据受到保护至关重要,这正是采用英特尔技术的“联邦学习”的用武之地。通过这种方法,来自所有合作机构的研究人员将能够共同协作,构建和训练一种算法来检测脑肿瘤,同时保护敏感的医疗数据。
2020年,宾夕法尼亚大学医学院和29家国际医疗和研究机构将使用英特尔的“联邦学习”硬件和软件,在迄今为止最大的脑肿瘤数据集上进行训练来生成全新的具有最佳性能的AI模型, 而其中敏感的病患数据将单独保存在各个合作机构中。预计参与发起该联盟第一阶段工作的合作机构小组包括宾夕法尼亚大学医院、圣路易斯华盛顿大学、匹兹堡大学医疗中心、范德比尔特大学、皇后大学、慕尼黑技术大学、伯尔尼大学、伦敦国王学院和塔塔纪念医院等。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。