从初创公司到行业巨头均开始采用AI ,为医疗行业带来变革
AI有着改变医疗行业的潜力。而这种潜力在发展快速的中国尤为显著,因为中国是全球老龄化人口最多的国家之一。
中国的医疗行业致力于解决国内老龄化人口需求,在此过程中,技术发挥着核心作用,特别是对于医学成像和电子数据记录分析。
为此,中国政府在智能医疗领域展开了行动,鼓励数百家AI医疗初创公司和行业巨头借助AI为这一行业的未来发展奠定坚实基础。
要想感受中国面临的挑战有多大,不妨看看中国保险业巨头平安集团,其拥有近1.8亿个人用户。为深入洞察欺诈检测等问题或预测人群疾病,平安科技数据科学团队除了自身独特的机器学习算法,也用到了scikit-learn常用机器学习库,以及以下两种机器学习算法:主成分分析(PCA)和具有噪声应用的基于密度的空间聚类(DBSCAN)。
平安科技最近对RAPIDS进行了试用,这是一个GPU加速的新开源平台,适用于大规模的数据分析和机器学习,让数据科学家首次能够在GPU上运行数据科学管线,并大幅缩短数据集处理时间。
平安科技使用RAPIDS以及GPU加速的PCA和DBSCAN之后,工作流程执行速度加快了80倍,从几天缩短到几小时(包括数据加载和训练时间)。这有助于该公司主动做出预测并完善预防计划。
中国最大的基因公司华大基因(BGI)同样拥有海量数据-超过1PB的数据存放在该公司称为知识库的数据库中。华大基因(BGI)使用一种名叫XGBoost的机器学习算法,对用于癌症患者个性化免疫治疗的靶向多肽进行分类。
华大基因(BGI)团队在NVIDIA DGX-1 AI超级计算机上运行RAPIDS平台,将分析速度提高了17倍,并将多肽的分析范围扩大至数百万种。
在这方面领先的还有一家公司,它就是专注于数字化健康业务的碳云智能(iCarbonX)。该公司使用越来越常见的数字化生理、基因组、代谢组以及宏基因组数据来研究微生物组。碳云智能运用机器学习将微生物组特征和2型糖尿病关联起来,能提供个性化的消费者医疗服务(如饮食建议或治疗方案的制定),通过在TencentCloud P40服务器上部署RAPIDS,该公司的数据分析速度立即加快了6倍。
在互联网上图像和视频量激增的同时,医学成像也成为医疗行业中最早受益于AI的领域。不过,虽然目前有70%的医学成像研究是基于深度学习,但只有少数算法能成功应用到临床阶段。
个中原因是,医学成像AI往往对多项因素都很敏感,例如患者的人口统计特征、成像仪器的使用年限及其在获取图像时的具体设置等。此类变量可能会影响到AI的准确性。
因此,需要在本地开发AI应用程序,而这正是两家领先的中国医学成像公司采取的做法。
联影智能(UnitedImagingIntelligence)是中国顶尖的人工智能医学影像公司之一,它在NVIDIA DGX系统的基础上构建AI架构,以便开发用于全栈式医学影像的人工智能软件uAI。该公司目标是,从影像获取,疾病筛查,治疗方案等全系列医学影像工作流程中开发出优秀的人工智能软件和产品。
同样地,推想科技(Infervision)成立于2015年,仅4年时间已成长为中国人工智能医学影像第一梯队企业,并在国内外合作遍布亚洲、欧洲以及北美洲的众多医院。推想采用NVIDIA Clara平台,旨在提升产品性能,驱动新一代AI成像集群。该公司的InferRead系列解决方案将GPU部署进AI系统,并已应用于全球数百家顶级医院辅助诊断环境。
中国和其他国家/地区都在大力拥抱创新,藉此构建AI医疗行业,让所有国民都能受益其中。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。