当我们感到皮肤不适时,仅需通过手机拍摄一张患处照片,很快就能得到可靠的诊断结果,实现皮肤病的自诊、预诊。在医院里,当医生忙不过来时,只需将患者皮肤图像上传到系统,即可获取可信的辅助诊断意见……
这是南开大学“皮肤健康卫士”项目团队首创性提出、基于移动端图像的皮肤病大规模可信综合辅助诊断系统:用户只需简单的通过移动端设备拍摄病例患处样本,图片经过动态加密后上传至系统,经过云端AI多算法共同决策,最终回传给用户可靠可信的综合诊断结果。
我国每年有近1.5亿人患有不同程度的皮肤病,门诊患者数量更是达到了3亿人次之多。但是,我国的皮肤科医生数量仅有两万余名,医患比例达到了惊人的1:7000。在皮肤病的诊断过程中,有两项挑战亟待解决:一是诊断必须依赖皮肤镜等专用设备,耗时长、费用高、效率低;二是常见皮肤病如痤疮、皮炎特征明显,患者通过一定诊断依据有望实现自诊和预诊。“皮肤健康卫士”团队解决了这两项核心挑战:自研全新的三套世界领先诊断算法和两个大规模数据集,基于皮肤科医生临床ABCD诊断法、多任务学习方法和基于极少样本罕见病的平衡自步学习方法,实现了面向皮肤病智能诊断应用场景的智慧医疗创新解决方案。用户只需使用移动端图像即可进行安全、可靠、可信的皮肤病诊断,提高了医疗机构的服务能力,减轻了其压力,为广大人民群众提供了皮肤健康保障。
由南开大学几位硕博学生组成的团队,依靠这一成果,拿下了2022年“互联网+”大学生创新创业大赛全国银奖。他们参加的是由华为提供的“基于昇思MindSpore的智慧医疗创新解决方案”产业赛道命题,在智慧医疗这个方向上,聚焦皮肤病的智能诊疗,实现了一个大规模可信辅助诊断系统。
题目要求使用昇思MindSpore AI框架,这是华为开源的全场景自主人工智能框架,适用于端、边、云多业务场景,具有开发友好、运行高效、部署灵活等诸多优点,通过动静态图的支持,加速AI开发灵活调测与执行;最重要的是,昇思强大的可信AI机制高度符合医疗数据隐私性的需求。
团队指导老师、天津市媒体计算技术工程研究中心副主任、南开大学计算机学院杨巨峰教授介绍说,项目为医生提供辅助诊断的建议,为病患提供自诊支撑。创新之处可以分为数据与算法两大部分,数据方面,高质量的移动端皮肤病图片数据为算法训练提供支持,我们在世界上首次提出了两个新的皮肤病移动端图像公开临床数据集,数据规模位居世界第一。算法方面,我们首先聚焦通用皮肤病诊断算法,并对常见皮肤病和罕见皮肤病分别设计了诊断算法,实现决策互补,提高准确率。算法原理来源于临床医学,使得最终的诊断结果可靠可信,值得医生信赖。
项目团队负责人、南开大学在读硕士研究生刘佳烜介绍说,“昇思具有简洁的API接口,特别是训练流程中的API清晰好用,还具有庞大的算法库作为支持,为我们项目的开发提供了极大的助力。除此之外,昇思也具有完善的生态环境和充满活力的社区氛围,开发者们都非常热情,乐于助人,不仅为我们的算法开发提供了帮助,更是让我们看到了国产深度学习框架的强大活力。”
在比赛过程中,项目遇到的最大难点是如何设计决策互补算法,综合考虑三个诊断算法的结果。刘佳烜认为,决策互补算法并不是简单的几行代码,需要兼顾算法性能与医学可解释性。基于这个问题,团队首先基于南开大学计算机视觉实验室在皮肤病智能诊断领域积累五年的深厚经验,在技术层面做了大量实验,对不同情况下的决策方式进行了分别设计,随后咨询了医院对接的合作团队,结合专业医学意见进行了第二轮调整,最终完成了完善的综合决策系统。
刘佳烜介绍说,他们计划继续深化与华为的全方位合作,与华为健康深度融合。“作为以‘爱国奋斗、公能日新’为价值追求的南开人,为国家和社会贡献新时代青年的力量!”
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。