这些合作基于英伟达的“人工智能工厂”概念,即把原始数据转化为可操作的人工智能模型或“tokens”的数据中心,这些模型或“tokens”可作为各种应用的智能工具。
这些联盟还旨在开发能力更强的代理,即具有决策能力的自主行动数字机器人,这些机器人通常以目标或目的为指导。代理系统可以规划、推理和执行多步骤的任务,适应不断变化的环境和背景,超越回答问题,发起行动。
英伟达表示,人工智能代理现在可以自动处理临床文件,帮助病人寻找治疗,甚至在自然灾害等紧急情况下协调医院的运作。
数以千计的代理
英伟达的医疗保健副总裁 Kimberly Powell表示:“仅在我们的启动计划中,就有超过1000 家数字医疗保健初创企业正在开发数千个人工智能代理。”她以临床对话式生成人工智能平台Abridge为例,该平台使用代理自动处理临床文档,每天可为医生节省多达三小时的文书工作。
Iqvia Holdings是一家为生命科学行业提供先进分析、技术和临床研究服务的供应商,英伟达与该公司合作,简化药物和医疗器械开发。Powell表示,Iqvia的64 PB专有匿名数据集将被英伟达最近发布的Llama Nemotron大型语言模型训练定制模型,“通过人工智能代理推动更高效的临床试验和工作流程转型。”
与梅奥诊所(Mayo Clinic)的合作旨在共同开发新一代病理模型。梅奥诊所将利用英伟达的DGX Blackwell系统和人工智能工具训练超过2000万张数字病理图像,以创建“数字孪生”,即物理实体的计算机化复制品,用于个性化医疗保健。
与生物技术公司Illumina的合作旨在通过将Illumina的测序技术与英伟达的人工智能工具结合,从基因组学数据中获得洞察力。英伟达表示,双方的合作将使基因组学研究民主化,并扩大其在药物发现领域的应用。
Powell表示:“我们将为基因组学开辟新的市场,让人们不仅能获得数据,还能更深入地了解基因组学,推动疾病研究和药物发现取得重大进展。”
英伟达还与非营利性医学研究机构Arc Institute合作,利用英伟达的BioNeMo 自然语言处理框架(如图)为生物学和临床研究创建开源生物基础模型。Powell表示,这样做的目的是促进对DNA、RNA和蛋白质结构的理解,从而推动生物医学研究。
她表示:“我们的合作将专注于利用BioNeMo和DGX云开发真正的生物学基础模型,并将成果贡献回BioNeMo的开源中。”DGX Cloud是一种基于云的人工智能超级计算服务。
大会上还将首次发布名为GenMol的BioNeMo新版本,这是一个用于虚拟筛选的目标导向分子生成NeMo推理微服务。英伟达还将发布蛋白质设计蓝图(Blueprints for Protein Design),这是开发基于蛋白质的疗法的参考工作流。
Powell表示:“数以万计的生命科学公司、研究机构和平台公司现在可以将BioNeMo与传统的实验室工作整合在一起,创建一个人工智能药物发现工厂,业界称之为‘干实验室’。”“我们正在看到的是从湿实验室发现过程向人工智能工厂、干实验室和移动药物发现的转变。”
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。