Nvidia今天推出了一系列新产品,让企业能够更轻松地构建先进的自然语言处理模型。
第一款产品是BioNeMo,一个开发自然语言处理模型的框架,可以帮助科学家进行生物学和化学研究。除了该框架之外,Nvidia还推出了两项基于云的AI服务,第一个服务将简化使用BioNeMo开发AI模型,另一项服务则专注于加快把神经网络应用于文本处理例如总结研究论文等。
BioNeMo
AI处理数据和做出决策的方式受配置设置(称为参数)的影响,AI模型的参数越多,处理数据的准确性就越高。
近年来,研究人员开发了多种包含数十亿参数的自然语言处理模型,这种神经网络被称为大型语言模型(LLM),最先进的LLM不仅可以应用于传统的文本处理,例如总结研究论文,还可以用于编写软件代码和执行其他各种任务。
科学家们发现,LLM的处理能力非常适合生物分子研究。这次Nvidia推出的BioNeMo框架专门用于训练能够支持生物学和化学领域研究的LLM,此外还包含了多项功能可简化在生产中部署此类神经网络的任务。
Nvidia方面表示,科学家可以使用该框架来训练具有数十亿个参数的LLM。此外,BioNeMo包含了四个预训练的语言模型,相比从零开始开发神经网络来说,能够更快速地应用于研究任务中。
首批两个预训练的语言模型ESM-1和OpenFold已经针对预测蛋白质的特性进行了优化。BioNeMo支持ProtT5,一种可用于生成新蛋白质序列的神经网络,另外一个神经网络是MegaMolBART,可用于预测分子如何相互作用等任务。
新的云服务
除了BioNeMo,Nvidia今天还推出了两项新的云服务,旨在简化构建AI应用的任务,并且都提供了一组预打包的语言模型。
第一个云服务BioNeMo Service支持使用Nvidia BioNeMo框架创建的两种语言模型,这两个神经网络经过优化可以支持生物学和化学方面的研究,据称可以配置多达数十亿个参数。
Nvidia设想生物技术和制药公司可以利用BioNeMo服务来加速药物的发现,称该服务可以帮助科学家生成用于治疗用途的新生物分子,以及执行与医学研究相关的其他任务。
Nvidia创始人、首席执行官黄仁勋表示:“大型语言模型具有变革每个行业的潜力,调优基础模型的能力让数百万开发人员可以利用LLM,让他们如今可以打造各种语言服务并推动科学发现,而无需从头开始构建庞大的模型。”
Nvidia此次推出的第二项云服务名为NeMo LLM Service,它提供了包含30亿到5300亿个参数的预训练语言模型集合,这些语言模型可用于生成文本摘要、支持聊天机器人和编写软件代码等任务。
NeMo LLM服务中的神经网络已经经过了Nvidia的预先训练,但企业可以选择在自己自定义的数据集上做进一步的训练。让神经网络熟悉和了解某个企业的数据,使其能够更准确地处理这些数据。
企业组织可以使用一种“提示学习”(Prompt Learning)的方法在NeMo LLM服务中训练AI模型。“提示学习”包括为神经网络提供部分句子,例如“Nvidia为…开发芯片”,并指示它来完成文本,通过多次重复这个过程,开发人员就可以教会神经网络执行某些计算任务。
与传统的AI训练方法相比,提示学习的主要好处是,在某些类型的机器学习项目中使用该技术可以大大加快速度。据Nvidia称,客户可以在几分钟或者是几小时内训练NeMo LLM服务提供的神经网络,而不是长达数月时间。训练完成之后,就可以把这个神经网络部署到云环境或者企业的本地基础设施中。
NeMo LLM服务和BioNeMo LLM服务将于提供早期访问,BioNeMo框架将提供测试版。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。