两家厂商上周在Amazon的年度客户大会AWS re:Invent上亮相,并就正在进行的合作发布了一系列公告。
此次的更新包括Nvidia NIM微服务已经在各种AWS AI服务上可用,将为AI开发人员提供更快的推理速度和更低的延迟,此外还推出了Nvidia的DGX Cloud on AWS,以及AI领域的其他各项发展成果。
对于开发人员来说,最大的新闻就是NIM微服务在AWS上的可用性得到了扩展。
Nvidia NIM让开发人员可以轻松访问一系列易于使用的微服务,从而可以轻松地在任何环境(例如云、本地数据中心和工作站)中部署高性能AI模型推理工作负载。两家厂商表示,通过此次更新,现在开发人员可以从AWS Marketplace、新的AWS Bedrock Marketplace以及Amazon SageMaker Jumpstart访问这些服务,让他们可以更轻松地从他们使用的任何界面部署这些服务。
此外,用户可以把这些微服务部署到多项AWS服务中,包括Amazon Elastic Compute Cloud、Amazon SageMaker和Amazon Elastic Kubernetes Service。
NIM微服务是以预构建容器的形式提供的,附带了多种推理引擎,包括Nvidia Triton Inference Server、Nvidia TensorRT、Nvidia TensorRT-LLM和PyTorch,此外还支持数百种不同的AI模型,包括AWS Bedrock Marketplace中提供的模型、Nvidia自己的AI基础模型以及客户自定义的模型。
DGX Cloud现已上线AWS
除了NIM微服务之外,开发人员还可以访问新的基础设施产品,即Nvidia DGX Cloud。Nvidia DGX Cloud现在可以通过AWS Marketplace Private Offers提供给客户,让客户可以访问完全托管的高性能计算平台,用于训练、定制和部署AI模型。
DGX Cloud是一种云托管的AI超级计算服务,让企业可以访问Nvidia的GPU、训练生成式AI和其他类型应用的高级模型所需的软件。
Nvidia表示,使用DGX Cloud的一个优势就是它具有灵活性的部署条款,客户还可以直接联系Nvidia的专家,他们将随时提供扩展AI部署所需的技术专业知识。
DGX Cloud平台目前为客户提供了对Nvidia最强大的GPU、Nvidia H100和H200的访问路径,并将很快扩展到包括计划于新年推出的下一代Blackwell GPU。
AWS表示,Blackwell芯片将作为GB200 NVL超级计算系统的一部分提供,该系统将受益于其新的液体冷却系统,相比其他云平台具有更高的能效和最高的性能。
AI蓝图、机器人模拟和药物发现
其他与AI相关的公告中,Nvidia表示正在提供很多新的AI Blueprints,可即时部署在AWS上,这些蓝图为视频搜索、容器漏洞分析和文本摘要等任务提供了随时可部署的AI代理,可以轻松集成到现有的开发者工作流程中。
Nvidia表示,这些蓝图将实现很多可能性。例如,开发人员可以使用视频搜索的AI Blueprints快速创建能够实时分析视频的视觉AI代理。然后,它可以为安全团队生成警报,或识别工作场所的健康和安全违规行为,发现生产线上的缺陷产品等等。
Nvidia也在AI机器人方面取得了进展。长期以来,Nvidia一直相信AI有助于实现机器人自动化,从而使它们能够在现实世界中执行更有用的任务,此次更新旨在加速模拟这些用例的方式。
其中的关键是Nvidia Omniverse平台。Nvidia表示,正在Nvidia Omniverse上提供一个参考应用,用于创建逼真的虚拟环境和数字孪生,据称该应用是由其L40S GPU加速的高性能AWS EC2 G6e实例提供支持的,开发人员可以使用它在任何环境中模拟和测试AI机器人,并具有高度逼真的物理效果。
与此同时,Nvidia和AWS也在努力加速AI在新型药物开发领域的应用。他们表示,Nvidia的BioNeMo NIM微服务和用于推进药物发现的AI Blueprints现在搭配AWS HealthOmics一起提供,后者是一种完全托管的生物数据计算和存储服务,旨在支持临床诊断。
两家厂商表示,此次合作扩展了AWS HealthOmics的功能,让研究人员有机会尝试更多的AI模型。
推进量子计算
最后Nvidia表示,正在与AWS合作帮助加速量子计算的发展。Nvidia的Nvidia CUDA-Q平台用于开发跨越传统和量子计算机的“混合量子/经典计算应用”,将集成Amazon Braket服务。
Amazon Braket使用户更容易在量子处理器上设置、监控和执行混合量子-经典算法。Nvidia表示,通过这种集成,CUDA-Q用户就可以利用Amazon Braket的量子资源,而Braket用户将可以利用CUDA-Q的GPU加速工作流程进行开发和模拟。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。