Nvidia正在不断扩大Nvidia认证系统的数量,提供给那些在自己数据中心或者在Nvidia云上大规模运行AI工作负载的企业。
这一公告是Nvidia在本周Computex 2021在线大会期间公布的。此外,Nvidia还推出了Nvidia Base Command Platform,一项昂贵的云托管开发服务,为客户提供了一条使用Nvidia超级计算机资源的途径。
今年早些时候Nvidia推出了第一批认证系统,并与服务器硬件制造商合作确保他们的服务器系统负荷Nvidia的设计最佳实践,为AI工作负载提供最佳性能。这些系统将CPU与Nvidia GPU以及Mellanox网络适配卡相结合,为企业提供了多种不同的硬件选项,用于在他们的企业数据中心内或者云端运行AI。
这些经过认证的服务器系统可以运行Nvidia AI Enterprise人工智能和数据分析工具套件及其新的Omniverse Enterprise设计平台,还可以完美配合VMware vSphere虚拟化软件和Red Hat用于AI开发的OpenShift平台使用。
这次公布的新认证系统包括来自戴尔、HPE、联想、华硕、超微等主流服务器制造商,以及Advantech、Altos Computing、ASRock Rack、Gigabyte 和Quanta Cloud Technology等小型公司的x86服务器系统,有很多不同价位和性能水平的选择,其中性能最高的系统配备的是Nvidia A100 Tensor Core GPU,其他则配备了Nvidia A40、A30和A10 Tensor Core GPU。
此前Nvidia表示,戴尔、HPE、超微和Nettrix等厂商将提供一些基于Nvidia HGXTM加速计算平台的首批服务器,针对最先进的AI训练和云计算服务。现在这些系统已经上市,客户可选择配备4个或者8个支持Nvidia NVLink GPU连接和InfiniBand网络的A100GPU。
更高效的系统
今天公布的服务器中,有一些服务器率先集成了Nvidia旨在优化硬件性能的新型BlueField-2 DPU。这款去年10月发布的DPU,旨在处理很多数据中心基础设施管理任务,例如扫描网络流量中的恶意软件,编排原本由CPU处理的存储。
通过将这些任务卸载到DPU,CPU就可以专注于分配给CPU的计算任务,从而提高整体性能。Nvidia称,单个BlueField-2DPU(如下)就可以处理数据中心基础设施管理任务,否则就需要多达125个CPU核心来处理。
“主要运行软件定义网络(例如,状态负载平衡器或分布式防火墙)、软件定义存储或者传统企业应用的服务器,都将受益于DPU为网络、安全和存储加速、卸载和隔离基础设施工作负载的能力。运行VMware vSphere、Windows或者超融合基础设施解决方案的系统,也受益于DPU,无论是运行AI和机器学习应用、图形密集型工作负载还是传统业务应用,”Nvidia存储营销总监John Kim在一篇博文中这样写道。
Nvidia表示,首批采用NVIDIA BlueField-2 DPU的系统将于今年晚些时候上市。
首款基于Arm的认证系统正在开发中
此外,Gigabyte和Wiwynn公司还将推出首款基于Arm的Nvidia认证服务器,采用Arm Neoverse CPU和Nvidia Ampere GPU。Nvidia表示,某些型号还将配备BlueField-2DPU。这些系统准备就绪后将立即提交给Nvidia认证,预计明年上市。
Nvidia企业计算负责人Manuvir Das表示:“各个行业的企业都需要支持他们在传统数据中心基础设施上开展AI方面的创新。Nvidia认证系统开放、不断发展的生态系统为客户提供了前所未有的服务器选择。”
Nvidia Base Command Platform
此次在Computex上宣布推出的Base Command Platform(下图),专门面向那些需要不只是简单服务器所能提供的更多AI资源的团队,适用于“大规模、多用户和多团队的AI开发工作流程”,让数十名研究人员和数据科学家能够同时使用加速计算资源。
Base Command Platform是Nvidia和NetApp提供的一项联合服务,通过NetApp的数据管理服务为AI团队提供访问Nvidia DGX SuperPOD超级计算机的权限,从而为密集型工作负载提供强大的功能。该服务仅适用于专业AI开发人员,据说每月订阅起价为 90,000美元。
为此,客户可以通过统一的界面查看所有AI开发项目,轻松地分配计算资源并进行协作。此外,Nvidia将提供一系列可以使用的AI和数据科学工具,例如NGCTM目录、集成了MLOps的API、Jupyter笔记本等等。
Nvidia 表示,该服务将于今年晚些时候在Google Cloud市场中提供,或者客户可以在自己的数据中心安装一套SuperPOD系统。Nvidia表示,目前该服务主要提供给早期客户使用。
“世界一流的AI开发需要强大的计算基础设施,让这些资源易于访问和获取,将对于把AI带给所有公司及其客户来说是至关重要的,”Das说。
Constellation Research分析师Holger Mueller表示,Nvidia希望通过在众多硬件合作伙伴中认证采用Nvidia DPU来成功构建自己的生态系统,这其中以戴尔和VMware尤为突出。“所有这些对企业来说都是有价值的,因为这让他们在平台方面有更高的多样性和更快的实施时间。”
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。