Nvidia与NetApp合作打造深度学习GPU服务器芯片

作者：The Register

NetApp和Nvidia已经推出了一个组合式的AI参考架构系统，与Pure Storage和Nvidia 合作的AIRI系统相竞争。

这款系统主要针对深度学习，与FlexPod（思科和NetApp合作的融合基础设施）不同，这款系统没有品牌名称。而且与AIRI不同的是，它也没有自己的机箱封装。

NetApp和Nvidia技术白皮书《针对实际深度学习用例的可扩展AI基础设施设计》定义了一个针对NetApp A800全闪存存储阵列和Nvidia DGX-1 GPU服务器系统的参考架构（RA）。此外还有一个速度慢一些的，成本更低的、基于A700阵列的参考架构。

高配的参考架构支持单个A800阵列（高可用性配对配置），5个DGX-1 GPU服务器，连接2个思科Nexus 100GbitE交换机。速度较慢的A700全闪存阵列参考架构支持4个DGX-1和40GbitE。

A800系统通过100GbitE链路连接到DGX-1，支持RDMA作为集群互连。A800可横向扩展为24节点集群和74.8PB容量。

据说A800系统可实现25GB /秒的读取带宽和低于500微秒的延迟。

NetApp Nvidia DL参考架构配置图

Pure Storage和Nvidia的AIRI有一个FlashBlade阵列，支持4个DGX-1。FlashBlade阵列提供17GB /秒的速度，低于3毫秒的延迟。这与NetApp和Nvidia合作的参考架构系统相比似乎较慢，但A800是NetApp最快的全闪存阵列，而Pure的FlashBlade则更多地是一款容量优化型闪存阵列。

和Pure AIRI Mini一样，NetApp Nvidia DL RA可以从1个DGX-1起步，扩展到5个。 A800的原始容量通常为364.8TB，Pure的AIRI原始闪存容量为533TB。

AIRI RA配置图如下所示：

Pure Nvidia AIRI配置图

NetApp和Pure都对他们的这两个系统进行了基准测试，并且都包含Res-152和ResNet-50运行使用合成数据、NFS和64批量大小。

NetApp提供了图表和数据，而Pure只提供图表，所以对比起来有点困难。不过，我们可以通过将这些图表放在一起做个粗略的估计。

合成的总图表并不漂亮，不过确实提供了一些对比：

NetApp和Pure Resnet性能对比

至少从这些图表可以看出，NetApp Nvidia RA的性能优于AIRI，但让我们吃惊的是，由于NetApp/Nvidia DL系统与Pure AIRI系统相比具有更高的带宽和更低的延迟，分别是25GB/s的读取带宽和低于500微秒以下，后者分别17GB/s和低于3毫秒。

价格对比很好，但没有人透露给我们这方面的数据。我们猜测Nvidia可能会宣布更多深度学习方面的合作伙伴关系，就像NetApp和Pure这样的。HPE和IBM都是很明显的候选对象，还有像Apeiron、E8和Excelero等NVMe-oF这样的新兴阵列初创公司。

来源：至顶网服务器频道

0赞

好文章，需要你的鼓励

Nvidia与NetApp合作打造深度学习GPU服务器芯片

来源：至顶网服务器频道

2018

06/07

07:35

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

该需要多少 NVIDIA CUDA Cores ？

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: