宝马(BMW)、Naver CLOVA、NTT PC Communications和斯巴鲁(Subaru)等全球家喻户晓的企业已在5月宣布使用DGX A100系统构建AI基础设施,以把握这一重大机遇。
今年10月的GTC大会上,NVIDIA宣布扩大NVIDIA DGX生态系统,为企业IT及其支持的数据科学团队简化部署、集成和扩展。
NVIDIA首席执行官黄仁勋先生在GTC大会主题演讲中,发布了企业版NVIDIA DGX SuperPOD解决方案。这款新产品可将NVIDIA DGX SuperPOD参考架构,转化为全球客户大规模部署AI的一站式解决方案。
借助AI,以最快速度准备就绪
刚刚引入AI技术的组织难以将好的创意转变为可用的应用。如果从未构建过AI应用,便会面临如何选择合适的软件、工具和平台的难题。许多团队需要快速将正确组件组合起来的方法和有经验的专业人员所具备的专业知识。
全新NVIDIA AI Starter Kit囊括所有AI入门所需,包括NVIDIA DGX A100系统、现成的AI模型和数据科学工作流程软件。此外,它还包含NVIDIA解决方案合作伙伴所提供的咨询服务,这些合作伙伴深谙将AI相关想法落地为业务应用的方法。该套件可以帮助组织更快地通过AI获益,而成本远低于从零开发。
全球最受欢迎的AI参考架构迎来多项更新
虽然并非每个组织都需要NVIDIA AI Starter Kit “多合一”的特点,及其简单易行的安装特性,且NVIDIA DGX SuperPOD的性能和规模也并不一定适合所有组织,但许多组织都需要规范地部署适合其业务规模的AI基础设施。对于这些客户,NVIDIA DGX POD参考架构正是他们的理想之选。
DGX POD允许企业将DGX系统与其首选存储技术合作伙伴配对,省去耗时的设计和测试,从而使AI性能最大化。
此产品组合现已加入NVIDIA DGX A100,此次更新包括来自DDN、NetApp和Pure Storage的参考架构,这些参考架构将被补充至Dell EMC和IBM的现有架构中。
借助DGX-Ready 软件,
快速将AI基础设施投入使用
希望扩展AI价值的企业需要实现MLOps的方法,以便将IT/开发运营的严谨性和方法论引入AI模型的开发和部署。
通过同软件供应商的紧密合作和全面的认证流程,DGX-Ready软件计划确保与DGX系统配合使用的软件都是经认证的企业级软件。这简化了AI基础设施的部署、管理和扩展,同时使企业能够采用基于MLOps的工作流程。
新的认证扩展了DGX-Ready软件计划的两个关键领域:集群配置和管理,以及容器编排平台。
Bright Computing的Bright Cluster Manager所提供的集群配置、管理和监控现已获得认证,可与DGX系统一同使用。由此,客户可以更轻松地部署DGX集群。
红帽OpenShift现已通过DGX服务器认证,为DGX集群提供一个企业版Kubernetes平台,这使客户可以在标准的开源Kubernetes和经红帽优化的产品之间进行选择。
最重要的是,Bright Computing和红帽的解决方案都充分利用了DGX A100内NVIDIA A100 Tensor Core GPU的多实例GPU(MIG)功能。在多个用户和应用同时工作时,MIG能够适当分配计算资源,进行计算资源优化,让企业运行弹性AI基础设施。
DGX-Ready软件合作伙伴还包括Allegro AI、cnvrg.io、Core Scientific、Domino Data Lab、Iguazio和Paperspace。这些合作伙伴为企业提供丰富的选择,助力其实施MLOps并实现AI开发的产业化。
认证简化操作系统更新
NVIDIA AI平台的关键组成部分为操作系统。NVIDIA与Canonical和红帽紧密合作,优化整个NVIDIA AI堆栈的操作系统,包括底层DGX硬件、NVIDIA Mellanox网络、CUDA-X软件层、NGC容器和DGX-Ready软件解决方案等,创建出可靠的垂直集成堆栈,专为实现最佳AI性能而进行调整、测试和优化。
基于Canonical Ubuntu 18.04 LTS的DGX OS是DGX系统出厂自带的操作系统。NVIDIA近日宣布,所有DGX系统都将采用基于Ubuntu 20.04的DGX OS 5。
客户还可以选择运行Red Hat Enterprise Linux。NVIDIA可提供同样经过测试与认证的DGX软件堆栈,该软件堆栈是Red Hat Enterprise Linux和CentOS 7中DGX OS的组成部分。NVIDIA还与红帽展开合作,在所有DGX系统上完成RHEL 8的认证,并于本季度晚些时候上市。
这些更新让DGX用户能够在获得NVIDIA全部支持的同时,有机会利用操作系统中新的优化和功能。
好文章,需要你的鼓励
Anthropic 发布新API,让Claude AI模型实时搜索网络资讯。开发者可定制搜索策略,构建实时信息应用。
利用人工智能加速学习、自动化重复任务和优化开发流程,企业正用 AI 工具应对开发者技能短缺,推动持续创新和业务增长。
在采访中,Oracle NetSuite 执行副总裁 Evan Goldberg 探讨商业应用中 AI 的发展,从文本生成到自主工具,并展望在 agentic AI 领域与 Oracle Fusion 的合作前景。
PeerGFS 最新版本支持通过 SMB 与 NFS 同时访问同一文件,实现数据在各地存储系统间的实时同步,助力 AI 及医疗等应用场景。