宝马(BMW)、Naver CLOVA、NTT PC Communications和斯巴鲁(Subaru)等全球家喻户晓的企业已在5月宣布使用DGX A100系统构建AI基础设施,以把握这一重大机遇。
今年10月的GTC大会上,NVIDIA宣布扩大NVIDIA DGX生态系统,为企业IT及其支持的数据科学团队简化部署、集成和扩展。
NVIDIA首席执行官黄仁勋先生在GTC大会主题演讲中,发布了企业版NVIDIA DGX SuperPOD解决方案。这款新产品可将NVIDIA DGX SuperPOD参考架构,转化为全球客户大规模部署AI的一站式解决方案。
借助AI,以最快速度准备就绪
刚刚引入AI技术的组织难以将好的创意转变为可用的应用。如果从未构建过AI应用,便会面临如何选择合适的软件、工具和平台的难题。许多团队需要快速将正确组件组合起来的方法和有经验的专业人员所具备的专业知识。
全新NVIDIA AI Starter Kit囊括所有AI入门所需,包括NVIDIA DGX A100系统、现成的AI模型和数据科学工作流程软件。此外,它还包含NVIDIA解决方案合作伙伴所提供的咨询服务,这些合作伙伴深谙将AI相关想法落地为业务应用的方法。该套件可以帮助组织更快地通过AI获益,而成本远低于从零开发。
全球最受欢迎的AI参考架构迎来多项更新
虽然并非每个组织都需要NVIDIA AI Starter Kit “多合一”的特点,及其简单易行的安装特性,且NVIDIA DGX SuperPOD的性能和规模也并不一定适合所有组织,但许多组织都需要规范地部署适合其业务规模的AI基础设施。对于这些客户,NVIDIA DGX POD参考架构正是他们的理想之选。
DGX POD允许企业将DGX系统与其首选存储技术合作伙伴配对,省去耗时的设计和测试,从而使AI性能最大化。
此产品组合现已加入NVIDIA DGX A100,此次更新包括来自DDN、NetApp和Pure Storage的参考架构,这些参考架构将被补充至Dell EMC和IBM的现有架构中。
借助DGX-Ready 软件,
快速将AI基础设施投入使用
希望扩展AI价值的企业需要实现MLOps的方法,以便将IT/开发运营的严谨性和方法论引入AI模型的开发和部署。
通过同软件供应商的紧密合作和全面的认证流程,DGX-Ready软件计划确保与DGX系统配合使用的软件都是经认证的企业级软件。这简化了AI基础设施的部署、管理和扩展,同时使企业能够采用基于MLOps的工作流程。
新的认证扩展了DGX-Ready软件计划的两个关键领域:集群配置和管理,以及容器编排平台。
Bright Computing的Bright Cluster Manager所提供的集群配置、管理和监控现已获得认证,可与DGX系统一同使用。由此,客户可以更轻松地部署DGX集群。
红帽OpenShift现已通过DGX服务器认证,为DGX集群提供一个企业版Kubernetes平台,这使客户可以在标准的开源Kubernetes和经红帽优化的产品之间进行选择。
最重要的是,Bright Computing和红帽的解决方案都充分利用了DGX A100内NVIDIA A100 Tensor Core GPU的多实例GPU(MIG)功能。在多个用户和应用同时工作时,MIG能够适当分配计算资源,进行计算资源优化,让企业运行弹性AI基础设施。
DGX-Ready软件合作伙伴还包括Allegro AI、cnvrg.io、Core Scientific、Domino Data Lab、Iguazio和Paperspace。这些合作伙伴为企业提供丰富的选择,助力其实施MLOps并实现AI开发的产业化。
认证简化操作系统更新
NVIDIA AI平台的关键组成部分为操作系统。NVIDIA与Canonical和红帽紧密合作,优化整个NVIDIA AI堆栈的操作系统,包括底层DGX硬件、NVIDIA Mellanox网络、CUDA-X软件层、NGC容器和DGX-Ready软件解决方案等,创建出可靠的垂直集成堆栈,专为实现最佳AI性能而进行调整、测试和优化。
基于Canonical Ubuntu 18.04 LTS的DGX OS是DGX系统出厂自带的操作系统。NVIDIA近日宣布,所有DGX系统都将采用基于Ubuntu 20.04的DGX OS 5。
客户还可以选择运行Red Hat Enterprise Linux。NVIDIA可提供同样经过测试与认证的DGX软件堆栈,该软件堆栈是Red Hat Enterprise Linux和CentOS 7中DGX OS的组成部分。NVIDIA还与红帽展开合作,在所有DGX系统上完成RHEL 8的认证,并于本季度晚些时候上市。
这些更新让DGX用户能够在获得NVIDIA全部支持的同时,有机会利用操作系统中新的优化和功能。
好文章,需要你的鼓励
Xbox 部门推出了名为 Muse 的生成式 AI 模型,旨在为游戏创造视觉效果和玩法。这一举措反映了微软全面拥抱 AI 技术的战略,尽管游戏开发者对 AI 持谨慎态度。Muse 不仅可能提高游戏开发效率,还有望实现老游戏的现代化改造,但其实际效果和对行业的影响仍有待观察。
Sonar收购AutoCodeRover,旨在通过自主AI代理增强其代码质量工具。这项收购将使Sonar客户能够自动化调试和问题修复等任务,让开发者将更多时间用于改进应用程序而非修复bug。AutoCodeRover的AI代理能够自主修复有问题的代码,将与Sonar的工具集成,提高开发效率并降低成本。
人工智能正在推动数据中心的变革。为满足 AI workload 的需求,数据中心面临前所未有的电力消耗增长、散热压力和设备重量挑战。应对这些挑战需要创新的解决方案,包括 AI 专用硬件、可再生能源、液冷技术等。同时,数据中心还需平衡监管压力和社区关切。未来数据中心的发展将决定 AI 技术能否实现其变革性潜力。