NVIDIA所谓的AI工厂,其真正含义是旨在实现“制造智能性”的高性能安全数据中心,而且NVIDIA认识,到构建这种工厂的任务对任何企业来说都是十分艰巨的。
挑战在于组织必须在未知领域中进行探索,因为以前没有人建造过AI工厂。随着大型语言模型功能和软件框架的快速发展,构建此类数据中心的最佳实践和标准化方法仍处于起步阶段,让人很难满怀信心地投资数据中心基础设施。
NVIDIA希望能够改变这种状况,为此,NVIDIA推出了一系列Enterprise Reference Architectures,这些蓝图将帮助组织确保其AI工厂能够不断发展和扩大,以支持未来几年的创新。
据说,这些蓝图提供了有关AI工厂所需全栈硬件和软件的详细建议,以及有关最佳服务器、集群和网络配置等方面的指导。
据NVIDIA称,企业通过使用NVIDIA Enterprise RA就可以构建和部署“具有成本效益的加速基础设施”,这种基础设施可以与各种第三方硬件和软件组件实现互操作,因此将来是可以轻松更新的。
当然,NVIDIA认为大多数组织的AI工厂都需要集成自己的大量硬件,因此参考架构为NVIDIA认证的服务器提供了建议,这些服务器配置了为大多数AI应用提供动力的NVIDIA GPU。
这个参考架构还为使用NVIDIA Spectrum-X AI Ethernet平台和NVIDIA BlueField-3数据处理单元进行AI优化网络提供了指导方针,以确保峰值性能和未来扩展灵的活性。
NVIDIA的AI Enterprise平台是参考架构的另一个组成部分,其中包括了用于构建和部署AI应用的NVIDIA NeMo和NVIDIA NIM等微服务。NVIDIA Base Command Manager Essentials也是如此,它提供了用于基础设施配置、工作负载管理和资源监控的工具。
NVIDIA表示,将通过戴尔、HPE、超微和联想等服务器制造合作伙伴将这个蓝图提供给企业,意味着企业在他们想要用来为其AI工厂提供动力的底层服务器平台方面,仍然有很大的灵活性。
使用NVIDIA参考架构的最大好处也许就是能够更快地启动和运行,因为客户只需要遵循其结构化的方法,而不必自己摸索。NVIDIA还表示,他们有信心利用这些蓝图确保企业能够从其服务器硬件中实现最大性能。
另一个关键优势是和规模有关的。这个面向未来的参考架构经过精心设计,可以随着更多硬件和软件创新的出现轻松进行升级。
NVIDIA公司副总裁、企业平台总经理Bob Petter表示:“Enterprise RA提供了一种蒋健的方法,来构建灵活且经济高效的加速基础设施,从而缩短了部署AI基础设施解决方案的时间以及降低了成本。”
Constellation Research分析师Holger Mueller表示,尽管遵循这些蓝图不可避免地需要承诺使用NVIDIA的硬件和软件,但企业组织很可能会选择这么做的。他认为,大多数企业根本没有必要的技能和经验来自己打造用于AI项目的基础设施,更别说AI技术还在快速发展中。
“NVIDIA在几乎所有生成式AI项目中都发挥着关键作用,这些蓝图将使组织能够更轻松地构建和升级他们的内部AI架构,只要企业乐于使用NVIDIA的芯片——许多企业确实如此,那么这就是一个双赢的局面。企业可以更快速地启动他们的AI项目,而NVIDIA也可以获得另一个长期客户。”
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。