至顶网服务器频道 05月31日 新闻消息:NVIDIA于本周二正式宣布与世界四家大型计算机制造商签署协议,双方将采用由NVIDIA方面提供的图形芯片支持型服务器设计方案,从而支持各类要求极高的“超大型”数据中心内的人工智能相关工作负载。
此次与NVIDIA合作的原始设计制造商(简称ODM厂商)为四家来自台湾的计算机及其它电子产品制造商,其中包括鸿海精密工业有限公司(亦被称为富士康)、英业达公司、广达电脑公司以及纬创公司。它们将成为NVIDIA合作伙伴计划中的一部分,并有资格率先体验由NVIDIA图形处理单元(简称GPU)负责支持的HGX架构设计(如上图所示)。
根据本周于台北Computex大会上公布的消息,这套数据中心设计方案与微软公司内部的Olympus项目、Facebook的Big Basin系统以及NVIDIA自家的DGX-1超级计算机完全相同。NVIDIA方面此前已经面向Amazon Web Services等云计算供应商提供类似的项目,但这一次是其首度将架构开放给ODM厂商。
NVIDIA加速计算产品高级主管Keith Morris在接受采访时表示,该公司希望交付一套超大规模数据中心标准,旨在帮助各ODM厂商将NVIDIA技术方案纳入自家体系,从而更高更高效地实现产品上市。
Morris解释称,“我们正在试图实现AI民主化。”尽管他没有明确静态,但NVIDIA无疑正在努力保证其图形芯片始终在AI工作负载领域扮演核心角色——特别是考虑到英特尔甚至谷歌等竞争对手正不断向AI领域投入其它类型的芯片方案。总而言之,NVIDIA正在积极寻求可行途径,希望借此防止制造商大量使用可能冲击其市场份额的其它定制化芯片设计方案。
而在此次合作消息公布之前,NVIDIA刚刚于5月10号在其GPU技术大会上亮出一款针对人工智能进行优化的全新芯片,其高度关注深度学习神经网络并旨在实现自动驾驶车辆以及即时语言翻译等最新突破性应用。这款基于全新Volta架构的芯片能够在单一大型晶片之上封装约2100亿个晶体管。与NVIDIA的上代芯片相比,这款尺寸与Apple Watch类似的芯片能够将深度学习的执行速度提升约12倍。
今年第三季度将有一款采用这款芯片的全新NVIDIADGX-1超级计算设备正式投放市场,价格为14万9千美元; 而到今年第四季度,该芯片也将随同其它服务器制造商的产品一同推出。
NVIDIA表示,其HGX参考设计旨在满足超大规模云环境需求。其能够通过多种方式实现配置,将GPU与CPU相结合以实现高性能计算,同时可以对深度学习神经网络进行训练与运行。NVIDIA方面同时补充称,HGX亦面向云服务供应商长久以来所期盼的GPU云平台——该平台提供一系列开源深度学习框架,具体包括TensorFlow、Caffe2、Cognitive Toolkit以及MXNet。
纬创公司企业业务部门总裁兼首席技术官Donald Hwang在一份声明中指出,客户“渴望利用更多GPU计算能力以处理各类AI工作负载,通过这种新的合作关系,我们将能够更快提供此类新型解决方案。”
NVIDIA近年来的市场表现一直不错,这主要是由于其图形芯片已然成为AI类工作负载的核心支柱。根据今年5月9日发布的财报,其第一财季利润额度高于预期,达到上年同期的两倍以上。而消息发布之后,投资者们亦热烈响应,直接令NVIDIA的股价上涨达14%。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。