在日前举行的GTC CHINA 2016大会上, NVIDIA与IBM共同宣布最新合作项目,全新 POWER8 家族将通过NVLINK与NVIDIA Tesla P100实现强势组合。NVIDIA的科技在IBM的服务器中,能加速人工智能、深度学习和数据分析这类高度融合的工作,为企业更快获得人工智能。
数据中心的工作负载在不断发生变化,加速数据中心的需求也在不断增强。不久之前,这些系统主要用于处理存储和提供网页,而现在它们越来越多地需要负责人工智能领域的工作,比如理解语音、文字、图片和视频或者分析大数据以提供见解。数十亿的消费者希望即刻获得许多问题的答案,而企业公司需要分析激增的数据来更好地满足客户需求。这些问题都将由数据中心提供解决方案。
作为服务器系统领域的领导者,IBM 在几年前便注意到了这种趋势,并与NVIDIA合作,加快新数据中心工作负载的处理速度。经过四年的研发,备受关注的POWER8服务器联合了NVIDIA的Tesla P100 GPU 和 NVLink互联技术,实现了更高的数据性能分析和深度学习能力提升。
该系统使用了两个 IBM POWER8 CPU 和四个 NVIDIA Tesla P100 GPU,并通过 NVLink 高速接口使其互联互通。这是一款定制的 GPU 加速器服务器,其中 NVLink 接口集成在主板路由上,并且使用 NVIDIA的Tesla P100 GPU。
技术联合,合力树立行业标杆
IBM Power System S822LC 采用了两个 IBM POWER8 CPU 和四个 NVIDIA Tesla P100 GPU,并通过 NVLink 实现互联。
IBM 和 NVIDIA 技术如此紧密的结合使得数据流动速度比使用 PCIe 快了 5 倍,从而加快了目前诸如高级分析、深度学习和人工智能等极其重要的应用提供见解的速度。
IBM Power Systems 的总经理 Doug Balog 表示:“企业能通过高级分析、机器学习和人工智能提供的用户见解和商业价值越来越多地受到性能的制约。加速计算能够显著加快大数据工作负载的处理速度,并将成为这个认知时代的基础。凭借我们与 NVIDIA 等合作伙伴联手推动的 OpenPOWER 创新,搭载 POWERAccel 技术的全新 OpenPOWER Linux 服务器将为这些工作负载树立新标杆。”
通往 Summit 和 Sierra 之路
IBM 已经收到了多个客户的订单,其中包括一家大型跨国公司以及美国能源部橡树岭国家实验室 (ORNL) 和劳伦斯利福摩尔国家实验室 (LLNL) 等研究机构。
ORNL 和 LLNL 两个实验室将把新系统用作开发平台来优化应用,以充分利用 NVIDIA NVLink 技术。这些系统将用作为新一代超级计算机 Summit 和 Sierra 开发应用的试验台,IBM 公司预计将于 2017 年把 Summit 和 Sierra 分别交付给 ORNL 和 LLNL。
橡树岭国家实验室领导计算设施项目总监 Arthur S. (Buddy) Bland 提到:“在 Power 平台上采用 NVLink 技术能够确保 CPU 和 GPU 中多个内存层次结构的一致性。作为 GPU 的长期用户,我们认为它将提升我们的应用性能,使用户能够更容易地获得重大的科学发现。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。