在2019年Hot Chips大会上,英特尔公布了即将推出的高性能人工智能(AI)加速器——英特尔Nervana神经网络处理器的最新细节,包括用于训练的NNP-T和用于推理的NNP-I。英特尔工程师还介绍了混合芯片封装技术、英特尔®傲腾™数据中心级持久内存和光学I/O小芯片技术的细节。
“要想实现‘人工智能无处不在’的未来愿景,我们必须解决数据的积压问题,确保企业能够有效利用数据,必要的时候在收集数据的地方对数据进行处理,并更明智地利用上游的数据和计算资源。数据中心和云端需要为复杂的AI应用提供高性能和可扩展的通用计算,以及专门的加速。在人工智能无处不在的未来愿景中,从硬件到软件再到应用,都需要一种全面的解决方案。”——Naveen Rao,英特尔公司全球副总裁兼人工智能产品事业部总经理
将数据转化为信息、再转化为知识,需要硬件架构和封装、内存、存储、互连技术的相互配合,这些技术不断演进并支持新兴且日益复杂的应用场景和AI技术。AI专用加速器能够在适当的时间为客户提供合适的智能,比如全新构建的英特尔Nervana NNP。
英特尔Nervana NNP-T——全新构建,旨在大规模训练深度学习模型。英特尔Nervana NNP-T(神经网络处理器)不断突破深度学习训练的极限。它优先考虑两个关键的实际因素:尽可能快地训练网络并在给定的功率预算内完成训练。这款深度学习训练处理器在构建时充分考虑到灵活性,并在计算、通信和内存之间取得平衡。虽然英特尔至强可扩展处理器增加了AI指令集并为人工智能奠定良好基础,但全新构建的NNP-T考虑到了应对大型模型所需的功能特性和要求,不必提供额外所需以支持传统技术。为了满足未来的深度学习需求,英特尔Nervana NNP-T具备灵活性和可编程性,因此可以进行定制,以便加速各种负载,无论是现有负载还是新兴负载。
英特尔Nervana NNP-I——针对主要数据中心负载的高性能深度学习推理。英特尔Nervana NNP-I专为推理而设计,旨在大规模加速深度学习部署,它充分利用英特尔的10纳米制程技术和Ice Lake内核,在所有主要数据中心负载上提供业界领先的每瓦性能。此外,英特尔Nervana NNP-I在不影响性能或功耗效率的前提下,提供了高度可编程性。随着人工智能在各项负载中变得无处不在,拥有一个易于编程、时延较短、可快速移植代码并支持所有主要深度学习框架的专用推理加速器,企业就能将数据的全部潜力转化为可践行的洞察而加以利用。
Lakefield——三维封装中的混合核心。Lakefield是业界首款采用3D堆叠和IA混合计算架构的产品,将用于新一类移动设备。利用英特尔最新的10纳米制程和Foveros先进封装技术,Lakefield在待机功率、核心面积和封装高度上都比前几代技术有了显著降低。Lakefield带来的顶级计算性能和超低热设计功率,让全新纤薄外观的设备、二合一设备和双屏设备都能以极低的待机功耗始终在线、始终互联。
TeraPHY——用于高带宽、低功耗通信的封装内光学I/O小芯片。英特尔和Ayar Labs共同演示了整体内封光件(MIPO)与高性能系统芯片(SOC)的业界首次集成。Ayar Labs的TeraPHY光学I/O小芯片与采用英特尔嵌入式多芯片互连桥接(EMIB)技术的英特尔Stratix 10 FPGA共同封装,从芯片封装中提供高带宽、低功耗的数据通信,在一定时间内的延续距离高达2公里。此次合作将消除数据传输中性能、功耗和成本的固有瓶颈,帮助以新方法为摩尔定律的下一阶段构建计算系统。
英特尔傲腾数据中心级持久内存——架构和性能。现已批量出货的英特尔傲腾数据中心级持久内存是内存/存储层级结构中首款被称为持久内存的产品,并处于整个层级结构中全新的一层。基于英特尔3D XPoint技术,傲腾数据中心级持久内存拥有内存模块外形,能够以接近内存的速度提供超大容量,纳秒级的低延时,并提供本地化的持久存储。两种运行模式(内存模式和App Direct模式)的详细信息以及性能示例展示了这一全新层级如何支持数据供应子系统的完全重新架构,从而支持更快的,以及新的工作负载。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。