英特尔:数据带宽、稀疏性是人工智能芯片面临的两个最大挑战

上周,英特尔举行了自2018年以来的首次“架构日”活动,在此期间,英特尔详细介绍了即将上市的芯片,例如Tiger Lake。

英特尔的工程师表示,数据进出处理器是人工智能芯片面临的最大挑战,但是稀疏性则可能是一个更大的挑战。

作者:Tiernan Ray

格林尼治标准时间2020年8月17日17:33(东八区标准时间01:33)

主题:人工智能

上周,英特尔举行了自2018年以来的首次“架构日”活动,在此期间,英特尔详细介绍了即将上市的芯片,例如Tiger Lake。

ZDNet参加了英特尔的情况通报活动,和该公司的高管们深入交流了一些问题,了解到该公司人工智能处理工作的一些新情况。

最大的收获是,目前,最需要优化的地方在于计算逻辑的数据输入和输出方式,因为神经网络模型持续变大,超出了任何芯片的片上存储器的极限。

英特尔:数据带宽、稀疏性是人工智能芯片面临的两个最大挑战

英特尔的架构负责人Raja Koduri指出:“我们所看到的一件事就是模型规模呈爆炸式增长。” “没有一个节点就能够容纳的模型了。”他提到了巨大的深度学习语言模型,例如OpenAI最近发布的GPT-3,它具有1,750亿个参数,每条输入数据都必须要乘以这个权重。

Koduri表示,尽管“对深度学习加速器的炒作很多,但它们的利用率极低,因为我们正忙于在网络上移动参数数据,因为它们并不适用于1000亿个参数。”

他补充表示:“即使是不起眼的Xeon插槽上的万亿次浮点运算和tera-ops,也未能充分利用这些程序。”他表示,“忘记GPU吧:你将GPU放在那里,就可以获得10倍的性能。”

英特尔认为,除带宽外,图形处理单元正在不断发展,挑战英伟达对数据中心的锁定,它具有软件开发环境成熟的优势,这是其他类型的人工智能处理器无法匹敌的。

最终,稀疏性成了一个令人心焦而又悬而未决的问题,英特尔正在这方面努力,但目前并不打算全面披露他们的工作成果。随着芯片设计方式潜在深层架构的转变,稀疏性正在变成一个越来越迫在眉睫的问题。

首先,在数据带宽方面ZDNet向负责数据中心处理器体系结构的英特尔高级研究员Sailesh Kottapalli提出了一个非常常见的问题:为了针对人工智能提升核心操作性能,不同芯片体系结构最重要的事情是什么?

Kottapalli的回答分成两部分,首先他谈到了包括英特尔在内的所有芯片供应商的总体优先级。

“在整个行业的硅技术中,最常见的事情是确保线性代数或矩阵运算能够以最高的吞吐率和最低的能耗高效地完成。”线性代数构成了大部分人工智能计算周期。它包括将包含输入数据的向量乘以参数或权重矩阵的计算。

Kottapalli指出,所有芯片,无论采用哪种架构,都致力于加速“矩阵-矩阵”操作和“矢量-矩阵”操作。他表示:“这是那里的主要计算形式。”

另一个大趋势是关注不同的精度,即单个给定操作数使用的位数,8位、16位、32位等。

“任何渴望在人工智能方面表现出色的架构都将在所有架构中成为最新技术,因为人工智能是一种新的计算方式。”

他说,下一个前沿将是芯片输入输出方面的进步。

Kottapalli表示:“在那之后,实际上的重点就在于你如何优化带宽、缓存,以切实优化你需要移动的数据量。”

“因为现在已经到了这样一个点,真正的能源效率并不由计算中的内容决定,而是取决于你如何将数据转移到计算之中。”英特尔的每一个竞争对手(包括Graphcore、Cerebras Systems和Tenstorrent)都会强调神经网络正在变得越来越大这一趋势。而且,当然,英伟达也谈到了这些巨型神经网络,并将其作为该公司最新产品Ampere的主要需求因素。不少人工智能学者们也谈到了这一趋势。

“因此,围绕它进行的创新将越来越多,然后是你需要运行的数据集实际存放的位置,以及你将其送去计算的效率。”

架构负责人Koduri补充表示:“我们在大客户那里看到的事实很清楚,除了增加FLOP密度和OP密度,他们还希望提升每个插槽的I/O能力。”

他表示:“这有点疯狂,”客户希望将多个PCIe连接到一个CPU插槽上。“它就会爆炸了。”

英特尔副总裁Hong Hou领导的连接部门负责应对市场上激增的互联需求,该公司计划用更大的带宽来解决这个问题。Koduri 在谈到Hou 的部门时表示,“对于他们来说,这是一个黄金时代。”

Hou表示:“我们越来越认识到I/O可能成为一个非常严重的瓶颈。”

Hou指出,一个日益重要的方向将是实现从计算机电路板到处理器的光纤连接。他表示:“我们已经讨论过将硅光子与芯片更紧密地集成在一起。”Hou表示:“我们有更多的自由来设计最节能的高密度放大策略以支持人工智能集群。”

英特尔强调的另一个要素是软件,尤其是软件的一致性和支持问题。

ZDNet与英特尔高级研究员David Blythe和副总裁Lisa Pearce进行了交谈,后者负责该公司的图形处理部门。当被问及如何看待来自Cerebras Systems和Graphcore等新兴公司普遍的批评时,他们两个人都认为GPU对于人工智能处理来说并不理想。

Blythe表示,“总是存在着应该有理想硬件的看法,但是应用程序并不是只在理想硬件上单独运行的,它们需要完整的生态系统和软件堆栈。”他表示,成熟的软件堆栈是GPU的优势。特别是在计算机必须支持混合工作负载的时候,情况更是如此。

“我们正在努力尝试的事情是利用成熟的软件堆栈,使编程变得更加容易。”

Blythe暗示了英特尔在稀疏性方面所做的工作。稀疏性是指在向量矩阵运算中,向量中的许多(通常是大多数)值都是空值这一事实。导致人们批评GPU浪费能量的原因是,当将许多向量组合在一起以适合GPU的内存布局时,GPU无法分离出零值项目。Blythe表示,稀疏性方面的工作“正在进行”。

但是另一位英特尔研究员——负责英特尔实验室业务的Rich Uhlig对此事进行了详细说明。

Uhlig表示:“神经网络模型正在从密集向稀疏表示的方向发展,你将获得一种有效的算法。” Uhlig表示:“这为架构带来了完全不同的压力。”

Uhlig补充表示:“我们正在探索的一些架构是希望能够帮助你混合利用密集架构和稀疏架构,以此获得更好的效果。” Uhlig表示:“这不仅与内存有关,还与连接有关,以及算法如何利用这种稀疏性。”

Uhlig指出,英特尔正在与DARPA合作开发该组织的“ HIVE”计划,该计划专注于所谓的图形分析。 Uhlig表示:“你可以将图形分析完全视为一个问题,利用稀疏数据架构会获得什么好处呢?图形。”

他说:“你需要把多种技术汇集在一起。”

你要确保内存系统已优化。因此,你需要针对8字节访问之类的事情进行优化,而不是扩大缓存线性访问,因为在较为传统的工作负载中,你没有同样的空间位置,所以这项工作经常是浪费。但是优化8字节不仅意味着将内存层次结构调整到该尺寸,还需要调整你通过结构发送到其他计算节点的信息大小。你需要考虑的另一件事是指针跟踪,以及你需要注意的各种依赖关系。你必须要处理很多指针依赖项。如果可以优化这些连接的依赖项,使之变得更加高效,也会很有帮助。因此,你可以应用一整套方法或体系结构技术,以帮助这些稀疏算法做得更好。作为我们在DARPA计划中职责的一部分,我们正在构建模拟器并致力于原型实现,它们有望在未来的某个时候出现——在这里必须要澄清的是,这不是产品声明,而是研究的方向——但是我们正在努力了解你希望通过架构完成的工作,以捕捉深度学习中的这些算法趋势。

Koduri补充表示,综上所述,“更有效地处理稀疏并行性的做法将产生一些新的体系结构思想,这些思想与我们在现在非常主流的矢量矩阵中的做法将是非常不同的。”

来源:ZDNet

0赞

好文章,需要你的鼓励

2020

08/19

09:03

分享

点赞

邮件订阅