在斯坦福大学前任校长、Alphbet公司董事长John L. Hennessy的大力支持下,英特尔开始全面转向“域特定架构”策略,并由此构建起属于自己的CPU、GPU、ASIC与FPGA等多个产品家族。从本质上讲,这项策略很可能正是异构计算的重要缩影,但同时也给软件开发人员带来沉重的负担。为了破解困局,英特尔开始着力开发其OneAPI软件工具集。
目前,英特尔主要依靠至强产品线进行AI推理,领先Movidius实现嵌入式AI,并通过MobileEye支持汽车图像处理。在数据中心方面,英特尔于2016年收购Nervana Labs,随后于2019年12月收购了Habana Labs。上个季度,英特尔在AWS上一举拿下模型训练设计大奖。AWS方面宣称,与其他领先GPU平台(很可能是指英伟达A100)相比,Habana Labs平台在价格/性能方面保持着40%的优势。不过AWS也强调,这一结果来自一揽子AI工作负载,可代表AWS上约八成AI运行负载的一般情况。
Gaudi芯片通过8 x 100Gb裸片搭载的标准以太网架构,借助“模型并发性”机制提高存储容量处理能力。这套架构能够扩展至数千个节点,拥有广阔的负载容纳范围。随着DNN模型的规模扩张与复杂性增长(每3.5个月翻一番),这种横向扩展能力将变得愈发重要。Gaudi架构能够支持基于融合以太网的RDMA(ROCE)。ROCE的重要意义在于,能够将其引入芯片,英特尔能够获得8个超高速(100 Gb)互连端口且无需昂贵的网络接口卡(NIC,价格可能远高于1000美元)或者机架交换机(价格通常高于10000美元)。而且与需要消耗大量CPU周期的共享内存管理软件相比,RDMA能够显著简化程序员在整体架构中访问共享内在的挑战并借此提高性能表现。
但在Habana之外,也有不少用户更倾向于使用英特尔至强处理器执行某些推理甚至是训练作业。Facebook就分享了其AI基础设施设计心得,表示正在推荐、多层级感知器以及整体推理等作业中大量使用至强CPU。
目前无法断言Facebook的态度到底有多坚定,毕竟社交巨头对其他芯片也表现出了极大兴趣,包括高通的A1100以及Facebook内部自研的推理处理器Kings Canyon。Facebook目前每天处理超200万亿项预测与超过60亿项语言翻译操作,因此高效推理处理器将成为提升Facebook运营效率的关键所在。
Facebook AI每天需要处理数万亿次查询。该公司在使用GPU的同时,也在广泛使用CPU(很可能来自英特尔)。
作为英特尔的合作伙伴,Datatonic公司也分享了使用至强处理器提升AI推理性能并降低处理成本的心得。请注意,这部分数据的比较对象是上代英伟达GPU,而非最新的英伟达A100。但无论如何,Datatonic给出的结果仍然令人意外、甚至可以说是震惊。
英特尔客户Datatonic最近分享了测试结果,英特尔至强处理器确实有能力成为速度更快、成本更低的AI实现途径。
预计在AWS的强大设计之下,Habana Gaudi训练芯片将在2021年上半年迎来更多辉煌的战果。Gaudi在大规模处理方面拥有独特优势,我们也将其视为训练类工作负载的重要竞争选项。另外,Gaudi同样拥有出色的可扩展性,这也成为英特尔阵营的核心优势。
借助ROCE带来的100 Gb以太网端口,英特尔的Gaudi平台能够提供出色的可扩展性。
至于Habana Goya推理处理器,考虑到其短短两年的发展历程,我们对其设计水平还无法抱有太高的信心。事实上,英特尔方面甚至有可能暂时搁置Goya发展计划,专注于推动至强处理器在数据中心领域的推理处理探索。这一方面是因为至强已经在AI加速方面取得了不错的成绩,此外新任CEO Pat Gelsinger也需要尽可能减少低利润产品带来的成本压力。当然,目前关于Goya项目的消息还太少,尚未公开的大客户部署以及可能公布的下一代芯片方案都有可能帮助Goya迅速成为人们的关注焦点。
优势:英特尔拥有全面的产品组合,只要能够克服域特定架构带来的固有软件开发挑战,夺取市场份额将只是时间问题。总之,英特尔研究院在AI方面拥有相当强劲的潜在优势。
劣势:英特尔必须解决生产问题。Habana Gaudi的上市速度太慢,给竞争对手下留下了跟进甚至超越英特尔的机会。另外,我们还没有听说有任何大型客户使用Habana Goya处理推理类工作负载。
声明:本文内容仅代表作者观点,不应作为任何购买或投资建议。本文作者来自Cambrian AI Research,与英伟达、英特尔、IBM、高通、Blaize Graphcore、Synopsys以及Tenstorrent等多家企业保持合作关系。Cambrian AI Research与本文提及的任何企业均无投资关系。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。