遥想2015年,由于x86数据中心计算的绝对垄断地位,现金充裕的英特尔公司斥资167亿美元收购了FPGA制造商Altera。而促使芯片巨头下手的原因,就是当时不少超大规模企业和云服务商正四下打探,想把一部分CPU算力转移至FPGA以打造SmartNIC。
一口气拿上上百亿建厂,现在听起来似乎不可思议。但当年的英特尔雄心勃发,22纳米和14纳米工艺进展顺利,那“永远的痛”10纳米制程难题也尚未出现。AMD在数据中心领域仍毫无建树,Arm服务器CPU甚至还只存在于只部分疯狂人士的想象当中。
也就是说,当时英特尔的主要任务就是压制一股股对自身霸权构成威胁的势力,特别是已经成为建立起高性能计算业务和爆炸性AI生态的英伟达。英伟达的绝技,是把大规模并行计算负载从CPU转移至GPU。从这个角度来看,相信大家可以理解为什么英特尔担心FPGA会冲击自己的数据中心大本营。而在2015年6月正式公布此项交易时,英特尔预测未来将有高达三分之一的超大规模和云数据中心服务器将配备有FPGA加速器。确实,当时的种种迹象都表明天秤正朝着FPGA的方向倾斜。
回顾这段历史,可以肯定的就是英特尔对至强CPU核心的定价过高,各种加速器设计更是百花齐放,力图针对不同负载用例超越芯片巨头。
于是乎,英特尔突然发现数十万至强插槽和几百万核心销售市场正在消失。他们可能是被吓坏了,也可能是想放缓这种转移速度,甚至再创造一股新的收入流。跟一切垄断巨头一样,英特尔也希望能控制整个世界的技术发展步伐,以更代的竞争烈度随心操控升级节奏、榨取更多利润。事实上,从英特尔数据中心部门2010年至2018年的财务报表看来,他们就是这么干的。
七年过去,英特尔建立起了令人瞩目的FPGA业务,但却没能给予足够投资来跟主要竞争对手赛灵思正面对抗。2022年2月,AMD以惊人的490亿美元将赛灵思收入下囊中。而且跟英特尔当初用全现金买下Altera的作法不同,AMD这次采取了纯股票形式的有趣价值交换。很聪明,AMD明显是把握住了今年年初股价峰值这个难得的变现时机。
两相比较,Altera与赛灵思都拥有成熟的市场和几千家客户,都掌握着深厚的领域专业知识和对任何平台都极有价值的软件与VHDL技能。软编码的FPGA,其算法由逻辑门加本地存储器构成,过去四年来一直是计算基板中的组成部分,主要负责在各类由低级/高级语言编写、运行在x86或Arm计算引擎和带有硬编码算法/例程的自定义ASIC上的通用应用程序之间建立重要的中间地带。
即使征服不了整个世界,也没有人能否认FPGA的价值。如今,英特尔已经重整旗鼓,准备在FPGA市场上同AMD/赛灵思再次宣战。2022年内,这部分市场的总价值约在80亿至90亿美元之间,而从2022年到2027年间(包括2027年)有望维持12%的年均复合增长率,届时总值将超过130亿美元。
以上图表,来自可编程解决方案部门总经理Shannon Poulin。该部门隶属于Sandra Rivera领导下的数据中心与人工智能部门,之前曾向负责网络与边缘部门的Nick McKeown提供过一份虚线报告(即功能汇报)。作为2011年至2015年间负责至强CPU发展路线图的高管,Poulin其实颇为大家所熟悉。从那时起,Poulin转而负责英特尔与各家大型客户的关系,包括超大规模企业、云服务商,以及OEM、ODM等重量级客户。在Dan McNamara离开英特尔出任AMD服务器业务部门负责人时,Poulin被任命接管可编程解决方案部门的运营首长。
本周的英特尔创新2022大会是Poulin首次公开阐述芯片巨头的FPGA业务振兴战略。他也非常踏实,毫不掩饰Agilex系列产品中存在的问题。
Poulin解释道,“在一年前加入并接管该部门时,我觉得第一要务就是关注供应链。我们的很多产品仍驻留在传统供应节点之上,其中很多节点并不是由英特尔制造的。其中甚至包括5年、10年甚至20年前的节点。我们真心觉得供应链将成为各团队的关键因素,将直接决定他们会在产品中做何设计。行业的整体状况已经非常紧张,过去一年半来,采购团队已经开始积极接触备用供应来源,希望建立起可用性和冗余保障。我们也在投入时间,希望以开诚布公的方式展示我们在封装、晶圆以及产品层面的种种问题。”
在此阶段,我们发明了一个新术语:“供应制胜”。这与“设计制胜”不同。自从新冠疫情爆发以来,我们一直围绕供应这个理念做文章,还开玩笑说如果AMD当初能以更强的信心早点扩大Epyc CPU产能,那他们的销售额甚至还能再进一步。当然不能责怪他们,但由于AMD做了比较保守的预测——毕竟Opterons和Athlons时代的销量不太好——所以没能充分占领市场。这就给了英特尔喘息之机,让基于14纳米的“古老”Skylake和Cascade Lake至强SP,还有现在的10纳米Ice Lake至强SP,得以与明显更先进的7纳米AMD“Rome”Epyc 7002和“Milan”Epyc 7003芯片同台竞技。对方甚至还将很快推出5纳米制程的“Genoa”和“Bergamo”Epyc 9000系列芯片。(Epyc处理器采用小芯片设计,采用14纳米与12纳米I/O与内存控制器,相当于一块分布式CPU。)
因此,AMD在CPU设计方面占据着设计优势,但英特尔则掌握着供应优势。FPGA市场的情况也差不多,英特尔在低端与中端FPGA方面量大管饱,而且也从2018年开始逐步将14纳米制程的高端Stratix FPGA一路迭代至2019年10纳米制程的Agilex F/I系列,再到今年早些时候公布的基于Intel 7制程(第二代10纳米SuperFIN)的Agilex M系列。
但Poulin在采访中坦言,英特尔不想只靠供应制胜来保持生存,新目标是向市场推出一系列新的低端与中端FPGA,在涵盖所有用例的同时利用Intel Foundry Services扩大Agilex FPGA产品线。
这就要求英特尔必须强化现有晶圆设施,将Intel 7(10纳米SuperFIN)引入新的Agilex设计。但在我们看来,英特尔最终可能会选择将FPGA跟最新制程工艺结合起来,借这批芯片测试工艺水平并提高制造良品率。FPGA的产量相对较低,而且产品复杂度极高,需要最好的晶体管来加持。从历史上看,FPGA和数据中心GPU之所以长期与最先进的制程节点相绑定,原因也在于此。
这份路线图并没有对英特尔在2025年及之后产品中的制程工艺做出说明。但我们认为,芯片巨头很可能会跳过Intel 4(7纳米)和Intel 3(7纳米的升级版),直接转向Intel 20A(5纳米,使用RibbonFET晶体管)。PSG有可能在2025年的Agilex FPGA上使用名为Intel 18A的精调版5纳米RibbonFET工艺。如此一来,FPGA就能重归先进制程工艺的顶峰。
下图所示,为扩展后的FPGA产品线短期路线图:
目前还不清楚具体代号的Agilex D系列FPGA将成为新的中端产品,取代原有Cyclone、Arria和Stratix FPGA。后面几款产品诞生于Altera独立经营时代,而且采用的是台积电20纳米、28纳米甚至更老的制程工艺。我们对D系列了解不多,但跟英伟达的“Grace”Arm服务器CPU类似,它同样使用低功耗DDR5内存(LPDDR5)以降低设备整体运行功率。D系列还将拥有更小的FPGA逻辑结构(约10万个逻辑门)、更低的发热量设计水平和低廉的售价。Poulin预计,这款产品将主要应用于通信、工业制造以及机器人等技术领域。Agilex D系列FPGA的仿真版本将于2023年初上市,可供客户查看其功能并开展测试,样品交付始于2023年下半年,最终在2024年使用Intel 7实现量产。
我们不知道D系列中会包含哪些基本单元,比如收发器速度、PCI-Express控制器或者Arm核心。但目前可以肯定的是,它将采用DDR5内存,所以我们强烈怀疑它会搭载112 Gb/s收发器(与当前Agilex I系列和M系列保持一致),至少支持CXL 2.0(大概率会支持CXL 3.0)的PCI-Express 5.0控制器以及某款四核Arm CPU。
英特尔即将推出的下一款新FPGA代号为“Sundance Mesa”,但具体归于哪个系列还不明确。我们可以确定的是,这将是一款更小巧的FPGA。但Pulin表示,其FPGA结构将只有约5万个逻辑门,并具备更低的成本和发热量。
这两款后续FPGA将采用单片设计。英特尔当然也会更新其基于小芯片的高端Agilex FPGA,将采用Intel 7制程工艺和具有硬 编码的PCI-Express 5.0(因此也支持CXL)控制器。这是一款针对通信和视频渲染工作负载的高端产品,将采用第二代HyperFlex FPGA逻辑门结构,搭载112 Gb/s收发器和400 Gb/s的以太网小芯片,外加R-Tile PCIe-Express 5.0。跟之前的Stratix和Agilex FPGA一样,各组件都通过英特尔的EMIB技术实现链接。至于配套的Arm核心,其将采用双Cortex-A55瘦核心加双Cortex-A76胖核心的组合,并根据编程在各核心之间实现负载均衡。我们强烈怀疑这款产品会采用HBM2内存变体,Poulin曾提到未来高端FPGA产品中将提供HBM内存选项。
Poulin解释称,Agilex的高端产品线一直很能打,但仅占FPGA业务总量的20%到30%。
最后,Agilex系列还将包含一款新的Direct RF系列设备。这些设备将采用小芯片设计,用于为军事和部分通信工作负载提供数模数据转换功能。
后两款Agilex产品将在2022年下半年向早期客户交付样品,因此相关公告应该会在不久之后发布。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。