2020年英特尔架构日:遇见更光明的未来

此次架构日只是技术公开,并非产品发布,本文提出的一切观点只是猜测,尚缺少任何量化或者执行层面的依据支持。总之,未来可期,我们静待英特尔的实际表现!

英特尔公司正处于一场重大转型当中,这场转型几乎改变了芯片巨头一切曾经熟悉的工作方式。去年,英特尔在2019年的架构日活动中做出一系列重要披露,也让外界人士第一次切实感受到这种转变。必须承认,英特尔在过去一、两年中表现不佳,尤其是在台式机、移动设备以及服务器CPU领域。但虽然在这些竞争领域中失去部分份额,但英特尔的市场表现仍然超出了预期。

2020年英特尔架构日:遇见更光明的未来

英特尔公司高级副总裁、首席架构师,架构、图形与软件总经理Raja M. Koduri

由于COVID-19疫情的影响,今年的架构日活动完全转为线上进行,但披露内容却远超以往。这也表明,即使英特尔在7纳米这道关隘前久攻不下,其未来发展仍然前景光明。在2020年的架构是一项活动上,英特尔公司继续沿着去年提出的六大基本支柱前进,重点关注公司自身的关键优势领域,同时考虑如何继续发展以保持自身在半导体行业的强者地位。

10纳米制程节点与SuperFins

英特尔近年来在制程节点的进步方面一直困难重重,之前是10纳米上市日期延后,这次7纳米又出了同样的状况。但好消息是,芯片巨头对于14纳米与10纳米制程都做出了大量节点内的性能改进,也在坚持依靠自己的技术力量制造芯片产品。虽然从计划角度来看,英特尔确实打算将某些芯片外包给台积电,但该公司非常清楚,晶圆厂以及晶圆厂内使用的制程节点对其命运有着至关重要的作用。也正因为如此,英特尔才继续对自家FinFET进行创新思考,希望让这项最初诞生于22纳米时代下的成果再次迸发出能量。

英特尔正通过多种栅极层面的创新,完善并重新定义FinFET——其中包括改进栅极间距与制程,借此改善通道迁移率与驱动电流。英特尔还打造出所谓SuperFins,其中包含Super MIM(即金属绝缘体金属)电容,据称能够将MIM电容增加至5倍。此外还有新型薄势垒(Novel Thin Barriers)技术,据称可将通孔电阻降低30%。这一切FinFET创新再加上对FinFET形态的重新设计,最终成就了速度更快、甚至堪称全球最快的晶体管。

事实上,英特尔在10纳米制程与架构方面的改进相当惊人,据称这一代产品的性能较14纳米提升了近20%。在14纳米时代,英特尔的每一次更新周期(+++)只能实现4%到5%的小幅增量式性能改进,甚至连换四代CPU架构也才总计实现约20%的性能提升。此次英特尔将通过一次升级达成目标,也让10纳米工艺换代获得远超多数人想象的重要意义。

2020年英特尔架构日:遇见更光明的未来

有史以来最可观的节点内性能增量

此外,英特尔设计制程节点的方式同样重要。芯片巨头并未受到芯片代际表述方式的局限,而是努力寻求以不同方法提高每瓦单位性能,借此为制程尺寸的极限保留一点回旋空间。实际上,英特尔方面已经透露,他们计划开发增强型SuperFins,能够进一步提高性能、实现互连创新,并针对数据中心工作负载做出优化。

尽管在所谓“5至6纳米”制程方面可能仍处于落后地位,但纵观英特尔全新晶体管的完整“堆栈”,大家会意识到其已经代表着业内的最高性能。接下来,我们将结合本次架构日活动上的Willow Cove公告,对此做出进一步介绍。

封装与互连

如前所述,英特尔一直在封装与互连技术层面推动创新,希望更灵活寺构建起诸如英特尔Lakefield处理器之类的产品。未来,英特尔还计划使用TSV(硅通孔)混合键合将各晶片之间的距离缩短至五分之一(从50微米减小至10微米),从而打造出体积更小、更简单的电路,借此降低功耗与电容尺寸。英特尔之前还公开了Co-EMIB封装技术,这项技术能够将计算与存储器晶片在同一芯片上进行水平(2D)与垂直(3D)堆叠,借此实现比单片生产工艺大得多的芯片产品。除了Co-EMIB之外,英特尔之前还在积极探索ODI的可行性。ODI能够实现更加紧密的晶片3D集成,其互连带宽可超越Foveros提供的直连供电方案。预计英特尔还将通过Alder Lake家族,为Lakefiled带来更多高性能后续产品,Alder Lake亦有望将英特尔的Golden Cove与Gracemont内核整合到同一套性能更强的混合架构当中。当然,这一切还不是英特尔所能实现的封装与互连极限,芯片巨头未来有计划推出光纤IO,每千光纤可带来1 Tbps的超高传输带宽。英特尔预计,其能够带来相当于PCIe Gen 6六倍的传输密度(最终结果预计于2021年确定)。此外,英特尔光纤IO的能源效率预计也将比PCIe Gen 6高50%,且延迟表现与电子IO基本相当。

结合目前行业中的设计与封装发展趋势,我认为不少企业将大范围采用3D封装技术以实现对多个小芯片的整合,在这方面英特尔公司拥有强大的实力,甚至可以说是目前市场上的领先者。当然,未来几周内,台积电也将发布更多最新消息。3D架构可以说是英特尔公司的长期战略以及行业转变方向,我认为目前的Lakefield架构还没有充分体现出未来的芯片设计思路。当然,其功耗与传输带宽确实更上一层楼,也给人留下了深刻印象。

Tiger Lake与Willow Cove

Tiger Lake与Willow Cove代表着英特尔公司的最新10纳米架构,其中Tiger Lake SoC使用的正是Willow Cove CPU架构。新的Willow Cove架构使用新型高性能SuperFin晶体管,这些晶体管能够改善整体金属堆叠结构。Willow Cove CPU内核以大获成功的Sunny Cove架构为基础,并凭借着晶体管与架构的改进,使得电压与频率曲线实现完全相移,借此在内核电压与时钟频率方面带来更大的动态范围。动态范围更大,意味着CPU性能将比上代产品高出约20%。尽管Willow Cove的架构细节仍然存在一定局限,但英特尔表示已经将缓存架构重新设计为更大的1.2MB MLC。英特尔同时指出,他们还在新架构中采用控制流执行技术,借此防止针对返回/跳跃的攻击。很明显,新一代10纳米芯片中必然包含着多种其他改进,共同推动英特尔借此实现高达20%的巨大性能提升。

Tiger Lake似乎将通过其六大支柱战略兑现英特尔公司长期以来希望实现的目标。它的出现,证明了英特尔有能力使用Willow Cove通过CPU内核扩展中实现13%至25%的性能提升,而这一切也将扩展至芯片巨头放下的所有产品线,包括台式机、笔记本电脑以及服务器。在我看来,随着Tiger Lake逻辑门数量与ASIC功能的增加,其GPU与ML性能将拥有广阔的发展空间。

Tiger Lake中的Xe-LP

Tiger Lake架构代表的不只是一款CPU,更是不同电路结构、存储器、协处理器以及GPU的组合。在Tiger Lake SoC上,英特尔纳入了基于Xe图形架构的新型GPU,即英特尔Xe-LP。该芯片拥有专项设计,可实现15瓦热设计功耗条件下的稳定运行,并根据所处系统的不同在10瓦至28瓦之间动态调整。Xe-LP GPU旨在取代英特尔的第11代图形架构,从技术上讲可以算是英特尔的第12代GPU架构,不过可能会取消传统的Gen命名习惯、转而冠以Xe的头衔。Tiger Lake中的Xe-LP可支持多达96个EU(执行单元),且EU范围比第11代更宽,能够对成对EU实现线程控制共享,从而提升其运行效率。

新的Xe-LP在设计定位上属于Xe GPU架构的入门级别,但也可以通过扩展逐步提升至发烧友、数据中心级甚至是亿亿次高性能计算(HPC)级。与Willow Cove一样,Xe-LP在时钟速率与电压方面都要比Gen 11具有更大的动态范围。这意味着即使是在相同的功率水平之下,英特尔的新一代GPU仍可实现速度提升;如果略微增加电压,则该GPU的性能将迎来大幅增长。我相信,Gier Lake SoC中使用的Xe-LP GPU拥有光明的前景,足以接过Gen 11的旗帜成为一股令竞争对手倍感压力的力量。当然,GPU市场一直在不断发展,预计今年的GPU架构竞赛也将进入新的阶段,一切可能要等英伟达公司在今年9月正式公布新一代GeForce之后才有定论。

Xe-LP GPU还包含一套新的媒体引擎,能够将编码/解码吞吐量提升一倍,增加了AV1与HEVC屏幕内容编码支持,而且可以在HDR/杜比视界中播放8K60帧内容。Xe-LP GPU中的显示引擎包含四条显示通道,可支持双eDP,同时支持DisplayPort 1.4、HDMI 2.0、Thunderbolt 4以及USB 4 Type-C作为输出端口。英特尔方面表示,它能够显示分辨率高达8K的视频,支持HDR10与杜比视界,甚至支持高达12位的BT2020色深与360 Hz自适应同步刷新率。英特尔还提到,Xe最多可以支持4倍压缩的4K60帧HDR、2倍4K120帧HDR或者8K60帧HDR。英特尔首款独立GPU DG1也将使用这套架构,这款芯片目前已经投入生产并有望在今年年内正式出货。

Tiger Lake的平台改进

除了带来公司历史上速度最快的10纳米CPU与GPU核心之外,Tiger Lake也实现了其他多项令人振奋的平台改进。之前提到过,其中使用的双环微架构一致性结构与最后一级缓存(LLC)都得到巨大提升,LLC大小增加了50%。这意味着相干结构带宽增加了2倍,能够更好地保证不同核心、存储器与GPU核心接收数据馈送。事实上,英特尔还支持高达每秒86 GB的存储器传输带宽以及包含双存储器控制器的子系统,借此显著提升了存储器带宽。以此为基础,英特尔不仅增加了对LP4x-4267 MHz与DDR4-3200的支持,同时也将在后续逐步推出对LP5-5400的支持,意味着英特尔的存储控制器已经具备支持DDR5的能力。

英特尔方面还带来经过更新的GNA 2.0(高斯与神经加速器),专门用于低功耗神经推理。该内核的一大常见初期应用,在于神经噪声消除——适用于图像或声音处理——能够令GNA任务处理中的CPU利用率降低20%。在显示IO方面,英特尔正尝试以更高的分辨率与质量增加对更多显示器的支持能力。Xe-LP中使用的媒体与显示引擎已经确切证明了这一点。为了实现此项目标,英特尔通过专用结构路径维持服务质量。此连接可为存储器提供高达64 GB每秒的同步传输带宽。第六代IPU(图像处理单元)使Tiger Lake平台得以支持4K90帧视频(初期支持4K30帧视频),静态图像分辨率支持上限达4200万(初期支持2700万)。

除了GNA 2.0与显示IO,英特尔还通过Thunderbolt 4与USB 4集成支持对系统的整体IO做出重大改进,借此在各个端口上实现高达40 Gbps的传输带宽。虽然英特尔之前就曾经在架构当中集成过Thunderbolt 4端口,但Tiger Lake将成为旗下首个支持USB 4的平台,同时也应该是业界首批支持USB 4的平台之一。考虑到USB 4与DisplayPort正通过合作提升兼容性与互操作性,因此英特尔应该可以通过Type-C支持显示内容输出,包括使用Type-C上的DP Alt模式以及Thunderbolt上的DP通道。除了Type-C之外,未来的PC将不再需要任何其他端口。实际上,目前的一部分高端笔记本电脑,例如戴尔的XPS17,已经开始采用这种设计。除了USB 4支持,英特尔还增加了对PCIe Gen 4的支持,意味着芯片巨头最终将在PCIe层面赶超AMD。Gen 4支持的加入,使得英特尔芯片能够使用目前市面上的部分超高速NVMe驱动器。这无疑是个令人欣喜的进展——尽管首个SKU只提供四通道,但我们预计英特尔未来将开放更多PCIe Gen 4通道,用于实现某些高功率、高性能的独立GPU产品(例如H-系列)。

在ML应用层面,软件的重要意义无需多言。因此相较于干货满满的硬件更新,我更期待看到哪些软件能够真正利用到这么多全新硬件功能。尽管目前尚不清楚Tiger Laker是否在软件层面与AMD 4000直接竞争,但英特尔似乎对Tiger Lake进行了良好扩展,因此我们有理由相信这套新架构在软件层面也不会出现太大问题。

Xe架构更新

除了专为服务器、嵌入式以及移动应用场景设计的全新Xe-LP之外,英特尔还透露称将推出Xe-HPG变体。Xe-HPG为第一代Xe-HP GPU的游戏优化型版本,将采用Xe-LP的每瓦性能架构,并将其与现有Xe-HP的超大规模相结合,借此将更高配置与Xe-HPC的计算频率优化能力结合起来。这款变体还将引入基于GDDR6的全新存储器子系统,提供光线追踪的硬件加速支持,并有望在2021年正式上市。有趣的是,如果认真观察英特尔架构日公布的演示文稿,就会发现XE-HPG将由外部代工厂制造,大多数分析师认为代工方很可能是台积电。除此之外,英特尔还讨论了如何通过即时游戏调优(Instant Game Tuning)改变GPU欢声笑语言架构,以便用户可以通过英特尔自动推送的驱动程序管理套件更好、更快地实现游戏优化,针对不同游戏获得更好的使用体验。

英特尔还详细介绍了如何通过“瓦片”(tile)设计扩展Xe-HP性能。每个GPU可以通过1到4块瓦片根据实际需求扩展Xe-HP性能,这种方法在实验室中已经得到充分验证。英特尔还详细介绍了Xe-HPC(Ponte Vecchio)的制造细节,特别是如何在其中使用FOVEROS与Co-EMIB组合通过不同制程制造不同晶片。其中的基础瓦片与“Rambo Cache”瓦片将采用英特尔10纳米工艺制造,计算瓦片则使用英特尔的“Next Gen”工艺由外部晶圆厂负责制造。Xe Link、I/O瓦片同样将由外部制造。另外,英特尔的SG1、DG1以及Tiger Lake产品将全部采用英特尔最新10纳米SuperFin工艺制造,Xe-HP将使用EMIB实现晶片链接。最后是英特尔的10纳米增强型SuperFin,预计将在2021年正式登陆各产品线。

虽然我对英特尔此次公布的内容感到相当振奋,但从务实的角度出发,一切都要先进最终产品投放市场时才算有了定论。

2020年英特尔架构日:遇见更光明的未来

产品、封装与制程工艺概述

如果您觉得本文的内容有点多,实际上……这还只是英特尔今年架构日上公布的半数内容。

总结

本次公布的所有重大架构发展,都是英特尔在已经失去部分CPU市场份额,而且7纳米制程节点再度延后6个月的背景之下出现的。更重要的是,尽管在技术领域遭遇困境,英特尔的运营收益仍然超出华尔街的预期。在本次架构日之后,我对芯片巨头的未来又充满了信心。因为可以看到,他们既没有忽略晶圆代工能力的问题,也开始在架构层面积极发力,王者重回巅峰已经颇有可能。

Tiger Lake似乎也有望通过其六大支柱战略兑现英特尔长期以来希望实现的目标。Tiger Lake证明英特尔有决心借助Willow Cove通过CPU核心扩展实现13%到25%的性能提升,相信其GPU与ML性能将迎来更大规模的扩展。在ML领域,软件一直非常重要,因此我高度期待英特尔能够尽快发布软件新功能的更多详细信息。目前尚不清楚Tiger Lake如何与AMD展开直接竞争,毕竟此次架构日并不属于实际产品发布活动。但就目前来看,英特尔确实很好地扩展了Tiger Lake性能水平,并在必要的位置强化了系统IO容量。

尽管英特尔在晶体管密度方面较“5至6纳米”仍然有所落后,但纵观英特尔的整个全新晶体管“堆栈”,特别是结合Willow Cove披露的示例,就会发现其确实代表着业内目前可以达到的最高性能之一。结合当前整个行业的设计与封装发展思路,我认为后续将有更多厂商以3D封装方式将多个小芯片整合在一起。而英特尔在这方面拥有丰富的经验积累,甚至可以说是当前这个领域的领先者。这是一种长期的战略性与行业整体转移,现有Lakefiled PPW、特别是明年即将推出的Alder Lake已经不足以代表这种重要趋势。英特尔致力于改进封装与IO的决心,给我留下了深刻印象,我也相信芯片巨头将以此为基础拿出一系列非常有趣的产品——例如Xe-HPC(Ponte Vecchio)。但归根结底,行动才是达成一切目标的关键。此次架构日只是技术公开,并非产品发布,本文提出的一切观点只是猜测,尚缺少任何量化或者执行层面的依据支持。总之,未来可期,我们静待英特尔的实际表现!

来源:Forbes

0赞

好文章,需要你的鼓励

2020

08/14

17:15

分享

点赞

邮件订阅