英特尔驱动数据中心、边缘和客户端迈入下一个计算时代,直面未来工作负载和计算挑战
2021年8月19日——在2021年英特尔架构日上,英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri携手多位英特尔架构师,全面介绍了两种全新x86内核架构的详情;英特尔首个性能混合架构,代号“Alder Lake”,以及智能的英特尔®硬件线程调度器;专为数据中心设计的下一代英特尔®至强®可扩展处理器Sapphire Rapids;基础设施处理器(IPU);即将推出的显卡架构,包括Xe HPG微架构和Xe HPC微架构,以及Alchemist SoC, Ponte Vecchio SoC。
这些新架构将为即将推出的高性能产品注入动力,并为英特尔的下一个创新时代奠定基础,以满足世界对高计算能力日益增长的需求。
Raja Koduri强调了架构提升对于满足这一需求的重要性:“架构是硬件和软件的‘炼金术’。它将特定计算引擎所需的先进的晶体管结合在一起,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,并在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,同时确保所有软件无缝加速。随着桌面到数据中心的工作负载变得前所未有的密集、复杂、且多样,今年公布的这些新突破也展示了架构将如何满足对于更高计算性能的迫切需求。”
x86内核
能效核
全新的英特尔能效核微架构,曾用代号“Gracemont”,旨在面对当今多任务场景,提高吞吐量效率并提供可扩展多线程性能。此高能效x86微架构在有限的硅片空间实现多核任务负载,并具备宽泛的频率范围。该架构致力通过低电压能效核降低整体功率消耗,为更高频率运行提供功率热空间。这也让能效核提升性能,以满足更多动态任务负载。
能效核可以利用各种技术进步,在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能,这些功能包括:
相比英特尔最多产的CPU内核Skylake,在单线程性能下,能效核能够在相同功耗下实现40%的性能提升,或在功耗不到40%的情况下提供同等性能1。与运行四个线程的两个Skylake内核相比,四个能效核所提供的吞吐量性能,能够在功耗更低的情况下同时带来80%的性能提升,而在提供相同吞吐量性能时,功耗减少80%。1
性能核
英特尔全新性能核微架构,曾用代号 “Golden Cove”, 旨在提高速度,突破低时延和单线程应用程序性能的限制。工作负载的代码体积正在不断增长,需要更强的执行能力。数据集也随着数据带宽的需求提升而大幅增加。英特尔全新性能核微架构带来了显著增速同时更好地支持代码体积较大的应用程序。
性能核拥有更宽、更深、更智能的架构:
性能核是英特尔有史以来构建的性能最高的CPU内核,并通过以下功能突破了低时延和单线程应用程序性能的极限:
客户端
Alder Lake客户端SoC
代号为“Alder Lake”的英特尔下一代客户端架构是英特尔的首款性能混合架构,它首次集成了两种内核类型:性能核和能效核,以带来跨越所有工作负载类型的显著性能提升。Alder Lake基于 Intel 7制程工艺打造而成,支持最新内存和最快I/O。
Alder Lake将提供惊人的性能,支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备,它采用了单一、高度可扩展的SoC架构,提供三类产品设计形态:
构建如此高度可扩展架构的挑战,我们需要在不影响功率的情况下满足计算和 I/O 代理对带宽超乎寻常的需求。为了解决这一挑战,我们设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式。
英特尔硬件线程调度器
为使性能核和能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,称之为“英特尔硬件线程调度器”。硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。硬件线程调度器具有动态性和自适应性——它会根据实时的计算需求调整调度决策——而非一种简单的、基于规则的静态方法。
传统意义上,操作系统会根据有限的可用数据做出决策,如前台和后台任务。硬件线程调度器可通过以下方式增加新维度:
Xe HPG微架构和Alchemist SoC
Xe HPG是一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧级的高性能。Xe HPG微架构为Alchemist系列SoC提供动力,首批相关产品将于2022年第一季度上市,并采用新的品牌名——英特尔锐炫™(Intel®Arc™)。 Xe HPG微架构采用全新的Xe内核,是一款聚焦计算、可编程且可扩展的元件。
客户端显卡路线图包括 Alchemist(此前称之为DG2)、Battlemage、Celestial和Druid SoC。在演讲中,英特尔展示了微架构细节,并分享了在试产阶段的Alchemist SoC上运行的演示视频,包括真实游戏展示,虚幻引擎5测试良好,全新的基于神经网络的超取样技术XeSS等。
基于Xe HPG微架构的Alchemist SoC能够提供出色的可扩展性和计算效率,并拥有以下关键架构特征:
英特尔显卡设计的核心是软件优先:
XeSS
XeSS 利用Alchemist的内置XMX AI加速,带来了一种可实现高性能和高保真视觉的全新升频技术。其使用深度学习来合成非常接近原生高分辨率渲染质量的图像。凭借XeSS ,那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。
数据中心
下一代英特尔至强可扩展处理器(代号为“Sapphire Rapids”)
Sapphire Rapids代表了业界在数据中心平台上的一大进步。该处理器可在不断变化且要求日益增高的数据中心使用中提供可观的计算性能,并对工作负载进行优化,以在云、微服务和AI等弹性计算模型上提供高性能。
Sapphire Rapids的核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。Sapphire Rapids提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽。
Sapphire Rapids基于Intel 7制程工艺技术,采用英特尔全新的性能核微架构,该架构旨在提高速度,突破低时延和单线程应用性能的极限。
Sapphire Rapids提供业界广泛的数据中心相关加速器,包括新的指令集架构和集成IP,以在各种客户工作负载和使用中提升性能。新的内置加速器引擎包括:
这些架构上的改进使Sapphire Rapids能够为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式提供开箱即用的性能。该处理器旨在通过先进的内存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技术,来推动行业技术转型。
基础设施处理器(IPU)
IPU是一种可编程的网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,并充分释放性能价值。
英特尔基于IPU的架构有以下主要优势:
英特尔认识到“单一产品无法满足所有需求”,因此对其IPU架构进行了更深入的研究,并推出了以下IPU家族的新成员——均为应对多样化数据中心的复杂性而设计。
Mount Evans是英特尔的首个ASIC IPU。Mount Evans是与一家一流云服务提供商共同设计和开发的,它融合了多代FPGA SmartNIC的经验。
Oak Springs Canyon是一个IPU参考平台,基于英特尔®至强 D 处理器(Intel® Xeon-D)和拥有业界领先的功率、效率、性能的英特尔® Agilex™ FPGA构建:
英特尔N6000加速开发平台,代号为“Arrow Creek”,是专为搭载至强服务器设计的SmartNIC。其特性包括:
Xe HPC和Ponte Vecchio
Ponte Vecchio基于Xe HPC微架构,提供业界领先的每秒浮点运算次数(FLOPs)和计算密度,以加速AI、HPC和高级分析工作负载。英特尔公布了Xe HPC微架构的IP模块信息;包括每个Xe核的8个矢量和矩阵引擎(称为XMX Xe Matrix eXtensions);切片和堆栈信息;以及包括计算、基础和Xe Link单元的处理节点的单元信息。在架构日上,英特尔表示,早期的 Ponte Vecchio 芯片展示了领先的性能,在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录。1英特尔A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的内存结构带宽,以及高于2 TBps的连接带宽。同时,英特尔分享了一段演示视频,展示了ResNet推理性能超过43,000张图像/秒和超过每秒3400张图像/秒的ResNet训练,并且这两项性能都有望实现行业领先。1
Ponte Vecchio由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接(EMIB)单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于Foveros封装中,为提高功率和互连密度形成有源芯片的3D堆叠。高速MDFI互连允许1到2个堆栈的扩展。
计算单元是一个密集的多个Xe内核,是Ponte Vecchio的核心。
基础单元是Ponte Vecchio的连接组织。它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。
Xe 链路单元提供了GPU之间的连接,支持每单元8个链路。
Ponte Vecchio已走下生产线进行上电验证,并已开始向客户提供限量样品。Ponte Vecchio预计将于2022年面向HPC和AI市场发布。
oneAPI
oneAPI提供了一个开放、规范、跨架构和跨厂商的统一软件栈,让开发者能够摆脱专有语言和编程模型的束缚。目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI库。oneAPI正在被独立软件提供商、操作系统供应商、终端用户和学术界广泛采用。行业领导者正在协助发展该规范,以支持更多的用例和架构。同时,英特尔还提供了商业产品,包括基本的oneAPI基础工具包,它在规范语言和库之外增加了编译器、分析器、调试器和移植工具。
oneAPI提供跨架构的兼容性,提高了开发人员的生产力和创新能力:
好文章,需要你的鼓励
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起围观“AI企业”如何解“企业AI”落地难题。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起预见“AI超级个体”。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者现场“预见2025”。
戴尔负责边缘计算、战略和执行的高级副总裁Gil Shneorson对CRN表示:“因此,我们已经开始着手有效创建边缘云的工作。”“它仍然是唯一一款能将所有一切结合在一起的边缘运营软件。目前还没有其他类似的软件。”