英特尔推出两大x86 CPU内核、两大数据中心SoC、两款独立GPU,以及变革性的客户端多核性能混合架构

本文作者:Raja M. Koduri
英特尔公司高级副总裁兼加速计算系统和图形事业部总经理
架构是硬件和软件的“炼金术”。它融合特定计算引擎所需的先进晶体管,通过领先的封装技术将它们连接,集成高带宽和低功耗缓存,在封装中为混合计算集群配备高容量、高带宽内存和低时延、可扩展互连,并确保所有软件无缝地加速。披露面向新产品的架构创新,是英特尔架构师在每年架构日上的期许,今年举办的第三届英特尔架构日令人十分兴奋。
今天,我们公布了英特尔®架构在近年来重大的改变和创新。 这包括:第一次深入介绍了英特尔首个性能混合架构Alder Lake,其搭载两款新一代x86内核以及智能英特尔®硬件线程调度器;英特尔全新引领行业标准的数据中心架构Sapphire Rapids,其搭载全新的性能核以及多种加速器引擎;英特尔全新的独立游戏图形处理器(GPU)架构;英特尔全新的基础设施处理器(IPU)以及超凡的数据中心GPU架构Ponte Vecchio,其具备英特尔迄今为止最高的计算密度。
架构突破为英特尔的下一波领先产品奠定基础,率先推出的是Alder Lake。随着从台式机到数据中心的工作负载愈发庞大、愈发复杂、愈发多样,我们在架构日上展示的突破展现了架构将如何满足对更高计算性能的需求。
架构师们奋力而行,结合英特尔独特、丰富的标量、矢量、矩阵和空间计算引擎,打造混合计算架构,为客户的高需求工作负载提供非线性处理能力。
我为大家概述如下:
能效核:一个高度可扩展的x86微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake,能效核可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。1就吞吐量性能而言,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。
性能核:它不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现阶梯式提升,推动未来十年的计算发展。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。
针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI加速提升约8倍。这是为软件易用性而设计,利用了x86编程模型。
英特尔硬件线程调度器:这是英特尔开发的独特调度方法,旨在确保将能效核和性能核无缝衔接在一起,从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。智能直接置于内核,英特尔硬件线程调度器与操作系统无缝配合,在合适的时间把合适的线程分配给合适的内核。
Alder Lake:它重构了多核架构,是英特尔首个搭载全新英特尔硬件线程调度器的性能混合架构。它是英特尔最智能的客户端SoC架构,结合了能效核和性能核,适用于从移动端到台式机的产品,并通过多种业界领先的I/O和内存而引领行业变革。基于Alder Lake的产品将在今年开始出货。
Xe HPG和Alchemist SoC:一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧友级别的性能。Xe HPG微架构采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。Xe内核中的全新矩阵引擎(Xe Matrix eXtensions,XMX)能够加速AI工作负载,比如XeSS,是一项全新升频技术(upscaling technology),可以实现高性能、高保真游戏体验。基于Xe HPG的Alchemist SoC(之前代号为DG2)将于2022年第一季度上市,并采用新的品牌名英特尔®锐炫™。
Sapphire Rapids:它结合了英特尔的性能核与全新加速器引擎,树立了下一代数据中心处理器的标准。Sapphire Rapids的核心是一个模块化的分区SoC架构,得益于英特尔的EMIB多晶片互连封装技术和先进网格架构,它具有显著的可扩展性,同时仍保持单晶片CPU接口的优势。
基础设施处理器(IPU):Mount Evans是英特尔首款专用ASIC IPU,以及全新的基于FPGA的IPU参考平台——Oak Springs Canyon。通过基于英特尔IPU的架构,云服务提供商(CSPs)可以通过把基础设施任务从CPU转移到IPU,从而让数据中心收益更大化。把基础设施任务转移到IPU,能够让云服务提供商(CSPs)可以把所有的服务器CPU租给客户。
Xe HPC, Ponte Vecchio:Ponte Vecchio是英特尔迄今为止最复杂的SoC,也是我们践行IDM 2.0战略的绝佳示例,它采用多种先进的半导体制程工艺、英特尔变革性的EMIB技术以及Foveros 3D封装技术。这是我们实现堪比登月难度创新后的一款产品,它包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。在架构日上,英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。我们的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。如Xe架构一样,Ponte Vecchio将由oneAPI支持,后者是英特尔一个开放、基于标准、跨架构、跨供应商的统一软件堆栈。
回望过去一年,科技处于所有人如何沟通、工作、娱乐和应对新冠肺炎疫情的核心。事实证明,强大的计算能力至关重要。展望未来,我们面临庞大的算力需求,预计到2025年将是1000x(千倍级)的提升,而四年内增加1,000倍相当于摩尔定律的5次方。
英特尔CEO帕特·基辛格也是一位架构师,他说:“我们面临艰巨的计算挑战,一定要通过变革性的架构和平台来解决……正是英特尔才华横溢的架构师和工程师们,让这些技术‘魔法’得以成真。”
世界正依赖架构师和工程师来解决艰巨无比的计算问题,以造福人类。这就是为什么我们的战略和执行不断加速以满足所需。我们疾步前行。
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  英伟达和诺基亚宣布战略合作,将英伟达AI驱动的无线接入网产品集成到诺基亚RAN产品组合中,助力运营商在英伟达平台上部署AI原生5G Advanced和6G网络。双方将推出AI-RAN系统,提升网络性能和效率,为生成式AI和智能体AI应用提供无缝体验。英伟达将投资10亿美元并推出6G就绪的ARC-Pro计算平台,试验预计2026年开始。
这项由哥伦比亚大学研究团队完成的突破性研究首次揭示了AI系统自我改进中的"效用-学习张力"问题:系统追求更好性能时会增加复杂度,但过高复杂度会破坏学习能力。研究建立了学习边界定理,提出双门控制机制,为AI安全自我改进提供了理论基础和实用方案,对确保AI技术长期安全发展具有重要意义。
虽然ChatGPT等AI工具正在快速改变世界,但它们并非无所不知的神谕。ChatGPT擅长"令人信服的错误",经常提供有偏见、过时或完全错误的答案。在健康诊断、心理健康、紧急安全决策、个人财务规划、机密数据处理、违法行为、学术作弊、实时信息监控、赌博预测、法律文件起草和艺术创作等11个关键领域,用户应避免完全依赖ChatGPT,而应寻求专业人士帮助。
这项由Reactive AI公司Adam Filipek主导的研究提出了反应式变换器(RxT),通过事件驱动架构和固定大小记忆系统,将传统聊天机器人的对话成本从平方级降为线性级,使长期对话成本降低99%以上,同时实现恒定响应速度。实验证明即使12M参数的RxT也显著优于22M传统模型,为高效对话AI开辟新路径。
 
             
                 
                     
                     
                    