撰稿人:Anshel Sag
更新时间:美国东部时间2021 年 8 月 20 日下午04:31
主题:云计算
英特尔一直很少透露旗下Xe架构的独立GPU的消息,不过在今年的“架构日”(Architecture Day)活动中,该公司揭开了消费级GPU品牌ARC的神秘面纱,并且透露其首款ARC产品的代码代号为Alchemist,该产品将于2022年1季度上市。Alchemist的定位是Xe HPG(HPG,高性能游戏),另一个备受期待的GPU的代码代号为Ponte Vecchio,该产品瞄准的是HPC(高性能计算)领域。你应该可以预料到,由于针对的目标市场不同,所以这些GPU产品也具有不同的内核配置和热封装。
针对高性能游戏的Xe产品——ARC Alchemist
英特尔将充满活力的PC游戏市场视为一个机会,认为自己可以凭借着ARC产品进入GPU领域。Xe HPG 产品线力求在Xe LP(低功耗)在Tiger Lake 内部实现的性能基础之上,继续提高英特尔的图形性能,将Gen 11的性能翻倍。英特尔的目标是,凭借着独立的Xe HPG产品,通过相应的高功率封装获得更高的性能。
新的Alchemist SoC基于Xe HPG 架构,它的一个关键功能之一就是新的超级采样功能,该功能将会在多个方面被拿来同英伟达的DLSS进行比较。英特尔将其称为Xe SS,由于它使用了神经网络和矩阵乘法硬件——它被称之为XMX核心——它看起来确实和英伟达的方法很相似,这是件好事。但是,有一个版本的 Xe SS 不需要 XMX 硬件,而是利用 DP4a 来最大限度地提高软件与其诸多集成 GPU 的兼容性。
Xe Core - Xe HPG
Xe GPU产品系列的内核有不同的配置,Xe LP、Xe HPG和Xe HPC的内核配置各不相同。每个内核内部都有不同的“引擎”,较小的专用内核,主要是矢量和矩阵内核。英特尔将这些内核称之为“矢量引擎(Vector Engines)”和“矩阵引擎(Matrix Engines)”。在Xe HPG 内核中,你将获得16个矢量引擎和16个矩阵引擎,每个周期分别产生256比特和1025个比特。这种设计看起来和英伟达的矢量内核非常相似,但是前者的矩阵乘法能力却是后者的两倍。四个Xe Core 单元组成了一个渲染切片,它还增加了光线追踪单元、纹理采样器和几何/光栅化前端。整个的Xe HPG Alchemist SoC由 8 个 Xe 内核切片组成,它们之间还包含了一个 L2 缓存。该产品将由台积电使用其N6工艺节点生产,该节点被认为比三星的8纳米(在供英伟达使用)和台积电自己的7纳米(在供AMD使用)节点更先进。英特尔还提供了ARC产品系列的发展路径图,暗示尽管Battlemage (Xe2) 和 Celestial (Xe3) 似乎建立在相同的架构上,但未来的ARC GPU 将比上一代更快。与此同时,Druid被认为是 Xe下一代架构。
适用于超大规模计算等领域的产品——Xe HPC
英特尔设计了 Xe HPC(高性能计算)GPU 来满足超大规模计算需求和高新能计算需求,它通常被用于政府研究或其他大规模计算密集型应用程序,如训练人工智能(AI)。英特尔首款Xe HPC GPU的代码代号为Ponte Vecchio,该公司已经在这款产品上发力一段时间了。我们已经知道这种多芯片 GPU 架构的每个 GPU 的功耗高达 600W,并且需要液体冷却。我们也已经知道 Ponte Vecchio 是一个绝对的 GPU 怪兽,拥有超过 1000 亿个晶体管、47 个活动块和五个不同的工艺节点。但是我们现在知道“计算瓦片(compute tiles)”——Xe HPC内核的另一个名称,将在台积电的N5工艺节点生产,每个“瓦片”将拥有8个Xe Cores和MB 缓存。基片(Base tile)将在英特尔的七个工艺节点生产,将配备144MB的缓存和一个PCIe 5 接口。每个GPU上有8个 Xe Link tile,它们将由台积电的N7工艺节点制造,并且一次最多可以将 8 个 Xe HPC GPU 连接在一起。英特尔声称 Ponte Vecchio 将具有 45 TFLOPS 的峰值 32 位浮点 (FP32) 吞吐量,这是理论上的最大计算能力。虽然这不一定是一个准确的性能衡量标准,但它确实提供了一个粗略的参考框架,表明在驱动程序和其他优化之前,使用没有人工智能或者机器学习的传统GPU计算任务在低精度(例如INT8)下的预期结果。Argonne国家实验室(Argonne National Laboratory)的Aurora超大规模超级计算机将使用英特尔的Ponte Vecchio。该液冷解决方案在每个刀片中使用了两个英特尔新型 Sapphire Rapids CPU 和六个 Ponte Vecchio GPU,这个数量再乘以机架的数量和机架上安装的刀片数量,然后扩展至可以实现超过Exaflop的性能。
Xe Core - HPC
针对高性能计算的Xe Core每个内核中的矢量引擎数量翻了一番,矩阵引擎的数量则翻了两番,这应该能够让你对于英特尔打算让这些内核进行多少运算——特别是人工智能(AI)运算多少有一些概念了。通过这种内核设计,英特尔瞄准了该公司很多客户关注的人工智能和机器学习应用程序,并且可能会与英伟达的A100直面竞争。和Xe HPG很类似的是,Xe HPC也在切片中整合了Xe Cores,除了 Xe HPC,每个切片拥有 16 个核心——而不是4个,这表明了该GPU拥有了强大得多的计算能力。此外,XE HPC 切片还包括光线跟踪单元,这显示出英特尔有意将这些 GPU 用于实际 3D 渲染,而不仅仅是用于计算目的。虽然我们还没有了解到关于光线追踪性能的任何细节,但是知道英特尔的HPC产品也支持光线追踪是一件值得高兴的事,该功能可以被用于高性能云渲染农场。单个 Xe HPC 堆栈最多包含4个切片(64 个 Xe HPC 内核和 64 个光线跟踪单元)、大量 L2 缓存和8个 Xe Link。GPU 上还有 4 个 HBM2e 控制器用于控制HBM2e 内存。而该产品提供的双堆栈配置能够有效地将所有的一切翻倍。
总结……
总体而言,我们已经获得了关于英特尔即将推出的 GPU 的许多信息,并且更好地了解了该公司在图形产品方面的发展方向。英特尔已经明确表示,在追逐游戏和高性能计算未来的途中,该公司在矩阵乘法核心(XMX)和光线追踪两方面都进行了投资。这可以解释为什么英特尔没有在其消费级CPU(Alder Lake)中包含 XMX 内核。该公司在“2021年架构日(Architecture Day 2021)”的活动中,也提供了关于这款产品的一些详细信息。凭借着Alchemist,英特尔有望成为中端消费级GPU市场中的一个有力竞争者。Ponte Vecchio和英伟达在高性能计算(HPC)和人工智能(AI)任务方面的竞争将会出现何种局面还有待观察。不过,从目前看到的初步情况和数据来说,英特尔还是很有希望的。尽管英特尔的Ponte Vecchio从每个GPU的角度上说看起来很贵,但是英伟达的高端产品其实也不便宜。我认为,到明年年初,当Xe HPG 开始批量出货的时候,以及当我们更好地了解Ponte Vecchio 的可用性以及还有谁使用了它的时候,英特尔GPU业务的未来就会更加明朗。在这一点上,英特尔向我们展示了它拥有的架构——很多人认为这个架构颇具吸引力。而业界正在热切地等待着在GPU这个传统由双寡头垄断的市场上出现第三个竞争者。
好文章,需要你的鼓励
人工智能领域正在通过改进模型工作方式来释放新功能。研究人员开发了一种名为"SVDquant"的4位量化系统,可以使扩散模型运行速度提高3倍,同时提升图像质量和兼容性。这种技术通过压缩参数和激活值来大幅降低内存和处理需求,为资源受限的系统带来新的可能性。
Meta公司开发了一种机器学习模型SEAMLESSM4T,能够实现36种语言之间的近即时语音翻译。该模型采用创新方法,利用互联网音频片段避免了繁琐的数据标注。这一突破性技术有望简化多语言交流,但仍需解决噪音环境、口音等挑战,并关注技术可能带来的偏见问题。
生物制药行业正积极拥抱人工智能技术,大型企业投入巨资,小型公司谨慎布局。行业面临人才、数据和工作流程等挑战,但预计到2025年将在AI就绪度方面取得实质性进展。AI有望加速药物研发,提高效率,最终造福患者,重塑医疗保健的未来。
随着 AI 需求激增,数据中心行业面临严峻挑战。能源消耗激增威胁可持续发展目标,新项目遭遇公众反对。电力供应和分配方式亟需改革,行业或将迎来动荡的 2025 年。