Gaudi 3的定位是替代英伟达公司最畅销的H100图形处理器。直到今年3月,在最新的GPU Blackwell B200推出之前,H100一直是英伟达的旗舰AI加速器。英特尔表示,Gaudi 3的推理效能可以达到H100的2.3倍,可以让一些大型语言模型的训练时间更短。
英特尔于2019年收购初创公司,以此获得了人工智能处理器,Gaudi 3是该系列的第三次迭代。该芯片使用了台积电5纳米节点。Gaudi 3的处理能力由两块板载计算模块提供,分别为MME 和 TPC,它们分别针对不同任务进行了优化。
芯片的MME模块设计用于执行矩阵乘法运算。矩阵乘法是对按行和列排列的数字集合进行的数学计算,类似于电子表格中的字段。人工智能模型利用这种计算将输入数据转化为决策。
某些人工智能模型,如用于物体识别任务的模型,其大部分处理过程都是通过矩阵乘法完成的。大型语言模型等更高级的人工智能也使用其他类型的计算。Gaudi 3的 TPC 模块(该芯片包含的第二类计算电路)针对这些其他计算进行了优化。
TPC基于所谓的超长指令字架构。这是一种经过优化的芯片设计,可并行执行多个计算。由于并行执行计算比逐个完成计算更快,Gaudi 3的TPC 有助于加快人工智能模型的性能。
Gaudi 3包含64个TPC,几乎是前代产品的三倍。此外,MME(针对矩阵乘法进行优化的计算模块)的数量也是前者的四倍。芯片的逻辑电路配备了120GB内存池,其时钟速度高于英特尔上一代人工智能处理器的RAM。
该公司表示,Gaudi 3中引入的升级将其处理BF16数据的最高速度提高到了1,835 TFLOPS,即每秒万亿次计算。BF16是一种人工智能模型常用的信息存储数据格式。
性能的提升并不是Gaudi 3唯一的卖点。它还有一个板载以太网模块,可将人工智能服务器中的Gaudi 3处理器连接在一起,也可将多个此类服务器连接在一起。英特尔将芯片中单个以太网网络连接的带宽提高了一倍,达到每秒200Gb。
IBM 计划明年初在 IBM Cloud Virtual Servers for VPC 中提供 Gaudi 3。这是该公司在其公共云平台中提供的计算实例。IBM 还将在其 watsonx 产品套件中添加对 Gaudi 3 的支持,该套件包括软件工具,企业可利用这些工具构建人工智能模型、在生产中部署这些模型并执行相关任务。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。