英特尔今天宣布推出了一款新的AI芯片——Gaudi 3,并承诺该芯片的性能是英特尔上一代芯片的4倍。

英特尔在Intel Vision 2024大会上详细介绍了该产品,并分享了有关英特尔AI战略的最新信息。英特尔计划与合作伙伴展开合作,对于融合了多厂商组件的AI硬件系统将加大供货量。在此事件的背景下,竞争对手AMD也正在通过推出面向互联设备市场的新片上系统增强了自己的AI处理器阵容。
英特尔Gaudi 3
英特尔在2019年通过20亿美金收购初创公司之后获得的处理器系列如今已经更新到第三代——Gaudi 3。与前身相比,这款新的芯片承诺在处理BF16格式(这种格式被AI应用广泛使用)的数据时性能可提高4倍,同时还具有更高的网络带宽,这意味着部署在同一个AI集群中的Gaudi 3芯片可以更快地与另一个芯片交换数据。
该芯片使用两组板载核心进行计算。第一种核心类型——TPC经过优化,可以加速深度学习模型在处理数据时通常执行的几种类型的计算,这些计算包括批量归一化,一种通过将深度学习模型接收到的原始输入数据转换为更好的格式来加速深度学习模型操作。
Gaudi 3中还包括了所谓的MME核心。这些核心同样旨在加速AI模型用于处理数据的计算,但与TPC核心不同的是,它侧重于不同的计算集。MME电路可以加速运行卷积层的任务,卷积层是图像识别模型中常见的软件构建块。
Gaudi 3具有64个TPC核心和8个MME核心,分布在两个模片(或半导体模块)上。这些模块相互连接,可以作为单一的芯片使用,此外还提供了128 GB板载HBM2e内存支持,这种高速RAM可让AI模型快速访问计算所需的数据。
英特尔上一代Gaudi芯片采用的是台积电7纳米工艺制造。到了Gaudi 3,英特尔已经改用更新的5纳米节点,从而能够生产出更快速、更节能的晶体管。
英特尔表示,一台服务器可以安装8个Gaudi 3芯片,每个芯片都包含21个以太网链路,用于与邻近的Gaudi 3单元交换数据。每个处理器上还有另外3个网络链路(总共24个),用于与主机服务器外部的芯片进行交互。
英特尔表示,Gaudi 3的性能不仅优于上一代芯片,还优于Nvidia的H100。在内部评估中,英特尔确定Gaudi 3可以将主流Llama 2大语言模型某些版本的训练速度提高50%,还承诺推理速度比H200快30%。H200是Nvidia H100芯片的增强版,专门针对大型语言模型进行了优化。
英特尔高级副总裁、数据中心和AI事业部总经理Justin Hotard表示:“企业会权衡可用性、可扩展性、性能、成本和能源效率等因素。英特尔 Gaudi 3作为生成式AI的替代方案脱颖而出,是一个结合了具有令人信服的性价比、系统可扩展性和价值实现时间优势的组合。”
在这次发布Gaudi 3的Intel Vision活动上,英特尔还透露了有关英特尔AI战略的最新信息。英特尔表示,正在与包括Red Hat和SAP在内的十多家合作伙伴合作,创建一个“企业AI开放平台”,该计划的目标是让企业能够使用整合了多家厂商硬件和软件的AI优化型系统。
据英特尔称,这些系统经过优化可以运行具有RAG功能的AI模型。RAG(检索增强生成)是一种机器学习技术,可以让大型语言模型吸收新的信息并将其纳入回答中,而无需进行高成本的再训练过程。
作为该计划的一部分,英特尔将发布参考实现,展示如何使用带有Gaudi和Xeon芯片的服务器来运行AI工作负载,还将为Tiber Developer Cloud增加更多基础设施容量。Tiber Developer Cloud是一个云平台,在该平台上英特尔客户可以使用英特尔处理器来训练和运行AI模型。
AMD的新AI芯片
在英特尔Intel Vision活动的背景下,竞争对手AMD也宣布推出了两个新的芯片产品线,主要设计用于为智能汽车子系统等边缘计算设备提供动力,并且这两个芯片系列都加入了英特尔现有的Versal产品组合,这是英特尔2022年以500亿美金收购Xilinx获得的。
Versal产品组合中的所有处理器都包含两种类型的电路。有些电路是为特定任务而构建的,例如运行AI模型或者处理传感数据。每个Versal芯片还包括适应性强的计算模块,客户可以根据自己的特定要求进行调整。这些模块基于FPGA技术,而这项技术最初就是由Xilinx开发的。
AMD这次推出的两个Versal芯片系列中,第一个是AI Edge Series Gen 2,该系列中的每个处理器都包含三组计算模块,有基于Arm设计的CPU核心,AI优化的电路以及可定制的FPGA模块。FPGA电路可以将来自连接设备中的传感器数据转换为更易于设备板载AI模型处理的格式。
Subaru公司是Versal AI Edge Series Gen 2的早期客户之一,该公司计划在多款汽车中安装这个系列的芯片,并利用这些处理器为自己的EyeSight先进驾驶辅助系统提供动力。该系统提供了自适应巡航控制和自动制动等安全功能。
AMD今天详细介绍了AI Edge Series Gen 2,以及另一个名为Prime Series Gen 2的新芯片系列,其设计与之前的产品系列类似,但不包括AI优化的计算模块。Prime Series Gen 2系列中的每款芯片均采用基于Arm的CPU核心、针对处理视频流进行优化的模块以及可定制的FPGA电路。
好文章,需要你的鼓励
Google Cloud产品管理副总裁Michael Gerstenhaber近日接受采访,详解企业部署AI智能体面临的核心治理难题。他指出,智能体的安全管控须借鉴人类员工管理逻辑,实现"默认安全"。Google Cloud通过智能体网关、身份权限管理、分布式追踪及Model Armor等工具构建纵深防御体系。Gerstenhaber还提出"弹性智能"概念,认为持续学习的智能体无需退役,可在运行时动态优化行为,从而帮助企业实现运营能力的弹性扩展。
OpenSkill是一套让AI代理无需人工监督即可自主成长的框架,通过从互联网获取知识、自建虚拟考题反复练习,实现真正的开放世界自我演化。
根据Ookla发布的全球Wi-Fi状态报告,Wi-Fi 7正在全球范围内逐步推进,但整体渗透率仍不足2%。新加坡以25%的Wi-Fi 7用户占比位居全球首位,得益于政府与运营商的联合推动。5 GHz频段依然是全球主流,6 GHz频段全球占比仅1.7%。欧洲6 GHz利用率更低至1.6%,各国间存在显著差异。AI基础设施需求推高半导体成本,也对CPE和智能手机制造商形成压力。
论文研究了AI评委同时优化多个评判维度时的两大失败原因:梯度稀释与指令干扰,为多目标提示词优化提供了系统性诊断框架。