一起来看关于Gaudi 2、Greco AI芯片以及Arctic Sound-M服务器GPU的更多消息
英特尔正加快步伐,希望在加速计算领域与GPU巨头英伟达正面抗衡,而拿出的基本战略则是针对不同需求构建更加多样化的芯片产品组合。
在以20亿美元收购AI芯片初创公司Habana Labs的两年多之后,如今英特尔深度学习部门Habana推出两款最新芯片,分别是面向训练的Gaudi 2和面向推理的Greco。x86巨头宣称,至少在自己的基准测试当中,前者的性能已经超越了两年前亮相的英伟达A100 GPU。
Habana第二代深度学习芯片的发布,只是英特尔本周二在得克萨斯格雷普韦恩举行的Intel Vision大会上的公告之一。在这里,英特尔还披露了多用途、主要针对媒体需求的Arctic Sound-M服务器GPU,这款产品将于今年第三季度正式投放市场。
Gaudi 2今天已经推出,而作为Habana Goya芯片继任者的Greco则有望在今年下半年向客户提供样品。
英特尔宣称,这两款芯片都能通过“高性能、高效率的深度学习计算设计”解决训练和推理需求,降低企业探索AI/ML技术的准入门槛。
Gaudi 2采用7纳米制程,是对上代Gaudi 16纳米制程的重大改进,其中包含24个Tensor处理器核心和96 GB HBM2e高带宽内存——两项指标均相当于前代产品的3倍。其内存带宽也几乎增长3倍,达到2.45 TB/秒,SRAM则倍增至48 MB。吞吐量指标自然也不甘落后,将芯片的网络传输能力由初代Gaudi的10个100 GbE端口扩展至现在的24个100 GbE端口。
但这一切也带来了更高的能耗水平。与Gaudi的350瓦相比,Gaudi 2的热设计功耗(TDP)最高可达600瓦。
但这可不是白热的,英特尔宣称Gaudi 2的性能较英伟达A100实现了重大飞跃——A100同样采用7纳米制程,但仅支持最大80 GB的HBM2e内存。
相较于80GB的A100,英特尔称其内部基准测试证明Gaudi 2在训练ResNet-50图像分类模型时速度可提升至1.9倍,在BERT自然语言处理模型的前两个训练阶段内速度可达2倍。
对比图表:英特尔Habana Gaudi 2与其他芯片(包括英伟达A100)在ResNet-50训练中的性能差异。
本届Intel Vision大会可谓精彩纷呈,但粉丝们也不要盲目乐观,毕竟英伟达今年第三季度就会推出A100的继任者H100。这款最新GPU将搭载80 GB的HBM3内存和高达3TBps的内存带宽。考虑到英伟达已经放出狠话,称H100的每瓦性能要比A100高3倍,所以Gaudi 2有没有一战之力仍是个未知数。
说到英伟达,业界几乎没有哪位对手跟得上这位GPU巨头过去几年以来的AI系统软件投入。但英特尔也没有放弃,表示用户可以使用SynapseAI软件套件在Gaudi处理器上训练深度学习模型。这款套件支持TensorFlow和PyTorch框架,而且将“必要的代码更改控制在最低水平”。
服务器制造商Supermicro首先通过新的Supermicro X12 Gaudi 2训练服务器为Gaudi 2提供系统支持,而存储支持则通过DDN的AI400X12存储系统实现。
去年10月,就在第一代Gaudi训练芯片刚刚在亚马逊云科技的云实例上亮相后不久,Gaudi 2的消息就已经放出。
Gaudi的早期测试用例当然比较有限,但英特尔称这款芯片已经在内部Mobileye业务部门内进行了部署。
Mobileye部门高管Gaby Hayon表示,该部门已经有多个团队在以云端或本地方式使用Gaudi,而且他们“坚定认为,相较于当前基于GPU的各类模型训练类实例,Gaudi能够显著节约成本,帮助他们在更短时间内将模型推向市场、或者在同等时间内训练出更大更复杂的模型。”
在英特尔之外,来自弗吉尼亚州雷斯顿的生物医学研究公司Leidos也站出来为Gaudi背书。该公司表示,使用Gaudi芯片驱动的AWS DL1实例进行X光片模型训练时,其成本相较于采用五年前英伟达V100 GPU的p3dn.24xlarge实例可降低60%以上。
今年晚些时候,英特尔还计划发布另外两款用于不同类型加速计算的芯片。同样由Habana打造的Greco推理芯片将从下半年起向客户提供样品,而多用途Arctic Sound-M服务器GPU则计划于今年第三季度推出。
与Gaudi 2一样,Greco也从上代版本的16纳米制程一跃升级至7纳米制程。虽然内存容量与上代芯片一样为16 GB,但Greco将Goya的DDR4内存升级为LPDDR5,内存带宽也由此从40 GB/秒大幅提升至204 GB/秒。
但与Gaudi 2不同的是,Greco尺寸更小,由上代Goya的双插槽变成了单插槽半高、半长PCIe规格。它的运行功率也更低,热设计功率仅为75瓦,远低于上代芯片的200瓦。
英特尔的加速计算平台也迎来了新升级。本次Intel Vision大会上发布的Arctic Sound-M服务器GPU就是一例,这款“超级灵活”的产品针对云游戏、媒体处理、虚拟桌面基础设施和推理等应用场景进行了优化。这款服务器GPU将采用PCIe Gen 4卡的形式,并计划登陆思科、戴尔、HPE、Supermicro、浪潮及H3C等厂商的超过15套服务器系统。
Arctic Sound-M采用与英特尔PC端最新Arc独立GPU相同的Xe HPG微架构。因此其功能也与后者相似,包含多达4个Xe媒体引擎、多达32个Xe核心和光线追踪单元、可通过XMX矩阵引擎实现AI加速,同时支持英特尔号称是行业首创的AV1视频编码与解码硬件加速。
芯片巨头还强调,强劲的参数规格在实际落地后性能惊人,可以支持30多条1080p视频转码流、40多条云游戏流、最多62个虚拟桌面基础设施虚拟化功能、以及每秒最高150万亿次媒体AI分析运算。
英特尔将为Arctic Sound-M服务器GPU提供两种功率版本:150瓦版本强调最大峰值性能,75瓦版本则主打高密度、多用途。
英特尔并没有提到Greco与Arctic Sound-M芯片分别针对市场上的哪些主要竞争对手。
另外,英特尔还计划在今年晚些时候发布其用于AI和高性能计算工作负载的Ponte Vecchio GPU。这不禁让人好奇,英特尔的GPU与Habana深度学习芯片会不会在产品定位上存在过多重叠。
Habana Labs首席运营官Eitan Medina在会前采访中表示,英特尔正针对数据中心内的AI工作负载提供CPU、GPU与深度学习芯片,毕竟“不同客户在不同应用场景上需要不同的服务器组合。”
根据Medina的介绍,英特尔的至强服务器CPU就特别适合在单一服务器内运行数据预处理、推理和其他泛用性应用程序;英特尔GPU则更适合混合度较高的AI、高性能计算(HPC)及图形工作负载;另一方面,Habana芯片则主要面向深度学习类工作负载。
英特尔希望此项战略能够减缓英伟达在加速计算和AI业务领域无可匹敌的发展速度,同时帮助自身在传统CPU业务之外提升多元化水平。毕竟这块业务大本营目前已经不够安稳,正在受到AMD及其他几家Arm或RISC-V芯片厂商的猛烈冲击。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。