在英特尔on技术创新大会上,英特尔展示了一系列“让AI无处不在”的丰富技术,让AI在从客户端和边缘再到网络和云端的多样工作负载中更易于访问。
其中,包括英特尔Gaudi2与Gaudi3加速器、第四代英特尔至强可扩展处理器、第五代英特尔至强可扩展处理器,以及代号分别为Sierra Forest和Granite Rapids的下一代至强处理器。

英特尔执行副总裁兼数据中心与AI事业部总经理Sandra Rivera表示,单一的产品并不能满足所有的工作负载,用户需要在价格、功耗、性能等方面能够拥有不同的选择。而针对从云到边缘到端的AI工作负载,英特尔都能提供解决方案。“从性价比和供应的角度来看,我们具有强大的竞争力和市场领先性。”
关注当下
至强处理器是数据中心市场的王者,近期英特尔出货了第一百万片第四代英特尔至强可扩展处理器。

英特尔资深院士、至强首席架构师Ronak Singhal(图左)与英特尔公司副总裁、至强产品和解决方案事业部总经理Lisa Spelman(图右)
英特尔公司副总裁、至强产品和解决方案事业部总经理Lisa Spelman在接受记者采访时表示,第四代英特尔至强可扩展处理器是一个新平台,其功能、核心数量和性能都有显著提升。与此同时,英特尔也始终与客户、终端用户保持紧密沟通,以完成他们所有的标准应用程序测试,助力他们完成更大规模部署的准备。
英特尔与领先的云服务提供商展开合作,携手他们打造多元化实例,并保障其基础设施的可用性;原始设备制造商基于第四代英特尔至强可扩展处理器的服务器也都在大批量出货。
英特尔正在大规模推动第四代英特尔至强可扩展处理器的广泛应用,增强CPU在人工智能领域的应用。“我们始终认为至强是适用于任何边缘网络、数据中心、云等工作负载的强有力产品,但同时其也具备诸多加速器和专业功能,以满足人工智能工作负载的需求,而这也在日渐成为我们业务中越来越重要的一部分。”Lisa Spelman说。
有数据显示,25%正在销售的英特尔至强处理器正在被用于人工智能工作负载。英特尔持续推动至强产品系列的创新,以进一步增强其在人工智能CPU市场中的领先性。
对于英特尔来说,在第四代至强中加入AI加速器不仅意味着成本的变化,对于产品的空间布局等均有所影响。
英特尔资深院士、至强首席架构师Ronak Singhal表示,英特尔至强处理器在过去和现在都取得了巨大的成就,而这实际上得益于其承载的工作负载的广度和深度。“我们把加速人工智能计算的能力嵌入到至强的每个核心中,性能均得到显着提升。”
针对目前比较热的大模型等生成式AI应用,英特尔至强处理器可以在50亿或70亿参数的大模型上实现优秀的TCO和效率,而当采用框架、软件进行调整和优化后,这个数字增加到了100亿。现在,至强产品的能力已经接近了200亿,并且在英特尔的实验室里,正在研究300亿参数大模型的运行。
面向未来
大会上,英特尔宣布第五代英特尔至强处理器将于12月14日发布。具备高能效的能效核(E-core)处理器Sierra Forest将于2024年上半年上市。与第四代至强相比,拥有288核的该处理器预计将使机架密度提升2.5倍,每瓦性能提高2.4倍。
Lisa Spelman说,代号为Emerald Rapids的第五代英特尔至强可扩展处理器与Sapphire Rapids使用同一平台。这不仅是英特尔为客户提供的最佳升级体验,也是整个产品线历史上最无缝的升级之一。
“今年我们的一个关注重点是可部署性。我们致力于让所有数据中心客户都能够快速部署该产品,从而实现平台的创新。而为了实现这一点,我们使其适用于上一代通用平台的通用软件堆栈。在具备这一优势的基础上,升级变得无比便捷。”Ronak Singhal说。
与前一代相比,代号为Emerald Rapids的第五代英特尔至强可扩展处理器在每瓦性能方面实现了很大提升,提高不同工作负载或不同利用率水平下的性能、效率和功耗。在相同功率范围内,实现了性能的提高,而且各种利用率都有较大增强,这对于大型企业客户以及云服务提供商客户来说至关重要。
紧随Sierra Forest发布的是具备高性能的性能核(P-core)处理器Granite Rapids,与第四代至强相比,其AI性能预计将提高2到3倍。展望2025年,代号为Clearwater Forest的下一代至强能效核处理器将基于Intel 18A制程节点制造。
英特尔宣布一台大型AI超级计算机将完全采用英特尔至强处理器和4000个英特尔Gaudi2加速器打造,Stability AI是其主要客户。
戴尔科技正与英特尔合作开发AI解决方案,以满足客户在AI开发过程中的多样化需求。基于英特尔至强可扩展处理器和Gaudi加速器的PowerEdge系统将支持从大规模训练到基础推理的AI工作负载。
阿里云报告称,第四代至强是其灵积模型服务平台(DashScope)上实时大语言模型(LLM)推理的可行解决方案,得益于内置了英特尔高级矩阵扩展(Intel AMX)加速器的第四代至强处理器和其他软件优化,模型响应时间平均加速达3倍。
Ronak Singhal表示,指令集架构并不是决定效率的因素,而是构建产品的方式。对于至强这款产品来说,英特尔始终致力于通过核心数量、功率、能耗等变化,满足市场和客户实际工作负载需求。至强平台为每个客户提供了灵活性,让客户可以完全做自己想做的事情。
目前,英特尔的“四年五个制程节点”计划正在稳步推进中,Intel 7已经实现大规模量产,Intel 4已经生产准备就绪,Intel 3也在按计划推进中,目标是2023年年底。
“2024年是非常重要的一年,我们对此非常兴奋,目前我们正在利用眼下这段时间打好基础,确保客户与我们的产品见面。”Lisa Spelman最后说。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。