近日,MLCommons公布了针对AI模型训练的行业标准MLPerf训练v3.1基准测试结果。
作为唯一提交MLPerf测试结果的CPU,第四代英特尔至强可扩展处理器在测试中展现出强大的性能。

本次,英特尔提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的测试结果。值得注意的是,在DLRM dcnv2这一个新提交的测试模型中,第四代英特尔至强可扩展处理器仅使用四个节点就在227分钟内完成了训练。
在分别于今年6月、9月和11月进行的三次测试中,英特尔提交了基于第四代英特尔至强可扩展处理器的多个推理基准测试,结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型及60亿参数大语言模型及计算机视觉与自然语言处理模型ChatGPT-J在内,第四代英特尔至强处理器对于通用AI工作负载拥有出色的性能。
持续进化的CPU
毋庸讳言,GPU在AI工作负载的优势十分明显,但是这并不代表CPU就此甘拜下风。
为了让CPU更好地运行AI应用,英特尔对于至强处理器进行了积极改进。
比如内置英特尔高级矩阵扩展(英特尔AMX)加速引擎,第四代英特尔至强可扩展处理器支持INT8和BF16两种数据类型。与前几代产品相比,本代产品可实现高达5.7至10倍的实时推理性能提升和高达3.5至10倍的训练性能提升。
在于百度智能云9月发布的新一代云服务器BCC实例中,第四代至强可扩展处理器以AMX加速器扩展AI算力,从而使百度智能云用户在任何实例上轻松获取原生的强大AI能力。
得益于英特尔AMX指令集针对矩阵运算的强大加速能力,腾讯BERT模型BF16吞吐量获得大幅提升,从而有效地优化了其AI用户的终端体验。
通过AMX INT8及BF16的不同精度数据处理、AVX-512的深入调优,以及英特尔软件的加持,阿里云地址标准化业务和淘宝搜索的定制化推荐业务实现了大幅性能提升。
与此同时,第四代英特尔至强可扩展处理器亦助力亚信、用友、金蝶和东软等独立软件服务商实现在OCR等领域的多项业务升级,助力其成功应对来自不同应用场景的多样化AI工作负载需求。
截止目前,第四代至强可扩展处理器已出货一百万片。而代号为Emerald Rapids的第五代英特尔至强可扩展处理器也将于今年第四季度发布。
作为英特尔至强的重要演进,下一代平台引入了全新的能效核(E-core)架构,与其已有的性能核(P-core)架构并存。分别以代号Sierra Forest和Granite Rapids命名的这些新产品将为客户提供便捷性和灵活性,以及兼容的硬件架构和共享的软件堆栈,以满足诸如人工智能等关键工作负载的多元化需求。
代号为Sierra Forest的能效核英特尔至强可扩展处理器,计划将于2024年上半年交付,而代号为Granite Rapids的性能核英特尔至强可扩展处理器也将紧随其后。
好文章,需要你的鼓励
今天讲的出海案例是利亚德,这家 1995 年成立、从 LED 显示产品研发生产销售起步,并做到小间距和 Micro LED 的视效科技公司,沙特工厂预计 2026 年 7 月投产。
法国Talan研究中心提出MC-RFM,将少样本视觉识别重构为混合曲率流匹配问题,结合双曲与欧几里得空间优势,在Transformer骨干和精细粒度任务上取得系统性提升。
Locus Robotics宣布收购加拿大温哥华机器人公司Nexera Robotics,将其专有的NeuraGrasp末端执行器技术整合至Locus Array平台。NeuraGrasp融合AI抓取智能、计算机视觉及专利软膜结构,可动态适应不同形状、材质、重量的商品,显著扩大了可自主拣选的SKU类型范围。此次收购将加速Locus Robotics在移动操控领域的技术路线图,推动仓储全流程自动化履约能力迈上新台阶。
ServiceNow研究团队构建的EVA-Bench框架,通过AI对AI的音频通话测试,量化评估语音客服系统在准确性和对话体验两个维度的真实表现,揭示现有系统普遍存在的可靠性缺口。