近日,MLCommons公布了针对AI模型训练的行业标准MLPerf训练v3.1基准测试结果。
作为唯一提交MLPerf测试结果的CPU,第四代英特尔至强可扩展处理器在测试中展现出强大的性能。
本次,英特尔提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的测试结果。值得注意的是,在DLRM dcnv2这一个新提交的测试模型中,第四代英特尔至强可扩展处理器仅使用四个节点就在227分钟内完成了训练。
在分别于今年6月、9月和11月进行的三次测试中,英特尔提交了基于第四代英特尔至强可扩展处理器的多个推理基准测试,结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型及60亿参数大语言模型及计算机视觉与自然语言处理模型ChatGPT-J在内,第四代英特尔至强处理器对于通用AI工作负载拥有出色的性能。
持续进化的CPU
毋庸讳言,GPU在AI工作负载的优势十分明显,但是这并不代表CPU就此甘拜下风。
为了让CPU更好地运行AI应用,英特尔对于至强处理器进行了积极改进。
比如内置英特尔高级矩阵扩展(英特尔AMX)加速引擎,第四代英特尔至强可扩展处理器支持INT8和BF16两种数据类型。与前几代产品相比,本代产品可实现高达5.7至10倍的实时推理性能提升和高达3.5至10倍的训练性能提升。
在于百度智能云9月发布的新一代云服务器BCC实例中,第四代至强可扩展处理器以AMX加速器扩展AI算力,从而使百度智能云用户在任何实例上轻松获取原生的强大AI能力。
得益于英特尔AMX指令集针对矩阵运算的强大加速能力,腾讯BERT模型BF16吞吐量获得大幅提升,从而有效地优化了其AI用户的终端体验。
通过AMX INT8及BF16的不同精度数据处理、AVX-512的深入调优,以及英特尔软件的加持,阿里云地址标准化业务和淘宝搜索的定制化推荐业务实现了大幅性能提升。
与此同时,第四代英特尔至强可扩展处理器亦助力亚信、用友、金蝶和东软等独立软件服务商实现在OCR等领域的多项业务升级,助力其成功应对来自不同应用场景的多样化AI工作负载需求。
截止目前,第四代至强可扩展处理器已出货一百万片。而代号为Emerald Rapids的第五代英特尔至强可扩展处理器也将于今年第四季度发布。
作为英特尔至强的重要演进,下一代平台引入了全新的能效核(E-core)架构,与其已有的性能核(P-core)架构并存。分别以代号Sierra Forest和Granite Rapids命名的这些新产品将为客户提供便捷性和灵活性,以及兼容的硬件架构和共享的软件堆栈,以满足诸如人工智能等关键工作负载的多元化需求。
代号为Sierra Forest的能效核英特尔至强可扩展处理器,计划将于2024年上半年交付,而代号为Granite Rapids的性能核英特尔至强可扩展处理器也将紧随其后。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
苹果在iOS 26公开发布两周后推出首个修复更新iOS 26.0.1,建议所有用户安装。由于重大版本发布通常伴随漏洞,许多用户此前选择安装iOS 18.7。尽管iOS 26经过数月测试,但更大用户基数能发现更多问题。新版本与iPhone 17等新机型同期发布,测试范围此前受限。预计苹果将继续发布后续修复版本。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。