近日,MLCommons公布了针对AI模型训练的行业标准MLPerf训练v3.1基准测试结果。
作为唯一提交MLPerf测试结果的CPU,第四代英特尔至强可扩展处理器在测试中展现出强大的性能。
本次,英特尔提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的测试结果。值得注意的是,在DLRM dcnv2这一个新提交的测试模型中,第四代英特尔至强可扩展处理器仅使用四个节点就在227分钟内完成了训练。
在分别于今年6月、9月和11月进行的三次测试中,英特尔提交了基于第四代英特尔至强可扩展处理器的多个推理基准测试,结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRM v2深度学习推荐模型及60亿参数大语言模型及计算机视觉与自然语言处理模型ChatGPT-J在内,第四代英特尔至强处理器对于通用AI工作负载拥有出色的性能。
持续进化的CPU
毋庸讳言,GPU在AI工作负载的优势十分明显,但是这并不代表CPU就此甘拜下风。
为了让CPU更好地运行AI应用,英特尔对于至强处理器进行了积极改进。
比如内置英特尔高级矩阵扩展(英特尔AMX)加速引擎,第四代英特尔至强可扩展处理器支持INT8和BF16两种数据类型。与前几代产品相比,本代产品可实现高达5.7至10倍的实时推理性能提升和高达3.5至10倍的训练性能提升。
在于百度智能云9月发布的新一代云服务器BCC实例中,第四代至强可扩展处理器以AMX加速器扩展AI算力,从而使百度智能云用户在任何实例上轻松获取原生的强大AI能力。
得益于英特尔AMX指令集针对矩阵运算的强大加速能力,腾讯BERT模型BF16吞吐量获得大幅提升,从而有效地优化了其AI用户的终端体验。
通过AMX INT8及BF16的不同精度数据处理、AVX-512的深入调优,以及英特尔软件的加持,阿里云地址标准化业务和淘宝搜索的定制化推荐业务实现了大幅性能提升。
与此同时,第四代英特尔至强可扩展处理器亦助力亚信、用友、金蝶和东软等独立软件服务商实现在OCR等领域的多项业务升级,助力其成功应对来自不同应用场景的多样化AI工作负载需求。
截止目前,第四代至强可扩展处理器已出货一百万片。而代号为Emerald Rapids的第五代英特尔至强可扩展处理器也将于今年第四季度发布。
作为英特尔至强的重要演进,下一代平台引入了全新的能效核(E-core)架构,与其已有的性能核(P-core)架构并存。分别以代号Sierra Forest和Granite Rapids命名的这些新产品将为客户提供便捷性和灵活性,以及兼容的硬件架构和共享的软件堆栈,以满足诸如人工智能等关键工作负载的多元化需求。
代号为Sierra Forest的能效核英特尔至强可扩展处理器,计划将于2024年上半年交付,而代号为Granite Rapids的性能核英特尔至强可扩展处理器也将紧随其后。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。