近日,MLCommons公布了针对AI推理的MLPerf v4.0基准测试结果。与第四代至强在MLPerf推理v3.1基准测试中的结果相比,第五代至强的测试结果平均提升1.42倍。
其中,针对具备连续批处理(continuous batching)等软件优化的GPT-J模型,与v3.1的测试结果相比,第五代至强的性能提升约1.8倍;同样,得益于MergedEmbeddingBag以及基于英特尔AMX的其他优化,DLRMv2的测试结果显示出约1.8倍的性能提升和99.9的准确率。
与此同时,英特尔非常自豪地与包括思科、戴尔、广达、Supermicro和纬颖科技在内的广大OEM伙伴们展开合作,助力其提交基于自身产品的MLPerf测试结果。英特尔不仅于2020年开始提交基于第四代至强的测试结果,同时至强可扩展处理器亦是参与MLPerf测试的产品中,众多加速器的主机CPU。
此外,第五代至强可在英特尔®开发者云平台上进行评估。该环境中,用户可以进行小型及大规模AI训练(譬如大语言模型或生成式AI)、运行大规模的推理工作负载,以及管理AI计算资源等。
截至目前,英特尔仍是唯一一家提交MLPerf测试结果的CPU厂商。英特尔产品迄今为止在多轮MLPerf基准测试中均所展示出领先的训练及推理性能,该测试结果亦为客户树立了可用于评估产品AI性能的行业标准。
之所以能取得这样的成绩,得益于英特尔®高级矩阵扩展(英特尔® AMX),这也彰显了英特尔致力于通过丰富且具有竞争力的解决方案推动 “AI无处不在”的承诺。
英特尔公司副总裁兼数据中心与人工智能事业部产品管理总经理Zane Ball表示:“我们将持续提升CPU和加速器等广泛产品组合在行业基准测试中的AI性能。此次全新的MLCommons结果显示,我们提供的AI解决方案能够满足客户不断变化、多样化的AI需求。同时,至强处理器也为客户提供了可快速实现AI部署,且极具性价比的选择。”
第五代英特尔®至强®可扩展处理器
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。