测试成绩出色英特尔为最新Meta Llama 3.1模型提供加速

新的模型发布离不开底层软件硬件的优化支持，近日，英特尔宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型（LLM）Llama 3.1进行优化，并公布了一系列性能数据。

继今年4月推出Llama 3之后，Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1。Llama 3.1多语言大模型组合包含了80亿参数、700亿参数以及4050亿参数（文本输入/文本输出）预训练及指令调整的生成式AI模型。其每个模型均支持128k长文本和八种不同的语言。

根据基准测试，在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型，可以达到每秒176 token的吞吐量，同时保持下一个token延迟小于50毫秒。图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时，下一个token延迟可低于100毫秒。

测试成绩出色英特尔为最新Meta Llama 3.1模型提供加速图1 基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟

之所以取的这样的成绩，主要是得益于英特尔至强处理器在其每个核心中均内置了英特尔高级矩阵扩展（AMX）AI引擎，可将AI性能提升至新水平。

由英特尔酷睿Ultra处理器和英特尔锐炫显卡驱动的AI PC可为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU，以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件，在AI PC上进行轻量级微调和应用定制比以往更加容易。对于本地研发，PyTorch及英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署，用户则可使用英特尔OpenVINO工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上，同时实现性能优化。

测试成绩出色英特尔为最新Meta Llama 3.1模型提供加速图2 在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上，Llama 3.1推理的下一个token延迟

测试成绩出色英特尔为最新Meta Llama 3.1模型提供加速

图3 在使用英特尔锐炫A770 16GB限量版显卡的AI PC上，Llama 3.1推理的下一个token延迟

企业AI开放平台（OPEA）由LF AI & Data基金会发起，旨在聚合生态之力，推动创新，构建开放、多供应商的、强大且可组合的生成式AI解决方案。基于可组合且可配置的多方合作组件，OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线（pipeline）。

作为OPEA的发起成员之一，英特尔正帮助引领行业为企业AI打造开放的生态系统，同时，OPEA亦助力Llama 3.1模型实现性能优化。英特尔AI平台和解决方案能够有助于企业部署AI RAG。

此次测试中，微服务部署于OPEA蓝图的每一支细分领域中，包括防护（Guardrail）、嵌入（Embedding）、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护，使用BAAI/bge-base-en-v1.5模型进行嵌入，基于Redis向量数据库，并通过Kubernetes（K8s）系统进行编排。

测试成绩出色英特尔为最新Meta Llama 3.1模型提供加速

图4 基于Llama 3.1的端到端RAG流水线，由英特尔Gaudi 2加速器和至强处理器提供支持

目前，英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化，OPEA亦在基于英特尔至强等产品上全面启用。未来，英特尔将持续投入软件优化，支持更多全新的模型与用例。

结语

为了推动“让AI无处不在”的愿景，英特尔在打造AI软件生态方面持续投入。

目前，英特尔丰富的AI产品组合已支持上述最新模型，并通过开放生态系统软件实现针对性优化，涵盖PyTorch及英特尔PyTorch扩展包（Intel Extension for PyTorch）、DeepSpeed、Hugging Face Optimum库和vLLM等。

来源：至顶网计算频道

英特尔

0赞

好文章，需要你的鼓励

测试成绩出色 英特尔为最新Meta Llama 3.1模型提供加速

来源：至顶网计算频道

2024

07/26

07:02

分享

点赞

生命科学计算测试专委会正式成立，BioProfile框架引领行业标准建设

超智算完成北京核心智算中心资产收购，加速构筑“3+X”全国算力网络新格局

走出“参数崇拜”：联想用“一体多端”重塑“人的尺度”

从“单点突破”到“一体多端”：拆解天禧AI 3.5进化背后三年的进化哲学

openGauss Summit 2025在京召开，加速行业智能化变革，共建繁荣数据库生态

2025联想天禧AI生态伙伴大会：天禧AI一体多端，与开发者共建个人AI生态

西班牙病毒如何将谷歌带到马拉加

LangChain核心库曝出严重漏洞，AI智能体机密信息面临泄露风险

Mill如何与亚马逊和全食超市达成合作协议

TechCrunch创业大赛中的9家顶尖生物技术初创公司

2025年印度科技领域十大重要发展

中科大发布Live Avatar：AI数字人无限聊天不翻车

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

天翼云CPU实例部署DeepSeek-R1模型最佳实践

MWC 2025：英特尔展示基于至强6处理器的基础网络设施

英特尔至强6新品发布，能为数据中心带来哪些改变？

英特尔推出具备高性能和能效的以太网解决方案

英特尔推出搭载至强6处理器的卓越AI和网络解决方案

HPE Gen12：英特尔至强6加持，数据中心和边缘计算的“新宠”

英特尔Gaudi 2D AI加速器为DeepSeek Janus Pro模型提供加速

英特尔：旗下的“主打”18A 产品将于2025 年下半年投产

英特尔至强6加持下的火山引擎，要降低大模型的应用门槛

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

测试成绩出色英特尔为最新Meta Llama 3.1模型提供加速