继今年4月推出Llama 3之后,Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1。Llama 3.1多语言大模型组合包含了80亿参数、700亿参数以及4050亿参数(文本输入/文本输出)预训练及指令调整的生成式AI模型。其每个模型均支持128k长文本和八种不同的语言。
新的模型发布离不开底层软件硬件的优化支持,近日,英特尔宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型(LLM)Llama 3.1进行优化,并公布了一系列性能数据。
根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒。图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时,下一个token延迟可低于100毫秒。
图1 基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟
之所以取的这样的成绩,主要是得益于英特尔至强处理器在其每个核心中均内置了英特尔高级矩阵扩展(AMX)AI引擎,可将AI性能提升至新水平。
由英特尔酷睿Ultra处理器和英特尔锐炫显卡驱动的AI PC可为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,在AI PC上进行轻量级微调和应用定制比以往更加容易。对于本地研发,PyTorch及英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署,用户则可使用英特尔OpenVINO工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上,同时实现性能优化。
图2 在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上,Llama 3.1推理的下一个token延迟
图3 在使用英特尔锐炫A770 16GB限量版显卡的AI PC上,Llama 3.1推理的下一个token延迟
企业AI开放平台(OPEA)由LF AI & Data基金会发起,旨在聚合生态之力,推动创新,构建开放、多供应商的、强大且可组合的生成式AI解决方案。基于可组合且可配置的多方合作组件,OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线(pipeline)。
作为OPEA的发起成员之一,英特尔正帮助引领行业为企业AI打造开放的生态系统,同时,OPEA亦助力Llama 3.1模型实现性能优化。英特尔AI平台和解决方案能够有助于企业部署AI RAG。
此次测试中,微服务部署于OPEA蓝图的每一支细分领域中,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,使用BAAI/bge-base-en-v1.5模型进行嵌入,基于Redis向量数据库,并通过Kubernetes(K8s)系统进行编排。
图4 基于Llama 3.1的端到端RAG流水线,由英特尔Gaudi 2加速器和至强处理器提供支持
目前,英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化,OPEA亦在基于英特尔至强等产品上全面启用。未来,英特尔将持续投入软件优化,支持更多全新的模型与用例。
结语
为了推动“让AI无处不在”的愿景,英特尔在打造AI软件生态方面持续投入。
目前,英特尔丰富的AI产品组合已支持上述最新模型,并通过开放生态系统软件实现针对性优化,涵盖PyTorch及英特尔PyTorch扩展包(Intel Extension for PyTorch)、DeepSpeed、Hugging Face Optimum库和vLLM等。
好文章,需要你的鼓励
从信息中提取有意义的洞见结论已经不再属于“锦上添花”,而更多成为一种常态化的必需。然而,对于许多企业和个人来说,有效利用数据资源似乎仍是一项艰巨的任务。妨碍其落地的现实因素往往包括缺乏专业技能、资源有限或者拿不出充裕的时间等。这些阻力不仅会导致因未能充分发掘潜力而陷入沮丧、带来高昂的人才获取成本,在某些极端情况下(例如关键人才离职)甚至迫使企业在数据驱动洞见缺失的情况下勉强运营。
喜力啤酒对于生成式AI最重要的应用之一就是知识管理。对于长期积累下的数十万份包含有价值消费者洞察、市场数据与品牌信息的文件,如何高效访问并利用这笔资源财富一直是喜力啤酒面对的现实挑战。Costella解释道,“我们与合作伙伴共同开发出一套引擎,可以使用自然语言提出问题。以业务问题为例,该引擎不仅能够给出切实回复,还会提及支撑结论的信息来自哪里。”
爱立信企业无线部门是该公司无线产品组合、Cradlepoint(爱立信在2020年以11亿美金收购)以及云安全专业公司Ericom的结合体。Cook曾在Ciena和思科系统担任过渠道领导职务,目前负责领导该业务部门的全球合作伙伴销售。为此,他希望对曾经分散的两家公司的合作伙伴计划和参与模式进行简化,同时考虑到不同的合作伙伴情况并发挥他们的优势。他计划通过让全球业务本地化来促进增长和盈利,特别是在国际市场。
“您可以看看网络和安全的结合,以及将两者结合在一起的重要性——这是他们(HPE)所没有的——看看数据中心基础设施,看看无线校园网络,看看所有的可观察性、安全性和我们拥有的一切——我的意思是,我们拥有比其他任何厂商都多的技术,可以为基础设施层的客户带来更多价值,”Robbins在近日于亚特兰大举行的2024 XChange Best of Breed大会上这样表示。