对于大模型而言,无论是提高模型参数量还是提升数据规模,算力依旧是必不可少的核心驱动力。但是由此带来的成本投入是巨大的,我们以训练一个5000亿参数规模的Dense模型为例,其基础算力设施投入约10亿美元,无故障运行21个月,电费约5.3亿元。
当算力以及训练数据发展变缓,或者成本变高的时候,我们需要另外一种可以让模型能力继续进行扩展(scale)的创新方式。MoE(Mixture of Experts,混合专家模型)从本质上来说就是一种高效的scaling技术,用较少的计算实现更大的模型规模,从而获得更好的性能。
近日,浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于“源2.0”系列大模型已有工作基础上,创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率。
浪潮信息人工智能首席科学家吴韶华表示,源2.0-M32大模型通过算法创新和模型结构调整,实现了与LLaMA3-700亿参数模型相当的精度,但算力消耗只有1/19。在保证模型智能高水平的基础上,有效降低模型落地的算力门槛,从而为各行各业带来更高效、更经济的AI解决方案。
模型算力效率是关键
当前业界大模型在性能不断提升的同时,也面临着消耗算力大幅攀升的问题,对企业落地应用大模型带来了极大的困难和挑战。而大幅提升的模算效率将为企业开发应用生成式AI提供模型高性能、算力低门槛的高效路径。
吴韶华表示,模算效率是大模型的精度、能力和算力开销的衡量指标,效率越高意味着在单位算力投入的情况下获得精度回报越高。如果能够获得一个很高的模算效率,我们在更多的Token上面训练更大参数量的模型就变得可能。
浪潮信息关注大模型应用中的算力成本问题,通过模型结构创新来降低算力消耗,并推出支持多元芯片的工具,以满足企业对多元算力芯片的使用需求。为了大幅提升基础模型的模算效率,浪潮信息做了两个维度的工作——提升精度和降低同等精度水平下的算力开销。
源2.0-M32凭借特别优化设计的模型架构,在仅激活37亿参数的情况下,取得了与700亿参数LLaMA3相当的性能水平,而所消耗算力仅相当于LLaMA3的1/19,从而实现了更高的模算效率。此外,微调和推理的IT基础设施门槛和成本也得到了大幅度的降低,使得高智能水平的模型更加易于企业进行应用开发。
在算法层面,源2.0-M32采用源2.0-2B为基础模型设计,沿用并融合局部过滤增强的注意力机制(LFA,Localized Filtering-based Attention),并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router)。
Attention Router门控网络通过创造一种专家间协同性的度量方法,能够使得专家之间协同处理数据的水平和效能大为提升,从而实现以更少的激活参数,达到更高的智能水平。
吴韶华说,选择20亿参数量的模型是控制单个专家的模型参数量,同样在企业场景应用中会有更好的模算效率。
在数据层面,源2.0-M32基于2万亿的Token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。高质量数据集是大模型预训练的核心,基于这些数据的整合和扩展,源2.0-M32在代码生成、代码理解、数学推理、计算求解等方面有着出色的表现。
在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行与数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大的训练环境提供了一种高性能的训练方法。“现实中的算力是有限的,我们要在这样的条件下让模型能力更快、更强。”吴韶华说。
加速大模型在行业应用中的落地
浪潮信息此次发布源2.0-M32大模型,不仅展示了其在算法和模型结构上的创新能力,也表明了其致力于推动大模型在行业应用中的落地。浪潮信息希望通过技术创新,让大模型成为企业发展的新动力。
吴韶华表示,浪潮信息的大模型客户分为两类:一类是外部客户,借助元脑生态,浪潮信息与合作伙伴在大模型的软件、工具、算法上面开展非常紧密的合作,一起赋能更多的行业客户。另外一类是开发者,让他们能够在笔记本上直接体验大模型的能力。
浪潮信息高度重视大模型在行业应用中的落地,为此推出了端到端的大模型开发平台“元脑企智”EPAI(Enterprise Platform of AI),旨在降低企业应用大模型的技术门槛。其中,EPAI支持主流开源与闭源大模型的应用快速开发,提供面向多模和多元算力的计算框架,能够实现大模型应用在跨算力平台上的无感迁移,降低多模、多元的适配与试错成本。
大模型可以赋能更多企业场景,浪潮信息持续探索如何让大模型与企业应用更好地融合,在内部大量业务场景中应用大模型。比如,在“智能客服大脑”加持下,浪潮信息突打造了专家级数据中心智能客服机器人。“这些经验会沉淀在EPAI平台上面,通过EPAI软件工具的提升,更好地服务外部客户。”吴韶华说。
好文章,需要你的鼓励
根据Synergy Research Group报告,超大规模运营商目前占全球数据中心容量的44%,到2025年第一季度末,大型超大规模设施数量达到1189个。企业自有数据中心占比从六年前的56%下降至34%,预计2030年将进一步降至22%。全球数据中心容量将持续快速增长,主要由超大规模容量未来六年三倍扩张驱动。所有地区数据中心总容量年增长率都将达到两位数。
中科院团队开发的SimpleGVR系统革新了AI视频增强技术,通过直接在潜在空间处理和创新的分阶段训练策略,能够将AI生成的低分辨率视频高效提升至高清画质。该系统不仅提升分辨率,还能修正AI视频特有的颜色混合等问题,在多项指标上超越现有顶级方法,为AI视频生成领域提供了实用的解决方案。
亨里克·韦德林通过其新创立的Audos公司,计划利用AI技术将创业孵化规模从每年"数十家"扩展到"数十万家"。该平台专门帮助非技术背景的"普通创业者"创建百万美元AI公司,采用15%收入分成模式而非股权投资。Audos提供AI工具、最高2.5万美元资金支持和社交媒体推广服务,已在测试阶段帮助数百家企业启动,获得1150万美元种子轮融资。
浙江大学联合腾讯AI实验室提出KnowRL方法,通过在强化学习中集成事实性奖励机制,有效解决慢思维AI模型在推理过程中的幻觉问题。该方法在保持原有推理能力的同时,显著提升了模型的事实准确性,为构建更可靠的AI系统提供了新思路。