有问题,才有解决问题的方法
大模型是过去一年的“大明星”,各种大模型的涌现让整个市场看起来异彩纷呈。
不过大模型还只是处于发展的初级阶段,能力标准、技术路径、场景落地以及商业模式等依然存在不确定性。
例如,传统的自然语言榜单侧重语言理解和生成,比如辨析词句意义是否相近、文本分类、关键信息提取、文本生成等。自从GPT-4开始用真实的考试评估模型能力开始,目前业界对于模型能力的评估有了更多维度,知识、逻辑和计算等非语言模型擅长的能力都作为了衡量大模型能力的关键点之一。
在浪潮信息“源”大模型团队看来,要衡量大模型的整体性能表现大致有如下几类,每一类又有非常细致的各类技术指标:
准确度是指大模型生成的结果与真实或参考结果之间的相似度或一致性。比如模型是否能给出准确的计算结果、可运行的代码、符合真实的答案等等。
效率是指大模型在完成任务时所消耗的资源或时间。效率可以用不同的方法来衡量,通常的衡量方式是显存占用和推理时间,这些决定了模型可以在怎样的配置下完成推理。
可靠性是指大模型在处理异常提问或有害信息等情况时所表现出的稳定性或鲁棒性。比如能否拒绝关于有害内容的提问,在提问不完整时能否进行追问等等。
解决“幻觉”,对齐“价值”
在大模型方面,困扰业界的一大难题是“幻觉”问题。“幻觉”是由大模型的Transformer技术路线带来的,其路线本质是用训练中学到的文本语言结构和语义的理解,预测文本序列中下一个token,从而选出一个最好的关键字眼,不断“涌现”出新的内容,这既是它的创造能力来源,也是它的“幻觉”来源。
同时,大模型的训练数据缺陷、RLHF对齐过程、推理过程都会对大模型的“幻觉”产生影响。这是大模型基于现有的技术路线不可避免的问题,也是一个引人关注的持续问题,需要持续的研究。
浪潮信息“源”大模型专家表示,大模型的幻觉问题有不同的类型,针对不同类型的幻觉,采用不同的技术路线进行解决。
首先,针对事实性幻觉(即模型生成的内容与可验证的现实世界事实不一致),检索增强生成(RAG)的技术方法正获得更多关注。浪潮信息在“源2.0”的训练中构建了RAG相关数据集,可以有效提升其在检索生成上的表现。
在大模型落地应用中,浪潮信息也会基于RAG技术,将“源”大模型挂载专业的数据中心服务知识库上,以提升“源”大模型对于专业的IT服务知识的理解,更好地回答专业的数据中心客户问题。
基于“源”大模型,使用知识库检索的方式打造的智能客服“源晓服”对于浪潮信息8大产品线的全部服务问题,覆盖率达到92%,针对数据中心常见的技术问题,如系统安装、Raid配置、部件异常等问题,“源晓服”的解决率高达80%,可将复杂技术咨询问题的业务处理时长降低65%,提升浪潮信息整体服务效率达160%。
针对忠实性幻觉(指模型生成的内容与用户的指令或对话上下文不一致)目前大模型领域一个核心的技术路线是增加上下文窗口长度。更大的上下文窗口,可以让模型从输入中获得更丰富的语义信息,甚至直接基于全文理解进行问答和信息处理。“源2.0”大模型将输入序列长度增加到8192,在容纳上下文内容方面更加游刃有余。目前,“源2.0”大模型在持续扩大上下文的长度。
由此,模型不仅能更好地捕捉上下文的相关性、消除歧义,进而更加精准地生成内容,缓解“幻觉”问题,提升性能。而且,也可以在长上下文的加持下,与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用。
浪潮信息“源”大模型专家介绍说,为了与人类价值观对齐,“源2.0”主要在数据和训练方式两方面做了工作。在处理数据集的时候,过滤各种有害信息,尤其是中文语境下的有害信息,包括涉及暴力、色情、违反法律、违反价值观的信息,从而保证模型无论在预训练还是微调阶段都不会接触到低质有害的数据。在监督微调阶段,“源2.0”会在训练数据中加入拒绝回答的范例,当输入的问题涉及不良信息或引导时,模型会拒绝给出回答。
加速大模型产业应用进程
除了标准和“幻觉”问题,由于大模型的基础能力还有限,在实际落地过程中还不能很好地满足各个细分场景的具体需求。在应用落地层面,大模型开发优化工作是一项复杂的系统工程,仅通过有限开放的API进行微调,只能停留在“套壳”阶段,大模型的产业化、场景化应用治标不治本,难以持续满足不断变化的行业应用需求。
针对此,浪潮信息提出了“共训计划”,依托“源2.0”大模型,通过与开发者共训、共创的模式,可以快速轻量化地发掘更多的应用场景,掌握更多的AIGC的产业化应用先机。
大规模模型在落地使用过程中,需要强大的基础设施来支撑,因此,AI Infra层面的挑战也是各个企业在使用大模型的过程中不得不面对的难题。无论是大模型的开发训练,还是在行业应用中的落地微调,其都面临基础设施层面的系统性工程问题,从数据清洗到算力适配,从性能兼容适配到软硬件协同,这些挑战会共同影响大模型的性能与落地的速度。
针对AI Infra层面的挑战,浪潮信息发布了大模型智算软件栈OGAI(Open GenAI Infra),通过全流程的软件工具栈来解决算力与大模型应用之间的难题,让上层应用开发者能够专注于业务逻辑和应用功能本身的创新实现。
开源协作,汇聚创新力量
展望未来,大模型会有哪些发展趋势呢?浪潮信息“源”大模型专家表示,基础大模型是生成式AI能力提升的核心。未来,在大模型产业发展中,基础模型的能力是最基础、最核心的部分。以OpenAI为例,他们走出了一条清晰的基础模型能力提升路线。当基础模型应用在对话领域的时候就形成了ChatGPT,当应用在其他领域便形成了各种Copilot应用。
“众人拾柴火焰高”,繁荣的开源模型生态体系是吸纳、培养用户的重要途经,也是避免当下AI大模型企业重复造轮子的商业新范式。以优秀的开源模型性能汇聚技术创新力量,以技术创新反哺大模型数据、工具、应用的迭代升级,为行业用户、应用开发商、社区开发者提供坚实的底座和成长的土壤,激发无穷创新力。
目前,浪潮信息的“源2.0”大模型进行了全面开源,全系列模型参数和代码均可免费下载使用。大模型的开源开放可以使不同模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代;同时,有利于以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。
虽然大模型还面临诸多挑战,在产业界的努力和开源生态的推动下,我们相信未来的大模型将继续创造更多价值,成为推动技术进步和社会发展的重要力量。
好文章,需要你的鼓励
BT 旗下宽带部门 Openreach 宣布在英国新增 163 个交换局停售传统铜线电话和宽带服务,覆盖超过 96 万户。此举旨在鼓励用户升级到全光纤网络的新型数字服务,是 Openreach 从 2025 年底到 2027 年 1 月将所有客户从公共电话交换网迁移的庞大计划的一部分。
Utelogy 与 Ascentae 达成合作,旨在通过整合服务提升 AV 和 UC 系统管理水平。基于 Microsoft Azure 平台,Utelogy 的软件可统一管理 AV 和 UC 设备,优化效率并提供数据洞察。此次合作将为客户带来创新的工作场所服务,增强协作能力和生产力。
DriveNets、富士通光组件和UfiSpace三家公司宣布完成多项测试和认证,将DriveNets Network Cloud软件与UfiSpace白盒设备结合。这一合作旨在为网络运营商提供显著的成本节省,通过将三层通信合并为单一平台,消除独立光学转发器的需求,从而减少硬件占用空间、运营开销和能耗。
Telstra International 提出了一个高度自主的网络框架愿景,旨在应对企业对云服务和人工智能日益增长的需求。该网络将具备自我管理、零接触操作、安全可靠等特性,预计到2030年实现全面升级。新网络将采用AI、机器学习等技术,大幅提升容量和灵活性,以满足未来客户需求。