在互联网迅猛发展的“激荡30年中”,搜索技术曾是信息获取的“灵丹妙药”,极大地满足了用户获取信息的需求。然而,随着移动互联网时代的到来,内容的生产和供应方式发生了翻天覆地的变化,传统搜索技术逐渐显露出其局限性封闭化、孤岛化显现。此时,基于大模型的AIGC技术将会给搜索产品带来全新变化,推进搜索革新已经成为行业共识。
“大模型时代,夸克有巨大机会创造出革新性搜索产品。”面对这个人工智能重新绘制世界边界时代,阿里巴巴集团CEO吴泳铭坚定地说。
夸克技术负责人 蒋冠军
这一次它超越了GPT3.5
故事还要从2018年说起。当时夸克技术负责人蒋冠军和他的夸克团队有一个宏伟的愿景:打造一个融合搜索、使用和存储功能的智能信息产品,成为人们工作、学习和生活的贴心助手。
2019年,夸克团队开始尝试高级智能技术,对话式应用“夸克宝宝”便是在这一年诞生。
但很快,蒋冠军意识到,经历一段时间市场验证后的夸克宝宝,在智能技术能力和水平方面显得“力不从心”,而要真正成为智能助手,就必须提供更加精准、可靠的信息和服务。于是,伴随着夸克宝宝的关停,夸克团队开始改变策略。
2022年,OpenAI开发并推出了基于GPT-3.5 架构聊天机器人。ChatGPT3.5的参数规模让蒋冠军感到震惊。于是,“开发一款超越ChatGPT 3.5的大型中文模型”的念头,开始在他脑海中愈发坚定。
如今,“夸克”大模型整体水平已经超越GPT-3.5,成为面向C端打造智能助手,在多语言翻译、写代码、安全合规、内容创作等方面处在国内行业头部水平,不仅引入了大量AIGC内容,还通过千亿级参数的加持,具备了强大的搜索能力,以及云端编辑和加工信息功能,可以切实帮助用户解决实际问题。
目前,搭载“夸克”大模型的夸克App甚至在年轻人群体中人气极高。QuestMobile发布的《2023年轻人群智能效率应用研究》报告显示,夸克App在泛学生人群和新生代职场人群的用户占比最高,年轻用户使用时长位列行业第一。
西风变东风 大模型数据从“量”到“质”
蒋冠军则一直坚信,要解决大模型应用的问题,就要先解决知识正确性的问题。而知识正确性正是夸克大模型的最大的差异化“亮点”之一。
在大模型领域中,所谓的“幻觉”是指大模型在回答问题时会出现答非所问的情况。用户最直观的感受就是大模型在“一本正经的胡说八道”。
从清华大学新闻学院教授、博士生导师沈阳处了解到,大模型要减少错误率,一个重要的措施就是要跟搜索引擎进行协同。而对于在搜索场景下累积了大量数据和知识的夸克大模型而言,在降低大模型的错误率方面有很大的优势。
蒋冠军强调说:“搜索引擎本身就是海量的网页数据,我们的数据库里有千亿级网页。这意味着需要有一个非常好的离线系统或工程系统,去处理大规模的网页数据,去做对齐、去重、分析等工作。这个能力本身跟大模型所需要的能力非常匹配,因为大模型就是要大算力,传统搜索引擎就具备大算力。”
事实上,现在的夸克大模型,通过结合知识图谱和丰富的行业数据,已经成功在健康和法律等特定行业中,将纯模型的幻觉率和错误率低至5%以下,处在行业领先水平。
性能“霸榜” 健康、教育双管齐下
从数据上不难发现,夸克千亿级参数大模型已经登顶C-Eval和CMMLU两大权威榜单,并且夸克百亿级参数大模型同样在法律、健康、问答等领域的性能评测中夺冠。
提及取得这样成绩的原因,蒋冠军坦言,这缘于夸克大模型具有四大优势:第一是全面的通用知识数据和行业知识数据,以及知识理解和评估体系。第二是得益于搜索技术体系的积累,拥有千亿级参数平台的模型训练能力。第三是拥有长期智能化产品经验的智能技术产运团队。第四是拥有全行业的知识增强技术体系及能力。
“夸克大模型将全面升级夸克在搜、用、存上的智能化体验,帮助用户进一步提升效率。同时,基于多年累积的搜索优势,夸克将借助AI驱动推进搜索革新,加速迈向下一代搜索。”是夸克大模型现阶段的愿景。
事实上,在健康、教育方向,夸克大模型已经具备了发展策略和技术实力。
据悉,在健康领域,夸克大模型将重点优化信息服务,特别是在健康知识的获取和查询方面。随着大模型技术的发展,其交互能力和推理能力将与健康知识的处理需求高度契合。
蒋冠军透露,夸克未来的产品将专注于提高健康知识获取的准确性、效率以及交互方式。
夸克大模型在教育领域的探索则更为广泛。
未来,随着大模型技术的不断创新,夸克大模型将摒弃传统的搜索引擎和家庭教学方法,转而采用更为先进和高效的教学策略。
尽管当前大模型在推理和理解教育内容方面还存在挑战,夸克大模型正努力通过技术优化来克服这些问题。特别是在图形和多模态学习方面,夸克计划先行开展大量的AIGC内容生产,包括文档、历史和英语等领域的教育内容。
谈及夸克大模型的未来,蒋冠军展望说:“基于多年累积的搜索优势,夸克将借助AI驱动推进搜索革新,加速迈向下一代搜索。同时,从用户需求出发,打造工作、学习、生活的AI助手,夸克App持续将迭代进化,全面升级夸克在搜、用、存上的智能化体验,帮助用户进一步提升效率。“
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。