近期,以ChatGPT的AIGC生成式AI席卷整个业界,我们看到国内相关的产品也是不断涌现。
在第四范式创始人兼CEO戴文渊看来,AIGC在C端产品已经逼近用户体验的上限,而B端软件极为复杂的交互体验,以及复杂性带来的极低开发效率,恰恰为生成式AI留下足够大的重构和改造空间。
在这样的思考下,近日第四范式首次向公众展示其大模型产品「式说3.0」,并首次提出AIGS战略(AI-Generated Software):以生成式AI重构企业软件。式说将定位为基于多模态大模型的新型开发平台,提升企业软件的体验和开发效率,实现「AIGS」。
不一样的玩法
从某种意义上看,ChatGPT的出现让这个市场为之一振,坚定了相关投入,相关的产品化和商业化探索也更确定。
在BERT刚出来的时候,第四范式研究院就开始关注并投入GPT和大模型,GPT3出来以后更加明确了这个方向,形成了工程化、产品力的全栈技术能力。
在这一过程中,第四范式也在摸索GPT和大模型的落地路径,那就是改造整个企业软件行业,也就是AIGS这个方向。
过去我们很难通过人类语言(自然语言)的方式去调用企业软件的功能,现在当我们有更强的语义理解和生成能力,再加上GPT任务翻译、任务分发和推理的能力,就可以通过更好的“对话框式”交互方式实现功能的调用,不再需要找到某个位于十几级的菜单目录之下的功能。
在戴文渊看来,要做到AIGS,大模型未必需要是知识广博、十项全能冠军的通才,更重要的在于模型具备Copilot(副驾舱),和思维链CoT(chain of thoughts,多步推理)的能力。
也就是Copilot可控(执行可控、知错能改),和思维链COT((chain of thoughts,多步推理、复杂任务拆分)的能力,形成数据飞轮(比如将某垂直领域的数据和流程投入大模型,很快可以形成模型在该领域的思维链)。
式说3.0的迭代路径
第四范式一直扎根行业,非常清楚大模型作为新生的生产力工具,如何落地才能产生最大的价值。式说在短短两个月的时间已经发布了3个版本:
1.0——式说1.0具有生成语言的能力,并且解决GPT技术应用时内容可信、数据安全和成本的三大问题。当时主要的场景就是文库问答,相当于让GPT学习企业知识后,可以解答专业问题,并且是可溯源的。
2.0——在式说语言能力基础上,加入了文本、语音、图像、表格、视频等多模态输入及输出能力,并增加了企业级Copilot能力。以与企业内部应用库、企业私有数据等进行联网,对信息和数据进行分析,回答员工的问询或执行相关任务,从知识助手成为业务助手。
戴文渊表示,“要去改造企业软件,大模型不能只有语言能力。式说2.0就加入了多模态和Copilot,因为很多企业软件里的数据是多模态的,而Copilot能把人的指令翻译成要调用后台的哪个API。”
3.0——在生成式和语言能力的基础之上,3.0发力Copilot和思维链COT(多步推理、复杂任务拆分、形成数据飞轮),改造传统B端企业软件的体验与开发效率,也就是AIGS(AI generated software),以生成式AI重构企业软件。
大模型去调用软件内置的一个个功能、数据来“对话框式”完成任务,已经能产生巨大价值。但员工用企业软件时也会面临复杂任务,需要人按照顺序执行一个个功能。
因此,式说3.0强调的是Copilot加上思维链CoT,具有更强的推理能力,在学习大量数据和“攻略”后,能形成中间的逻辑推理步骤,从而做到拆分并执行复杂工作。
从AIGC到AIGS
众所周知,相比C端的软件体验,B端(企业报销系统、HR系统、OA系统等)体验还是差强人意的。
过去很难通过自然语言的方式去调用这些功能,现在当我们有更强的语义理解的自然语言的时候,可以通过更好的交互方式去实现功能的调用,从而实现用新型的通过语音/对话的交互模式,去替代老的交互,从而使B端企业软件的体验迅速一个颠覆式的提升。
其次是开发效率的提升。原先B端企业软件都是高度定制化的,基于菜单式的开发,基本每次一个功能升级,又要产品经理画界面,设计、开发等,至少是月级别的开发时间。而由于新的交互形式的出现,以前是功能和执行逻辑被编排在软件界面,现在功能和逻辑被改写在数据、API和内容层面,变成了天级别的开发效率。
我们看到大模型能够带来用户体验的提升,开发效率的提升,所以一定会形成软件行业的飞跃。这是一个巨大的市场。大模型是新的生产力,以大模型基础设施为先导项目,改造整个软件产业,整个行业的业务价值、商业模式都会得到飞跃。
基于此,我们看到第四范式瞄准了AIGS赛道,与软件公司互为生态,让AI赋能软件功能和流程。第四范式将AIGS的路径总结为三个阶段:
第一阶段,Copilot调动不同的信息、数据、应用,作为助手完成用户的指令。相当于在所有企业级软件系统里,配备一个指挥官。指挥官听用户的指挥,比如“把照片亮度调亮20%”。
第二阶段,Copilot+基于企业规则的“知识库”,AI能够参照规则做复杂工作,进一步丰富了“对话框”的能力。比如AI查询了“人像美化”知识库后,能执行把照片修好看的步骤。
第三阶段,Copilot+CoT(思维链)。软件系统的使用行为最终会被大模型学会,形成AI针对这个领域的思维链,意味着“把照片处理得更好看”这种复杂指令,AI能自动地按照步骤完成。
第四范式的AIGS战略,就是指基于式说大模型背后的Copilot+COT能力,把企业软件改造成新型的交互范式,并在新型交互上不断地学习软件的使用过程,形成领域软件的“思维链”。
从式说的迭代,我们也能看到这种路径。在式说3.0发布现场,来自航空制造、金融、医疗等行业的客户代表出席并做产品的现场演示。
结语
ChatGPT出现的短短两个月内,众多企业与合作伙伴已经与范式在生成式AI方面开展了深度合作。
对于企业软件合作伙伴来说,可以将式说作为基于大模型的新型开发平台,发展成“领域”大模型。
从AIGC到AIGS,以生成式AI重构企业软件,企业软件的易用性和生产力也将得到极大提升,数智转型迈上新征程。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。