作者:VMware首席执行官 Raghu Raghuram
就在几个月前,IT行业发生了一件震惊全球的大事——ChatGPT 3.5公测版正式发布。从那时起,我们对AI(尤其是生成式AI)的关注、创新和投资达到了空前的热度。对比前几次对AI的炒作,这次的不同之处在于生成式AI能让我们以对话的方式与强大的AI工具进行交互,这种自然语言交互在与“类似人类的”创造力相结合后,能够生成包括文本、代码、视频、音频在内的全新内容。
如今的大型语言模型(LLM)让英语、汉语等母语变成了真正的编程语言。我们在这些模型中输入的提示词基本上就是它们用来计算答案的代码。这是有史以来我们距离实现编程真正普及化最近的一次。
这一切都在告诉人们,我们正处在一次千载难逢的革命浪潮中,这将为软件开发、客户支持、销售、市场等主要的业务部门带来转型机遇。新一轮AI创新浪潮的加快将对整个全球经济产生深远影响。有了生成式AI,我们可以通过解决不同学习者的差异性来重塑教育1、协助医生做出临床诊断2、帮助客户做出投资决策3等等。这还只是冰山一角,麦肯锡最近的一份报告显示,生成式AI每年可为全球创造高达7.9万亿美元的经济价值4。
必须解决的三大挑战
与以往此类大规模创新突破的早期阶段一样,我们在更加广泛地采用AI方面遇到了一些重大的障碍。要在企业中充分发挥生成式AI的价值和潜力,我们必须共同解决三大核心挑战。
挑战一:将天价变成平价
训练和管理当今的生成式AI模型既复杂又昂贵,需要耗费大量专用算力和高速网络以及无数内存。目前,AI模型的性能与计算基础设施的实际比例为1:1,在这种情况下既无法扩展,也不可持续。Andreessen Horowitz最近将训练ChatGPT这样的模型描述为“人类迄今为止计算密集度最高的任务之一”5。目前,单次训练的价格从50万美元到460万美元不等6,而且随着模型的更新,训练将成为一项持续性的开支。
看到这些令人瞠目结舌的费用,许多人便得出结论:全球将只会有极少数像ChatGPT这样的“超大型LLM”。但其实还有另一条出路。在未来,一般企业都将能以可承受的价格构建并运行自己的定制化AI模型。这条路的关键在于灵活性和选择性,尽管大多数首席信息官都计划使用超大型LLM来处理各种用例,但他们也想要构建大量较小的AI模型,以便针对特定任务进行优化。这些模型通常基于开源软件。事实上,目前开源AI模型的创新数量之大令人吃惊。可以预见的是,许多企业将把这些开放模型作为许多用例的首选,而不再依赖目前占据主导地位的大型专有LLM。
这些开放的专用模型将充分利用企业独有的知识财产——领域专用数据。我们可以在专门的基础设施上经济且高效地运行这些较小的AI系统,包括更加便宜的GPU(图形处理单元)以及经过改良的低成本CPU,提供AI工作负载所需要的性能和吞吐量。通过降低成本以及构建兼具灵活性和选择性的解决方案,我们可以开辟一条对于主流企业来说更加可及的AI创新路径。
挑战二:将专业的AI知识变成普通人可以理解的AI知识
如今,AI模型的构建、微调和运行都需要高度专业化的人才,而且这些人才供不应求。首席执行官和首席信息官几乎都会把它列为首要难题之一。他们敏锐地意识到AI开源软件领域发展迅速,并希望在最新的创新成果出现时,能够快速、轻松地迁移过去,而不会被锁定在任何一个平台或厂商上。如果只有很小一部分专业技术人员懂得当今AI模型背后的“奥秘”,那么就很难实现这种适应性。
为了填补这一技能缺口,我们需要从根本上简化构建和训练AI模型的流程与工具。这便是参考架构的“用武之地”,大部分由于内部人员缺乏相关专业知识而无法从头开始构建AI解决方案的企业机构可通过它获得蓝图和可行的途径。
挑战三:将风险变成信用
最后或许也是最重要的一点是,我们需要将风险变成信用。当前的AI模型会带来隐私问题、法律和监管问题、知识产权泄露等巨大的风险。这些风险有可能损害公司声誉、伤害客户和员工并对收入产生负面影响。在员工不小心将敏感的内部数据泄露到ChatGPT等工具上后,许多企业都制定了限制员工使用生成式AI工具的政策。同时,当今的生成式AI系统还缺乏基本的信用,它们经常会产生“幻觉”,创造出无意义、无关和/或不准确的新内容。
因此我们行业需要制定一套强有力的道德准则来保障并加强公平性、隐私性、责任追究、他人的知识产权以及训练数据的透明度。一个庞大且不断扩张的组织生态正在努力解决AI可解释性7、数据完整性8和数据隐私9等核心问题。这个开源社区正作为这场运动的中心进行创新,努力帮助企业以安全可控的方式训练和部署AI模型。
下一轮技术创新浪潮
正如移动应用革命在过去15年中改变了商业以及我们与技术的关系,新一轮AI应用浪潮将大幅提升工作者的生产力并加快全球经济发展。我们正处于新一轮超级创新周期的初期。我们共同面临的挑战是如何让这项强大的新技术变得更加经济、可实现和可信。
世界各地AI决策者普遍认为我们需要实现战略上的平衡:在存在未知因素的情况下,我们必须谨慎行事,尤其是在保密、隐私和专有信息滥用方面。与此同时,我们还必须让企业能够快速接受新的AI模型,这样他们才能以负责和道德的方式参与到下一轮创新浪潮中。
参考资料
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。