(2024年6月26日,北京)近日,IBM凭借其旗舰Granite系列模型,在2024年第二季度的《Forrester Wave™:语言AI基础模型》报告中,被评为“强劲表现者”。点击链接即可免费下载报告副本。
随着企业从生成式AI的试验阶段转向生产阶段,他们正在寻找基础模型的最佳选择,他们希望这些模型能够提供可信、性能优越且成本效益高的生成式AI。企业认识到,如果基础模型不可信,他们就无法扩展生成式AI。
IBM® Granite™ 是IBM的旗舰基础模型系列,基于仅解码器的Transformer架构。这些模型在涵盖互联网、学术、代码、法律和金融等领域的可信企业数据上进行训练,可以在IBM watsonx™、RedHat®、其他模型市场以及Hugging Face和GitHub等开源平台上获取。
IBM对AI信任和可靠性的承诺和方法,受到Forrester的认可
虽然大多数模型提供商专注于提高性价比,但IBM在设计和交付各种用例和应用的模型时,优先考虑信任和透明性,同时仍能实现合适的性价比。IBM痴迷于帮助客户取得生成式AI使命的成功,其实现这一承诺的方法是:正确地构建人工智能,提供正确的人工智能。
Forrester认为,Granite系列模型为企业用户提供了对基础训练数据的一些最稳健和清晰的洞察。这对于有效地改进特定用例和领域的模型行为,以及保护企业免受训练数据中任何未授权内容带来的风险至关重要。
这一认可验证了IBM在交付企业级基础模型方面的差异化方法,帮助客户加速生成式AI在其业务工作流程中的应用,同时减轻与基础模型相关的风险。
此外,Forrester给出的关于潜在改进领域的建设性反馈也非常及时,因为IBM正以开源创新重振其模型策略,从而在现有产品的强大基础上,可以迅速扩大市场影响力,为众多企业客户、合作伙伴和开发人员提供服务,并取得了显著的进展。
2024年,IBM在促进基础模型的增长和转型之旅中,积极寻求来自Forrester等行业专家、客户和人工智能生态系统的意见,凭借开放的心态和演绎推理不断探索。
IBM凭借其差异化的模型方法,在现有产品中排名第二:
IBM Granite模型在此次Forrester Wave评估中,在内容语料库过滤、知识产权、模型透明度和一致性方面获得了满分。Granite模型受隐私和负责技术办公室的管控,根据AI伦理和原则进行训练和调优,并采用了IBM Research®创新的AI对齐技术。
由于这些固有特性以及watsonx这一强大可靠的AI和数据平台的支持,以及通过红帽® OpenShift®的混合部署选项,IBM模型在企业就绪性、治理和安全性、应用程序开发和模型管理方面获得最高评分。这也与最近斯坦福透明度指数的结果一致,该指数认可Granite模型在开放性和可信度方面的优异表现。
Forrester对于IBM Granite的洞察:
IBM继续通过引入第三方模型来扩展其基础模型库,以增强多模态和多语言能力,并提供自带模型(BYOM)的选项。此方法与其Granite模型系列的研究开发和开放创新相辅相成。
请阅读最近在IBM THINK大会上宣布的与第三方模型合作伙伴关系相关的更多消息。IBM业务发展和战略合作伙伴团队还将继续签署特定的商业和独立软件供应商协议,以扩展平台上的模型选择。 正如 Forrester 所言,在基础模型方面,选择和灵活性将成为企业决策的关键因素。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。