(2024年6月26日,北京)近日,IBM凭借其旗舰Granite系列模型,在2024年第二季度的《Forrester Wave™:语言AI基础模型》报告中,被评为“强劲表现者”。点击链接即可免费下载报告副本。
随着企业从生成式AI的试验阶段转向生产阶段,他们正在寻找基础模型的最佳选择,他们希望这些模型能够提供可信、性能优越且成本效益高的生成式AI。企业认识到,如果基础模型不可信,他们就无法扩展生成式AI。
IBM® Granite™ 是IBM的旗舰基础模型系列,基于仅解码器的Transformer架构。这些模型在涵盖互联网、学术、代码、法律和金融等领域的可信企业数据上进行训练,可以在IBM watsonx™、RedHat®、其他模型市场以及Hugging Face和GitHub等开源平台上获取。
IBM对AI信任和可靠性的承诺和方法,受到Forrester的认可
虽然大多数模型提供商专注于提高性价比,但IBM在设计和交付各种用例和应用的模型时,优先考虑信任和透明性,同时仍能实现合适的性价比。IBM痴迷于帮助客户取得生成式AI使命的成功,其实现这一承诺的方法是:正确地构建人工智能,提供正确的人工智能。
Forrester认为,Granite系列模型为企业用户提供了对基础训练数据的一些最稳健和清晰的洞察。这对于有效地改进特定用例和领域的模型行为,以及保护企业免受训练数据中任何未授权内容带来的风险至关重要。
这一认可验证了IBM在交付企业级基础模型方面的差异化方法,帮助客户加速生成式AI在其业务工作流程中的应用,同时减轻与基础模型相关的风险。
此外,Forrester给出的关于潜在改进领域的建设性反馈也非常及时,因为IBM正以开源创新重振其模型策略,从而在现有产品的强大基础上,可以迅速扩大市场影响力,为众多企业客户、合作伙伴和开发人员提供服务,并取得了显著的进展。
2024年,IBM在促进基础模型的增长和转型之旅中,积极寻求来自Forrester等行业专家、客户和人工智能生态系统的意见,凭借开放的心态和演绎推理不断探索。
IBM凭借其差异化的模型方法,在现有产品中排名第二:
IBM Granite模型在此次Forrester Wave评估中,在内容语料库过滤、知识产权、模型透明度和一致性方面获得了满分。Granite模型受隐私和负责技术办公室的管控,根据AI伦理和原则进行训练和调优,并采用了IBM Research®创新的AI对齐技术。
由于这些固有特性以及watsonx这一强大可靠的AI和数据平台的支持,以及通过红帽® OpenShift®的混合部署选项,IBM模型在企业就绪性、治理和安全性、应用程序开发和模型管理方面获得最高评分。这也与最近斯坦福透明度指数的结果一致,该指数认可Granite模型在开放性和可信度方面的优异表现。
Forrester对于IBM Granite的洞察:
IBM继续通过引入第三方模型来扩展其基础模型库,以增强多模态和多语言能力,并提供自带模型(BYOM)的选项。此方法与其Granite模型系列的研究开发和开放创新相辅相成。
请阅读最近在IBM THINK大会上宣布的与第三方模型合作伙伴关系相关的更多消息。IBM业务发展和战略合作伙伴团队还将继续签署特定的商业和独立软件供应商协议,以扩展平台上的模型选择。 正如 Forrester 所言,在基础模型方面,选择和灵活性将成为企业决策的关键因素。
好文章,需要你的鼓励
科罗拉多大学研究人员发现,大型语言模型在解决数独谜题时表现不佳,即使是简化的6x6数独也常常超出其能力范围。更重要的是,当要求AI展示解题过程时,它们往往无法准确解释,有时会撒谎、胡言乱语,甚至开始谈论天气。研究表明,AI虽然擅长写邮件或生成图像,但在需要逻辑推理的任务上存在明显缺陷,且无法透明地解释其决策过程,这对AI在日常生活中的应用提出了谨慎考量的要求。
人民大学团队开发了Search-o1框架,让AI在推理时能像侦探一样边查资料边思考。系统通过检测不确定性词汇自动触发搜索,并用知识精炼模块从海量资料中提取关键信息无缝融入推理过程。在博士级科学问题测试中,该系统整体准确率达63.6%,在物理和生物领域甚至超越人类专家水平,为AI推理能力带来突破性提升。
员工广泛使用AI但仅限基础任务,因为CIO等管理者未提供必要培训和高级工具。调查显示所有美国员工都在工作中使用AI,近半数每天多次使用,但多数仍将AI当作"初级助理"而非真正合作伙伴。专家指出问题在于缺乏培训、工具功能有限以及AI未深度集成到业务流程中。CIO需要主导提供更多培训并推广AI在关键业务工作流中的应用。
Anthropic研究团队开发的REINFORCE++算法通过采用全局优势标准化解决了AI训练中的"过度拟合"问题。该算法摒弃了传统PPO方法中昂贵的价值网络组件,用统一评价标准替代针对单个问题的局部基准,有效避免了"奖励破解"现象。实验显示,REINFORCE++在处理新问题时表现更稳定,特别是在长文本推理和工具集成场景中展现出优异的泛化能力,为开发更实用可靠的AI系统提供了新思路。