IBM近日表示,已经在最近针对大型机开发人员推出的生成式AI编码功能基础上,推出了一套新的产品,让人工智能更容易运行在他们旧的数据中心硬件上。
IBM表示,IBM Z的更新旨在通过跨多个行业和用例实施业务型AI来帮助客户改善业务成果,其中包括了一组新的开发人员工具包,支持最广泛使用的AI框架和Python编程语言、Machine Learning for z/OS的增强功能、以及IBM z/OS大型机操作系统在性能上的改进。
IBM表示,这些更新将让客户能够提高保单建议的准确性,提高反洗钱控制的可靠性和及时效性,降低金融服务提供商的风险。
IBM大型机的历史可以追溯到20世纪50年代,如今通常被某些企业用来托管关键任务业务应用,因其快速处理大量数据的能力而受到赞誉,被用于数据分析、企业资源规划和大型事务处理等方面。
大型机还能继续发挥作用的原因之一是其高可用性,这使得大型机非常适合停机成本高昂且必须避免的应用,并且大型机还以其可靠性和适用性而著称。
尽管许多企业组织已经转向基于云的计算基础设施,但大型机仍然被广泛使用。IBM称,财富100强中有2/3的企业、全球50强银行中的45家、全球10强保险公司中的8家、全球10强零售商中的7家以及全球10强电信提供商中的8家,仍依赖于大型机。
鉴于大型机的持久流行,IBM相信,有很大的机会通过最新的AI功能来增强大型机支持的关键工作负载,而这正是IBM此次发布的公告所要做的。
随着第四季度的全面上市,AI Toolkit for IBM Z and LinuxOne工具包将支持行业标准的开源AI框架,例如IBM Z Accelerated for TensorFlow、IBM Z Accelerated for TensorFlow Serving和IBM Z Accelerated for Snap ML,使大型机用户能够开始在IBM Z上实施可信的AI。同时,Python AI Toolkit for the IBM z/OS大型机操作系统现在也已经推出,开发人员将能够访问开源的Python软件库,支持遵循IBM安全和隐私设计实践的AI工作负载。
IBM表示,这两个工具套件的是为了让开发人员能够把大型机数据和应用连接到被最广泛使用的AI框架和软件包。
IBM研究员、z/OS和AI on IBM Z and LinuxONE首席技术官Elpida Tzortatos表示:“这些工具包括了针对IBM Z进行优化和支持的框架和库,旨在让开发人员能够开始在z/OS上实施可信的AI功能。”
未来几个月IBM还将推出Machine Learning for IBM z/OS的更新。Machine Learning for IBM z/OS是IBM的全生命周期机器学习平台,用于在z/OS上构建、部署、管理AI模型并将其投入运行。此次更新将使用户能够访问IBM的watsonx.ai,一个用于构建机器学习和生成式AI模型的集成工具工作库。
此外,IBM的Cloud Pak for Data也将在Z平台上提供,这是一套用于数据分析、组织和管理的模块化集成软件元素套件,让用户能够对构建AI模型的过程实施自动化,其中的一大亮点是可信性,因为公司可以上传他们自己的数据,选择问题类型,并设定对正在开发中的模型的限制条件。
最后IBM表示,IBM z/OS操作系统本身也将围绕AI进行更新。IBM z/OS 3.1更新将于9月29日发布,提供新的AI系统服务,帮助操作系统学习和预测如何优化IT流程、简化管理、提高绩效并降低实施人工智能的技能要求。
IBM客户La Mobilière Suisse Holding Sa是瑞士历史最悠久的私人保险公司,该公司表示,多年来他们一直广泛依赖IBM Z大型机,以最安全的方式处理大量交易。最近,该公司与IBM合作创建了新的AI模型,使其能够发现数据中的模式并提高预测能力。
La Mobilière公司IT架构师Thomas Baumann表示:“我们与IBM合作把AI功能应用到他们值得信赖的IBM z16系统上,更快速更准确地处理保险并提供建议。我们通过使用基于NLP的AI功能,能够接近于实时地发现隐藏的数据模式,同时确保隐私和安全,预测结果准确率高达94%。”
此次更新只是IBM努力通过人工智能增强大型机服务的最新举动。今年8月,IBM推出了watsonx Code Assistant for Z,以推动AI驱动的大型机应用现代化。该服务使用生成式AI把使用旧COBOL编程语言编写的大型机应用转换为Java,从而简化开发人员的使用。
IBM watsonx Code Assistant for Z前景广阔,因为如今COBOL开发人员很难找到,而且许多精通该语言的人已经退休。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。