关于新芯片的详细信息是在本周斯坦福大学举行的“Hot Chips 2024 ”活动上公布的。该公司表示,其增强的处理能力将有助于使用一种被称为“集合人工智能”的新技术加速传统的人工智能模型和新兴的大型语言模型。
IBM Telum II 处理器(如图)的显著特点是采用了全新的数据处理单元(DPU),用于卸载某些计算任务,提高芯片的整体计算效率。据该公司表示,新的DPU旨在加速该公司大型机系统上用于联网和存储的复杂输入/输出协议。
除了这款新芯片,该公司还提供了全新IBM Spyre Accelerator的详细信息,该加速器旨在与 Telum 芯片配合使用,为人工智能工作负载提供额外的动力。
下一代大型机的主力
IBM承诺在今年晚些时候推出下一代大型机时,将大幅提升整体计算性能。新的Telum 芯片采用三星代工厂最先进的5纳米工艺制造,将成为新款IBM Z大型机的核心,提供更高的频率和内存容量,使其缓存和集成AI 加速器核心性能提高40%。
IBM表示,更深入地说,新芯片是2021年首次亮相的初代Telum 处理器的后继产品,具有八个高性能内核,运行频率为5.5千兆赫兹,每个内核具有36MB内存。这相当于片上缓存容量增加了40%,总容量达到360MB。
此外,Telum II芯片还配备了增强型集成人工智能加速器,可进行低延迟、高吞吐量的交易中人工智能推理操作,使其更适用于金融交易中的实时欺诈检测等应用。
同时,集成的I/O Acceleration Unit DPU将显著提高芯片的数据处理能力,IBM承诺将整体 I/O 密度提高50%。
加速人工智能
至于 Spyre Accelerator(如右图所示),这是一款专用的企业级加速器,专为希望使用大型机系统进行人工智能处理的客户而设计。IBM 表示,它旨在提升最复杂的人工智能模型(包括生成式人工智能应用)的性能。
为此,它内置了1 TB 的内存,这些内存分布在一个常规I/O抽屉中的8块卡上。它有32个计算内核,支持int4、int8、fp8 和 fp16 数据类型,能够为任何类型的人工智能应用减少延迟并提高吞吐量。
IBM 解释说,Telum II和Spyre的设计目的是协同工作,为人工智能建模的集合方法提供可扩展的架构。集合方法涉及将多个机器学习和深度学习人工智能模型与编码器LLM结合。通过利用每个模型架构的优势,集合模型可以提供比单独使用单一类型模型更准确的结果。
IBM负责IBM Z和LinuxONE产品管理的副总裁Tina Tarquinio表示,在努力满足人工智能不断升级的需求时,新芯片使公司能够保持“领先优势”。她承诺说:“Telum II 处理器和 Spyre 加速器旨在提供高性能、安全和更省电的企业计算解决方案。”
用例
该公司表示,Telum II 适用于一系列专门的人工智能应用,这些应用传统上由其Z大型机系统提供支持。例如,该公司表示,人工智能的集合方法尤其适用于加强保险欺诈检测。这些芯片还可以支持洗钱检测系统,为先进的算法提供动力,实时发现可疑的金融活动,降低金融犯罪风险。
此外,据说Telum II还是生成式人工智能助手的理想基础,可支持知识转移和代码解释等必要任务。
该公司表示,Telum II 芯片将在今年晚些时候推出的下一版IBM Z大型机和IBM LinuxONE系统中首次亮相。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。