短于内核,长于线程和矩阵数学
作者:Tobias Mann
更新时间:协调世界时2024 年 5 月 7 日(星期二)20:39
IBM不甘被排除在人工智能基础架构的游戏之外,于本周二推出了一对微小的Power 10服务器,瞄准网络边缘的数据处理。
Power S1012系统既有PC风格的塔式配置,也有更为传统的2U半宽机架式机箱。两款系统均可配备IBM自主研发的Power 10处理器,支持1核、4核或8核,板载内存最高可达256GB。
虽然与英特尔和AMD边缘-中心芯片(最多可配备64个内核)相比,这听起来并不算多,但值得注意的是,IBM的Power平台基于RISC架构,优先处理高线程工作负载,支持SMT4或SMT8。
这意味着这些系统中使用的Power 10 eSCM模块每个内核最多可支持8个线程,最高配置可支持64个线程。
IBM宣称其新服务器的性能是即将推出的Power S814的三倍,这听起来似乎令人印象深刻,不过想一想,该系统基于的Power 8平台已有10年历史。不过话说回来,Power 10系列也不是新丁,它也将在9月份迎来三周岁生日。
IBM设想将这些系统部署在多种场景中,包括在空间或功率受限的边缘部署中进行人工智能推理,或在远程或后台办公场景中运行更传统的工作负载。
其主要思路似乎是,就地处理从边缘流入的所有数据流,而不是将其全部送回中央数据中心,客户可以通过这种方式减少延迟并抑制带宽消耗。
从表面上看,IBM 瞄准的是现有的Power 客户,他们熟悉与 SMT 重型架构相关的特定硬件和软件细微差别。分析管理商Equitus就是这些客户中的一员,IBM称该公司已经在使用这些系统,在边缘运行人工智能模型。
至于IBM是如何处理这些人工智能工作负载的,可能与你想象的大相径庭。据我们所知,这些系统并没有配备IBM在公告中没有提到的GPU。相反,IBM 似乎依靠处理器的矩阵数学加速器(MMA)来完成繁重的工作,每个内核都内置了四个矩阵数学加速器。
在很多方面,这些 MMA都让人想起英特尔2023年起推出的第四代和第五代Xeon Scalable平台中的AMX引擎。正如我们最近探讨过的,这些引擎完全有能力运行规模在70亿到130亿参数之间的小型大语言模型。
除了MMA之外,IBM还强调了对透明内存加密的支持,以保护进出设备上人工智能模型的数据。考虑到这些系统很可能部署在安全性或监管有限的远程位置,这很可能是一个受欢迎的功能,尤其是对于那些受到高度监管的行业。
S1012系统将于6月14日开始发售。
另:IBM 刚刚向开源世界发布了一系列代码生成模型,该公司表示:“我们的目标是让代码生成对于尽可能多的开发人员变得尽可能的简单。”
好文章,需要你的鼓励
DDN推出Infinia对象存储系统,采用键值存储架构和Beta Epsilon树数据结构,实现读写性能平衡。系统在对象列表性能上比AWS快100倍,延迟降至毫秒级,支持多租户和SLA管理。通过与英伟达合作优化RAG管道,在AWS上实现22倍性能提升并降低60%成本。
大连理工大学和浙江大学研究团队提出MoR(Mixture of Reasoning)方法,通过将多种推理策略嵌入AI模型参数中,让AI能自主选择最适合的思考方式,无需人工设计专门提示词。该方法包含思维生成和数据集构建两阶段,实验显示MoR150模型性能显著提升,比基线模型提高2.2%-13.5%,为AI推理能力发展开辟新路径。
Alpine Linux核心开发者Ariadne Conill推出了Wayback项目,这是一个实验性的X兼容层,允许使用Wayland组件运行完整的X桌面环境。该项目本质上是一个提供足够Wayland功能来托管rootful Xwayland服务器的存根合成器。与现有的XWayland不同,Wayback旨在创建一个类似X11风格的基于Wayland的显示服务器,让用户能够继续使用传统的X11窗口管理器和桌面环境,而无需重写或替换这些熟悉的工具。
剑桥大学研究团队开发了FreNBRDF技术,通过引入频率修正机制显著提升了计算机材质建模的精度。该技术采用球面谐波分析提取材质频率信息,结合自动编码器架构实现高质量材质重建与编辑。实验表明,FreNBRDF在多项指标上超越现有方法,特别在频率一致性方面改善近30倍,为游戏开发、影视制作、电商预览等领域提供了重要技术支撑。