短于内核,长于线程和矩阵数学
作者:Tobias Mann
更新时间:协调世界时2024 年 5 月 7 日(星期二)20:39
IBM不甘被排除在人工智能基础架构的游戏之外,于本周二推出了一对微小的Power 10服务器,瞄准网络边缘的数据处理。
Power S1012系统既有PC风格的塔式配置,也有更为传统的2U半宽机架式机箱。两款系统均可配备IBM自主研发的Power 10处理器,支持1核、4核或8核,板载内存最高可达256GB。
虽然与英特尔和AMD边缘-中心芯片(最多可配备64个内核)相比,这听起来并不算多,但值得注意的是,IBM的Power平台基于RISC架构,优先处理高线程工作负载,支持SMT4或SMT8。
这意味着这些系统中使用的Power 10 eSCM模块每个内核最多可支持8个线程,最高配置可支持64个线程。
IBM宣称其新服务器的性能是即将推出的Power S814的三倍,这听起来似乎令人印象深刻,不过想一想,该系统基于的Power 8平台已有10年历史。不过话说回来,Power 10系列也不是新丁,它也将在9月份迎来三周岁生日。
IBM设想将这些系统部署在多种场景中,包括在空间或功率受限的边缘部署中进行人工智能推理,或在远程或后台办公场景中运行更传统的工作负载。
其主要思路似乎是,就地处理从边缘流入的所有数据流,而不是将其全部送回中央数据中心,客户可以通过这种方式减少延迟并抑制带宽消耗。
从表面上看,IBM 瞄准的是现有的Power 客户,他们熟悉与 SMT 重型架构相关的特定硬件和软件细微差别。分析管理商Equitus就是这些客户中的一员,IBM称该公司已经在使用这些系统,在边缘运行人工智能模型。
至于IBM是如何处理这些人工智能工作负载的,可能与你想象的大相径庭。据我们所知,这些系统并没有配备IBM在公告中没有提到的GPU。相反,IBM 似乎依靠处理器的矩阵数学加速器(MMA)来完成繁重的工作,每个内核都内置了四个矩阵数学加速器。
在很多方面,这些 MMA都让人想起英特尔2023年起推出的第四代和第五代Xeon Scalable平台中的AMX引擎。正如我们最近探讨过的,这些引擎完全有能力运行规模在70亿到130亿参数之间的小型大语言模型。
除了MMA之外,IBM还强调了对透明内存加密的支持,以保护进出设备上人工智能模型的数据。考虑到这些系统很可能部署在安全性或监管有限的远程位置,这很可能是一个受欢迎的功能,尤其是对于那些受到高度监管的行业。
S1012系统将于6月14日开始发售。
另:IBM 刚刚向开源世界发布了一系列代码生成模型,该公司表示:“我们的目标是让代码生成对于尽可能多的开发人员变得尽可能的简单。”
好文章,需要你的鼓励
AI项目从试点转向生产阶段时,企业面临意外的云成本激增问题。推理工作负载需要全天候运行以确保服务正常,成本可能一夜间飙升1000%以上。许多公司每月费用从5000美元激增至50000美元。为控制成本,企业开始采用混合架构:将推理工作负载迁移至本地或托管设施,训练任务保留在云端。这种模式可削减60-80%的基础设施支出,在保持性能的同时实现成本可预测性。
北航团队发布AnimaX技术,能够根据文字描述让静态3D模型自动生成动画。该系统支持人形角色、动物、家具等各类模型,仅需6分钟即可完成高质量动画生成,效率远超传统方法。通过多视角视频-姿态联合扩散模型,AnimaX有效结合了视频AI的运动理解能力与骨骼动画的精确控制,在16万动画序列数据集上训练后展现出卓越性能。
企业在AI模型选择上面临开放源码与封闭专有技术的抉择,这一选择对财务和定制化都有重要影响。开放模型如Meta Llama提供更大控制权和定制选项,而封闭模型如OpenAI GPT-4o提供简化使用和企业级支持。专家建议采用投资组合策略,根据准确性、延迟、成本、安全性等因素选择合适模型,而非单一选择。
这项研究解决了AI图片描述中的两大难题:描述不平衡和内容虚构。通过创新的"侦探式追问"方法,让AI能生成更详细准确的图片描述,显著提升了多个AI系统的性能表现,为无障碍技术、教育、电商等领域带来实用价值。