短于内核,长于线程和矩阵数学
作者:Tobias Mann
更新时间:协调世界时2024 年 5 月 7 日(星期二)20:39
IBM不甘被排除在人工智能基础架构的游戏之外,于本周二推出了一对微小的Power 10服务器,瞄准网络边缘的数据处理。
Power S1012系统既有PC风格的塔式配置,也有更为传统的2U半宽机架式机箱。两款系统均可配备IBM自主研发的Power 10处理器,支持1核、4核或8核,板载内存最高可达256GB。
虽然与英特尔和AMD边缘-中心芯片(最多可配备64个内核)相比,这听起来并不算多,但值得注意的是,IBM的Power平台基于RISC架构,优先处理高线程工作负载,支持SMT4或SMT8。
这意味着这些系统中使用的Power 10 eSCM模块每个内核最多可支持8个线程,最高配置可支持64个线程。
IBM宣称其新服务器的性能是即将推出的Power S814的三倍,这听起来似乎令人印象深刻,不过想一想,该系统基于的Power 8平台已有10年历史。不过话说回来,Power 10系列也不是新丁,它也将在9月份迎来三周岁生日。
IBM设想将这些系统部署在多种场景中,包括在空间或功率受限的边缘部署中进行人工智能推理,或在远程或后台办公场景中运行更传统的工作负载。
其主要思路似乎是,就地处理从边缘流入的所有数据流,而不是将其全部送回中央数据中心,客户可以通过这种方式减少延迟并抑制带宽消耗。
从表面上看,IBM 瞄准的是现有的Power 客户,他们熟悉与 SMT 重型架构相关的特定硬件和软件细微差别。分析管理商Equitus就是这些客户中的一员,IBM称该公司已经在使用这些系统,在边缘运行人工智能模型。
至于IBM是如何处理这些人工智能工作负载的,可能与你想象的大相径庭。据我们所知,这些系统并没有配备IBM在公告中没有提到的GPU。相反,IBM 似乎依靠处理器的矩阵数学加速器(MMA)来完成繁重的工作,每个内核都内置了四个矩阵数学加速器。
在很多方面,这些 MMA都让人想起英特尔2023年起推出的第四代和第五代Xeon Scalable平台中的AMX引擎。正如我们最近探讨过的,这些引擎完全有能力运行规模在70亿到130亿参数之间的小型大语言模型。
除了MMA之外,IBM还强调了对透明内存加密的支持,以保护进出设备上人工智能模型的数据。考虑到这些系统很可能部署在安全性或监管有限的远程位置,这很可能是一个受欢迎的功能,尤其是对于那些受到高度监管的行业。
S1012系统将于6月14日开始发售。
另:IBM 刚刚向开源世界发布了一系列代码生成模型,该公司表示:“我们的目标是让代码生成对于尽可能多的开发人员变得尽可能的简单。”
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
LongLive-RAG由英伟达、USC与MIT联合提出,通过让AI检索自身生成的历史视频片段作为参考,解决长视频生成中的角色漂移和画面不一致问题。