UnifabriX 表示,其基于 CXL 连接的外部 MAX 内存设备可以显著提升 AI 处理性能。
在之前的一篇文章中介绍了该公司的 MAX 内存技术。UnifabriX CEO Ronen Hyatt 引用了 Amir Gholami 等人的"AI 和内存墙"研究论文来说明他的观点。研究人员指出:"空前的无监督训练数据以及神经网络扩展法则,导致模型规模和大语言模型的训练/服务计算需求激增。然而,主要性能瓶颈正逐渐转向内存带宽。在过去 20 年中,服务器硬件峰值 FLOPS 每两年增长 3.0 倍,远超过 DRAM 和互连带宽的增长速度,后两者每两年仅分别增长 1.6 倍和 1.4 倍。这种差异使得内存,而非计算能力,成为 AI 应用的主要瓶颈,特别是在服务部署方面。"
论文中的图表展示了这种影响: 内存墙即是内存带宽与硬件峰值 FLOPS 之间的差距。
论文作者总结道:"为了更好地理解这些数字,过去 20 年间,硬件峰值 FLOPS 增长了 60,000 倍,而 DRAM/互连带宽在同期仅分别增长了 100 倍/30 倍。在这种趋势下,内存——特别是芯片内部/芯片间的内存传输——将很快成为部署大型 AI 模型的主要限制因素。因此,我们需要重新思考 AI 模型的训练、部署和设计方式,以及如何设计 AI 硬件来应对这个日益严峻的内存墙挑战。"
Hyatt 修改了图表,加入了 PCIe 总线各代以及 CXL 和 NVLink 的扩展线,显示 IO 架构速度的增长同样未能跟上硬件峰值 FLOPS 的步伐。
即使使用 InfiniBand 连接 NAND 驱动器,GPU 服务器的内存和闪存存储之间仍存在性能差距。通过 CXL (未来还有 UALink) 连接外部内存,可以缓解这一性能差距。
Hyatt 表示,内存架构优于 InfiniBand 网络,能够提供更高的性能,而 CXL 和 UALink 是可与 Nvidia 专有 NVLink 相媲美的开放内存架构标准。
除了提升性能外,UnifabriX 的 MAX 内存还可以节省成本。
在 UnifabriX 的示例场景中,16 台服务器(包括 4 台 GPU 服务器)中,每台配置 6 TB DRAM,总容量为 96 TB。总内存成本为 160 万美元,而 UnifabriX 指出内存利用率不到 30%。
通过添加一个容量为 30 TB 的 MAX 内存单元,这 16 台服务器现在每台可以配置 2.25 TB 内存,总计 66 TB 内存,成本为 67 万美元,且具有更高的利用率。服务器获得按需内存容量和带宽,应用程序运行更快。
在 UnifabriX 的示例中,不仅节省了 100 万美元的资本支出,还实现了 150 万美元的总拥有成本收益。
好文章,需要你的鼓励
谷歌推出类似苹果私有云计算的新平台,让用户在享受先进AI功能的同时保护数据隐私。该平台将复杂AI请求转移到云端处理,确保敏感数据仅用户可见,连谷歌也无法访问。随着AI工具需要更强计算能力,这一方案平衡了隐私保护与性能需求。Pixel 10手机将获得更智能的Magic Cue建议和更多语言的录音转录功能。
StepFun团队开发了革命性的Mind-Paced Speaking技术,让AI聊天机器人首次具备边思考边说话的能力。通过双大脑架构,分别负责思考和表达的两个AI模型协同工作,实现零延迟响应的同时保持92.8%的高准确率。这项技术模拟人类大脑机制,让AI对话变得自然流畅,为人机交互开创了全新范式。
OpenAI宣布推出GPT-5的首个重大升级版本GPT-5.1,包含Instant和Thinking两个变体。新模型在对话风格上更加自然温暖,具备自适应推理能力,能根据问题复杂度调整思考深度。GPT-5.1提供八种个性化对话模式供用户选择,减少专业术语使用,提升易理解性。该升级旨在解决GPT-5发布后用户反馈的不足,将逐步向订阅用户推出。
微软和哥伦比亚大学联合开发了名为Dyna-Mind的AI训练框架,通过两阶段训练教会AI进行"心理模拟"。该框架让AI学会在行动前进行虚拟试错,显著提升了在复杂规划任务中的表现。在推箱子、虚拟家庭任务和安卓设备操作等测试中,成功率分别达到82.5%、92.5%和40.7%,远超传统方法。这项研究为开发更智能的AI助手奠定了基础。