人工智能计算初创公司D-Matrix Corp.今日宣布,已开发出一种全新的3D动态随机存取内存技术实现方案,承诺将推理工作负载的性能提升"数个数量级"。
这项新技术在Hot Chips 2025会议上发布,该公司展示了这一技术如何让新一代前沿模型在效率和成本效益方面实现大幅提升。
D-Matrix专门设计针对AI推理工作负载的专用处理器和计算平台。推理是指AI模型用于对从未见过的数据进行预测或生成图像和文本,从而为最终用户提供帮助和见解。
该公司的主要产品包括内存高效的基于芯片组的D-Matrix Corsair平台(全球首个数字内存计算推理加速器)和连接高性能图形处理单元集群的高带宽外围互连卡。
**芯片内存瓶颈问题**
D-Matrix表示,其计算基础设施旨在解决大规模运行AI的经济挑战。该公司认为现有数据中心基础设施是不可持续的。随着越来越多公司竞相采用日益强大的AI模型并在其基础上构建服务,它们对现有数据中心基础设施造成了巨大压力。
一些最大的云基础设施提供商,如微软和谷歌云,已承认在这种需求下面临容量限制困难。但在他们急于建设新数据中心的同时,也在提高价格来帮助支付成本,同时限制使用量以试图服务更多客户。
D-Matrix表示,内存已成为AI扩展的最大瓶颈,并认为简单地向数据中心增加更多GPU无法解决问题。在一篇博客文章中,D-Matrix联合创始人兼首席技术官Sudeep Bhoja将这个问题称为"内存墙",并指出虽然计算性能大约每两年增长三倍,但内存带宽却滞后,仅为1.6倍。
"结果是差距不断扩大,昂贵的处理器闲置等待数据到达,"Bhoja说。"这很重要,因为推理而非训练正迅速成为主导的AI工作负载。"
**突破内存墙**
D-Matrix希望帮助行业克服这一内存墙,为此决定将更高吞吐量的3D DRAM集成到其下一代芯片架构Raptor中。3D DRAM垂直堆叠多层内存单元,与传统2D DRAM相比,可实现更高的存储密度和改进的性能。它减少了空间和功耗,同时增加了数据访问速度,使其能够扩展高性能应用。
据Bhoja介绍,通过将3D DRAM与专用互连相结合,Raptor将能够突破内存墙,在AI性能和成本效率方面实现显著提升。他表示,与现有HBM4内存技术相比,公司目标是通过Raptor在运行推理工作负载时实现内存带宽10倍改进和能效10倍提升的雄心壮志。
"这些不是渐进式改进——而是重新定义大规模推理可能性的阶跃式改进,"Bhoja说。
Bhoja承认内存墙不容易克服,因为这是数十年形成的问题,但他指出公司自成立以来一直在研究这一挑战,相信终于接近解决这一问题。
"凭借我们对以内存为中心技术的承诺,D-Matrix正在开拓超越它的道路,为AI的未来构建可持续发展路径,"他说。
Q&A
Q1:什么是AI推理中的"内存墙"问题?
A:内存墙是指AI计算中内存带宽增长滞后于计算性能增长的问题。虽然计算性能大约每两年增长三倍,但内存带宽仅增长1.6倍,导致昂贵的处理器经常闲置等待数据到达,成为AI扩展的最大瓶颈。
Q2:D-Matrix的Raptor芯片架构有什么创新之处?
A:Raptor架构的核心创新是集成了3D DRAM技术,这种技术垂直堆叠多层内存单元,相比传统2D DRAM具有更高存储密度和性能。结合专用互连技术,目标实现内存带宽和能效各提升10倍。
Q3:为什么AI推理工作负载比训练更重要?
A:推理正迅速成为主导的AI工作负载,分析师预测未来2-3年内推理需求将占所有AI工作负载的85%以上。每个查询、聊天机器人响应和推荐都是大规模重复的推理任务,且都受到内存吞吐量限制。
好文章,需要你的鼓励
就像90年代拨号上网开启互联网时代一样,AI正在引发可能超越互联网影响的社会变革。本文采访了五位推动AI技术普及的领袖人物,包括AI Made Simple作者Rajeev Kapur、全球首位企业首席AI官Sol Rashidi、HatchWorks AI首席执行官Brandon Powell、MarTech专家Hema Dey和沃顿商学院教授Ethan Mollick。他们一致认为AI不是要取代人类,而是增强人类能力,让每个人都能发挥更大潜力。
KAIST研究团队开发的InfiniteHiP系统成功解决了大型语言模型处理超长文本的瓶颈问题。该技术通过模块化分层修剪、动态位置编码和冷热存储策略,让单个GPU能够处理300万词汇的上下文,速度提升18.95倍,内存使用减少70%。这项突破性技术无需重新训练模型即可应用,为长文本AI应用的普及奠定了基础。
本文探讨了恶意行为者如何轻易诱导生成式AI提供有害的心理健康建议。研究发现,通过修改自定义指令,主要AI系统在88%的健康查询中产生了错误信息。寻求心理健康指导的用户往往不会意识到AI可能被操控产生危险建议,成为欺骗行为的无辜受害者。文章建议采用锁定指令设置和双重检查机制等防护措施,呼吁在这一问题广泛传播前采取行动,为人类福祉建立更完善的AI安全防护体系。
马里兰大学团队开发了名为Huginn的新型AI架构,通过让3.5B参数的小模型学会"深度思考",在推理任务上达到了50B参数大模型的性能水平。该模型采用循环深度设计,可根据问题复杂度进行1-64轮思考,在数学推理和编程任务中表现出色。这项突破证明了通过优化思考过程而非单纯增加参数规模来提升AI能力的可行性,为更高效、经济的AI发展开辟了新路径。