Enfabrica的EMFASYS技术结合了以太网RDMA和CXL技术,打造出一款内存设备,可连接至AI GPU服务器计算机架,旨在提供弹性内存带宽和容量,减轻GPU高带宽内存(HBM)的负载。
该内存设备通过3.2 Tbps ACF-S SuperNIC交换机与GPU服务器连接,该交换机将PCIe/CXL和以太网架构相结合,通过多端口800 GbE连接实现GPU和加速器的互联。交换机的核心是ACF-S芯片,提供800和400 GbE接口、32个网络端口的高基数以及160条PCIe通道。它支持144条CXL 2.0通道,可配置高达18TB的DDR5内存池。
Enfabrica首席执行官Rochan Sankar表示:"AI推理面临内存带宽扩展问题和内存容量堆叠问题。随着推理变得更加智能体导向而非对话式,更具记忆性而非遗忘性,当前的内存访问扩展方式将无法满足需求。我们构建EMFASYS来创建弹性的机架级AI内存架构,以前所未有的方式解决这些挑战。客户很乐意与我们合作,为其生成式AI工作负载构建更具扩展性的内存移动架构,实现更好的Token经济效益。"
Enfabrica由Sankar和首席开发官Shrijeet Mukherjee于2019年创立。其已知融资始于2022年的5000万美元A轮融资。B轮融资于2023年6月筹集了1.25亿美元,C轮融资于去年11月获得1.15亿美元,累计融资总额达到2.9亿美元。
从某种意义上说,随着生成式AI在过去几年的爆炸式增长,市场已经向Enfabrica倾斜。该公司表示,生成式、智能体驱动和推理驱动的AI工作负载正在指数级增长——在许多情况下,每次查询所需的计算量比以前的大语言模型部署多10到100倍,在AI云中每天要处理数十亿次批量推理调用。
除非GPU内存(HBM)保持加载状态,否则昂贵的GPU将处于空闲状态,浪费购买配备这些GPU服务器的成本。Enfabrica声称其技术满足了AI云的需求,即在扩展到更多用户/智能体数量、累积上下文和Token量的同时,最大化GPU和HBM资源的利用率。
ACF-S交换机能够在大量内存通道和以太网端口之间分条处理内存事务。据介绍,它可在微秒级提供读取访问时间,软件支持的缓存层次结构在AI推理管道中隐藏传输延迟。其功能包括高吞吐量、零拷贝、直接数据放置,并可在四或八GPU服务器复合体之间进行导向,或者跨18个以上支持CXL的DDR内存通道。其基于InfiniBand Verbs的远程内存软件栈支持GPU服务器与通用DRAM之间通过400/800 GbE网络端口束进行大规模并行、带宽聚合的内存传输。
Enfabrica声称不再需要购买更多GPU来获得更多HBM容量。其方案是:使用其交换机来增加DRAM容量,更好地利用现有GPU。据称该交换机的性能超越基于闪存的推理存储替代方案,延迟降低100倍,支持无限次写入/擦除事务。Enfabrica表示,"使用EMFASYS扩展内存可以缓解仅基于推理服务规模需求而线性增长GPU HBM和CPU DRAM资源的税负。"
群联科技的aiDAPTIV+软件也提供从HBM到DRAM再到NAND的卸载功能,但它不使用以太网RDMA和CXL,因此与EMFASYS相比是一种相对较慢的技术。
Enfabrica是超以太网联盟(UEC)的活跃咨询成员,也是超加速器链路(UALink)联盟的贡献者。
EMFASYS AI内存架构系统和3.2 Tbps ACF SuperNIC芯片目前正在与客户进行采样和试点测试。更多信息可以在这里获取,特别是关于ACF SuperNIC硅片、系统和主机软件的详细信息。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。