Nvidia 正在以色列北部投资约 5 亿美元,建造一台配备最新一代 Blackwell GPU 的 30 兆瓦研发超级计算机。
这个集群位于约克尼姆伊利特市附近的梅沃卡梅尔科技产业园内,占地 10,000 平方米。据 Nvidia 介绍,该设施将装配数百套采用液冷技术的 Blackwell 系统,以及 BlueField-3 SuperNIC、Spectrum-X800 和 Quantum-X800 交换机。
据了解,这台超级计算机将供 Nvidia 员工用于开发下一代数据中心技术。
具体部署的加速器数量尚未明确 - Nvidia 有多种搭载不同数量加速器的液冷 Blackwell 参考系统。但据以色列媒体报道,完整配置将包含"数千个" GPU,规模可与该国的 Israel-1 超级计算机媲美。
Israel-1 系统配备了 2,048 个 H100 加速器,通过 Nvidia 基于以太网的 Spectrum-X 系列交换机和 superNIC 连接,在科学计算方面可提供 69 (向量) 到 137 (矩阵) petaFLOPS 的峰值 FP64 性能,在 AI 应用方面可达到 8 exaFLOPS (稀疏 FP8)。
就单芯片而言,Blackwell 在大多数精度下的浮点性能是 Hopper 的 2.5 倍,在 4 位精度下可达到 5 倍。除了更高的计算性能外,Blackwell 的内存带宽也比前代产品提高了 1.66 到 2.38 倍。因此,即使加速器数量与 Israel-1 相同,新设施的整体性能也会更强。
据称系统建设始于去年,预计将在 2025 年上半年投入运营。
关于新出口规则
根据 Nvidia 的进展情况和计划部署的 GPU 数量,该公司可能会受到拜登政府最新一轮 AI 加速器出口管制的影响。
正如我们在 xAI 的 Colossus AI 超级计算机案例中看到的,Nvidia 及其合作伙伴完全有能力在几个月内部署大型系统。
根据周一公布的规则,以色列将被列为二级国家,在 2025 年至 2027 年的两年期间,高端 GPU 的进口上限为 50,000 个。
不过,这些规则将在公布后 120 天内生效,且在特朗普总统任期内可能不会继续实施。如果候任总统的政府继续推进这些计划,实施期可能会给 Nvidia 足够的时间完成集群所需的剩余发货。
另外,由于该超级计算机据信将专门用于内部研发用途,它可能不受出口限制约束或被排除在规则之外。
根据规定,计算能力相当于约 1,700 个高端 GPU 的芯片订单无需美国政府的特别许可,也不计入一个国家的芯片配额。
同时,符合美国安全标准的一级国家实体可以在世界其他国家部署其全球计算能力的 7%。
考虑到以色列与美国的密切关系,该国很可能会获得"国家验证最终用户"身份,使两年期间的进口上限提高到 320,000 个加速器。
尽管如此,这些规则已成为以色列科技公司的一大担忧,他们担心这些规则可能会削弱以色列在新兴 AI 领域的竞争能力。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。