戴尔为其XE9680服务器添加了英特尔Gaudi 3 GPU支持,并将APEX文件存储移植至Azure以支持各类AI工作负载。
XE9680服务器发布于2023年1月,配备第四代至强处理器(最高56核心)、PCIe 5.0总线,并支持最多8张英伟达GPU。截至去年10月,XE9680已经成为戴尔公司有史以来增长速度最快的服务器产品。到今年3月,其已经能够支持英伟达H200 GPU,外加风冷版B100与液冷版HGX B200。英特尔的Gaudi 3加速器(GPU)拥有两块互连计算芯片,每芯片包含8个矩阵数学引擎、64个张量核心、86 MB SRAM缓存、16条PCIe 5.0通道、24条200 GbE链路、128 GB HBM2e内存与3.7 TBps传输带宽。
如今XE9680新增对Gaudi 3 AI加速器的支持。Gaudi 3 XE9680版本拥有多达32个DDR5内存DIMM插槽、16块EDSFF 3闪存驱动器、8个PCIe 5.0插槽和6个OSFP 800 GbE端口。这是一台毋庸置疑的本地AI处理巨兽。
Deania Davidson
OSFP链路允许直接接入外部加速器结构,而无需在系统内放置外部网络接口卡。戴尔产品经理Deania Davidson表示,“戴尔已经与英特尔合作,允许特定客户通过其「英特尔开发者云」方案着手测试英特尔的加速器产品。”
戴尔于去年5月推出了基于PowerScale横向扩展OneFS软件的APEX File for AWS。现如今,新的APEX File Storage for Microsoft Azure也已正式亮相,旨在对现有APEX Block Storage for Azure加以补充。戴尔公司首席产品经理Kshitij Tambe在博文中表示,APEX File Storage for Azure是“一项改变游戏规则的创新成果,弥合了云存储与AI驱动见解之间的鸿沟。”
Kshitij Tambe
Azure APEX File Storage能够为AI用例提供高性能且可扩展的多云文件存储支持。Tambe表示,客户可以“使用高级本机复制功能将数据从本地迁移至云端,且无需重构存储架构。在上云之后,客户可以体验到所有企业级PowerScale OneFS功能。凭借在单一命名空间中支持多达18个节点和5.6 PiB的横向扩展架构,APEX File Storage for Azure在提供可扩展性与灵活性之余,也保持了便捷的管理操作体验。”
他随后将其与Azure NetApp Files进行了比较,表示:
他还提到,傲视同侪的吞吐量性能与命名空间容量使其在AI领域极具市场竞争力。我们已经就这一结论向NetApp方面求证,并将在得到答复后更新后续报道。
好文章,需要你的鼓励
TAE Technologies在最新一轮投资中获1.5亿美元,累计融资约18亿美元。公司利用 AI 技术优化融合反应堆设计,目标于 2030 年代商业化发电,谷歌等巨头均参与合作。
这项来自首尔国立大学的研究提出了状态机推理(SMR)框架,解决了大型语言模型在信息检索中的过度思考问题。研究者将推理过程从冗长的令牌生成转变为离散动作(精炼、重排序、停止),使系统能够高效地在状态间转换。实验结果表明,SMR在BEIR和BRIGHT基准测试中显著提高了检索性能,同时减少了74.4%的计算资源消耗,证明其在不同语言模型和检索器中的通用性。这种结构化方法不仅解决了冗余轨迹和误导性推理问题,还为构建更高效的信息检索系统提供了新思路。
Nvidia 正在全球数据中心推广 AI 芯片,其最新 Blackwell 架构在 MLPerf 基准测试中获得最高性能,大幅加速下一代 AI 应用的训练与部署。
REASONING GYM是GitHub团队开发的一个突破性推理环境库,为强化学习模型提供可验证奖励。与传统固定数据集不同,它能生成无限训练数据并调整难度,涵盖代数、算术、认知、几何等100多个领域的数据生成器。研究显示,即使顶尖AI模型在复杂任务上表现也不佳,而专门针对推理训练的模型明显优于通用模型。更重要的是,在一个领域学习的技能可以意外地迁移到其他领域,这为提升AI推理能力提供了新路径。