微软宣布,其美国中部数据中心区域率先部署了全新人工智能推理加速器Maia 200。
微软将Maia 200描述为推理处理的强力引擎,采用台积电3纳米工艺制造,配备原生FP8/FP4(浮点)张量核心,以及重新设计的内存系统,使用216GB最新高速内存架构(HBM3e)。该系统每秒可传输7TB数据。Maia 200还提供272MB片上内存以及数据传输引擎,微软表示这些配置能够让大规模模型保持高效运行状态。
性能表现方面的突破
根据微软介绍,这些硬件特性使Maia 200的FP4性能是第三代Amazon Trainium的三倍,FP8性能超越谷歌第七代张量处理单元。微软称Maia 200是其迄今为止最高效的推理系统,相比现有系统提供30%的成本性能优势。不过,微软目前尚未公布该产品在美国以外地区的上市时间。
除了美国中部数据中心区域,微软还宣布位于亚利桑那州凤凰城附近的美国西部3区数据中心将成为下一个部署Maia 200的区域。
创新的架构设计
微软云计算和人工智能执行副总裁Scott Guthrie在博客中详细介绍了Maia 200的部署方式。该系统由机架托盘构成,每个托盘配置四个Maia加速器。每个托盘通过直接、非交换连接实现完全互联,确保高带宽通信的本地化,以获得最佳推理效率。
Guthrie表示,系统采用相同的通信协议进行机架内和机架间网络连接,使用Maia AI传输协议来扩展Maia 200加速器集群,同时将网络跳数降至最低。
"这种统一架构简化了编程复杂性,提升了工作负载灵活性,减少了资源浪费,同时在云规模下保持了一致的性能和成本效率。"Guthrie补充道。
Guthrie介绍,Maia 200采用了基于标准以太网的全新两层扩展设计。"定制传输层和紧密集成的网络接口卡释放了性能潜力,提供了强大的可靠性和显著的成本优势,而无需依赖专有架构。"
在实际应用中,每个加速器提供高达1.4TB每秒的专用扩展带宽。据Guthrie介绍,这使微软能够为多达6144个加速器的集群提供可预测的高性能集体操作。
软件开发的协同优化
从Guthrie的角度来看,Maia 200架构能够为密集推理集群提供可扩展的性能,同时降低Azure全球数据中心的功耗和总拥有成本。
在软件层面,Guthrie表示公司使用了复杂的仿真流水线来指导Maia 200从早期阶段的架构设计。该流水线涉及对大语言模型的计算和通信模式进行高保真建模。
"这种早期协同开发环境使我们能够将硅芯片、网络和系统软件作为统一整体进行优化,这一切都在首个硅芯片完成之前实现。"Guthrie说道。他还补充说,微软开发了重要的仿真环境,用于从底层内核验证到完整模型执行和性能调优的全过程。
作为产品推广的一部分,微软正为AI开发者提供Maia 200软件开发工具包的预览版本。
Q&A
Q1:Maia 200相比其他AI加速器有什么优势?
A:Maia 200采用台积电3纳米工艺,FP4性能是第三代Amazon Trainium的三倍,FP8性能超越谷歌第七代张量处理单元,相比现有系统提供30%的成本性能优势。每秒可传输7TB数据,每个加速器提供高达1.4TB每秒的专用扩展带宽。
Q2:Maia 200目前在哪些地区可以使用?
A:目前Maia 200首先部署在微软美国中部数据中心区域,位于亚利桑那州凤凰城附近的美国西部3区数据中心将是下一个部署区域。微软尚未公布该产品在美国以外地区的上市时间。
Q3:Maia 200的架构设计有什么特点?
A:Maia 200采用机架托盘构成,每个托盘配置四个加速器,通过直接非交换连接实现完全互联。使用基于标准以太网的两层扩展设计,支持多达6144个加速器的集群,并配备272MB片上内存和数据传输引擎。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。