相信这款低配版芯片将受到中国市场欢迎。
英特尔将推出两款专供中国市场的Gaudi 3 AI加速器,根据美国出台的制裁政策对性能做出大幅“阉割”。
英特尔在其Gaudi 3白皮书中详细介绍这两款获准在中国销售的芯片型号。两款专为中国制造的处理器分别为HL-328与HL-388,分别采用OAM与PCIe外形规格。前者计划于6月推出,后者则将同其他PCIe规格的Gaudi 3芯片一同于9月上市。
总体而言,HL-328与H:-388芯片同其他家族成员基本相同,仍采用128 GB HBM2e VRAM,带宽为3.7 TB/秒、96 MB缓存、配备PCIe 5.0 x 16接口并采用相同的解码标准。
唯一的区别只体现在设计功率方面——OAM与PCIe两个版本均为450瓦,远低于家族内的其他兄弟产品。非中版PCIe HL-338的设计功率为600瓦,OAM规格的HL-325L及HL-335设计功率更是高达900瓦。中版Gaudi 3芯片在设计功率方面相对较低,很可能是因为不提供液冷版本。
尽管白皮书中未做明确说明,但几乎可以肯定的是,此举是为了遵守美国政府提出的处理器出口管制政策。管制条文禁止美国企业向中国出口高性能芯片,所以此番“阉割”实属无奈之举。
目前还不清楚英特尔对中版Gaudi 3做出了哪些修改,也很难判断面向中国市场的这批芯片在修改之后执行速度如何。单从已知线索来看,中版HL-328与HL-388与其他Gaudi 3版本一样采用双芯片设计,毕竟其内存及缓存配置未受影响。这种双芯片设计有助于降低性能密度,确保产品不致超过4800总处理能力(TPP)的出口管制上限。
所谓4800 TPP,换算成常规性能代表芯片最高只能在16位精度下提供150 TFLOPS性能。由于Gaudi 3在16位精度下可达到1835 TFLOPS,因此英特尔必须大幅削减其性能水平,包括大规模下调核心数量、时钟速率或采取其他性能限制方法。
我们已经就中版Gaudi 3芯片的具体细节向英特尔公司求证,但尚未收到回复。若英特尔后续披露更多信息,我们将第一时间发布更新。
根据合理推测,HL-328与HL-388的性能将与英伟达H20相似——H20是GPU巨头目前获准在中国销售的最强加速芯片,拥有148 TFLOPS的16位精度性能,略低于150 TFOPS的政策限制。
由于H20和Gaudi 3中版处理器的原始核心性能基本相当,因此区别主要体现在内存(英特尔方面内存容量更大但带宽略低)与配套软件(英伟达向来以GPU开发生态为卖点)层面。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。