在本周于加利福尼亚州举行的Hot Chips大会上,英特尔展示了一款搭载1 TB/秒硅光子互连器件的528线程处理器。该方案旨在最大程度提升分析类工作负载的处理能力,同时有效控制芯片功耗。
但请千万不要误会,这款芯片并非拥有超强并行能力的至强,甚至压根没有选择x86架构。
相反,它是专门为DARPA的分层身份验证漏洞(HIVE)项目所开发,采用的是自定义的RISC架构。美国军方的这项计划要求开发一种图形分析处理器,其流数据处理速度要比传统计算架构高出100倍,同时功耗还得有所降低。
图形分析技术的作用,就是处理复杂系统中的各数据点如何与其他数据点相连接。英特尔首席工程师Jason Howard在Hot Chips上的演示中列举了社交网络的例子,称可以通过图形分析工作负载来理解各成员之间的关系。
这个用例看似跟DARPA的需求八竿子打不着,但政府机构方面相信大规模图形分析能力在基础设施监控和网络安全方面同样有着重要意义。
该芯片是英特尔打造的首款网格到网格光子架构,此架构采用硅光子互连将多个芯片连接起来。但英特尔并没有选择使用铜线对双、四甚至是八插槽进行“缝合”,而是选择了共同封装的光学器件以实现数百、乃至数千芯片间的低延迟、高带宽网格连接。
当然,这一切目前仍处于原型设计阶段。
其目标是开发出可扩展技术,以支持各类超大规模图形分析工作负载。
中央计算芯片周围的四块小芯片,就是英特尔原型设计中的1 TB/秒光学带宽器件。
虽然这款芯片乍看之下仍遵循标准处理器设计,针脚齐备、甚至还有一个典型的BGA接口,但跟至强-D芯片上的接口不同,流入和流出芯片的大部分数据均采用光学传输。这里借助的,是英特尔与Ayar Labs合作开发的硅光子小芯片。
中央处理芯片周围的四块小芯片,负责将进出微处理器的电信号转换为由32根单模光纤承载的光信号。据我们了解,其中有16根光纤用于传输数据,另外16根用于接收数据。
根据英特尔的介绍,每根光纤都能在芯片内外以32 GB/秒的速率传输数据,由此提供总计1 TB/秒的带宽。但Howard也提到,团队在测试中发现实际速度只能达到理论数字的一半。
根据英特尔的设想,16块这样的芯片可以统一塞进一台开放计算项目(Open Compute Project)服务器当中,并以全对全的方式实现相互联网。此后,多台这样的服务器(最多可达10万台)又能再次以全对全方式继续联网。结果就是,任何一块芯片都能以极低的延迟与另一芯片进行通信,无论其具体处于哪台服务器内。
当然,芯片巨头在尝试引入光学器件时也遇到了不少挑战。Howard表示,除了传输带宽只能达到宣传数字的一半外,光纤还经常出现故障或损坏。
“每当我们把全部要素对齐到位并确保能正常工作,光纤都要闹出各种毛病。毕竟光纤都是脆性纤维,所以经常会突然脱落。我们还发现,在对整个封装进行回流焊接时,高温总会影响光纤器件的性能,最终导致器件良品率下降。”
Howard解释道,为了克服上述挑战,英特尔必须与合作伙伴共同开发出热故障率更低的新型材料。
之所以要设计这样一套新型系统,是因为英特尔的现有商用套件虽然也能加快图形分析工作负载的处理速度,但在扩展性方面却面临瓶颈。
Howard解释道,“至强处理器能够获取某一图形数据集并存储在缓存之内,之后快速浏览其中内容。”可一旦需要对这些数据集进行扩展,就会出现各种性能和效率瓶颈。
为此,该团队着手开发出一款针对图形分析做出优化的新型处理器,并很快发现了在芯片层面进行负载优化时的几种规律。
“我们立刻意识到这类工作负载是大规模并行的,甚至可以用极端并行来形容。因此,我们可以着力提升并行性以提高整体性能。”Howard还补充道,该团队还陆续发现了内存和缓存利用率等优化切入点。
“当我们把缓存线引入处理器时,往往只会使用到其中的8个字节,另外64个字节往往被最终丢弃、压根用不到。”Howard称这会产生一大堆无序管线,给系统带来不必要的压力。
芯片中央的一块重要区域专门留给路由功能,用于控制从共同封装的光学器件处流入的数据流。
种种设计需求促使团队开发出了这款实验性处理器。此处理器由台积电的7纳米FinFET工艺制造(英特尔的大量非CPU产品多年来一直由台积电负责代工),拥有8核心、每核心66线程。
Howard解释道,这款芯片还采用了新颖的内存架构,这也是图形分析工作负载优化的重要方式。这些芯片搭载32 GB DDR5 4400MT/秒内存,其定制化内存控制器能够以8字节粒度进行访问。Howard称这种设计能保证“每当需要从内存中取出数据线时,都可尽量使用所有数据线,而不是将其中7/8白白丢弃。”
与主机系统的连接则采用8x PCIe 4.0通道。
英特尔还需要找到一种方法来处理出入计算芯片的巨大流量,理论上此流量可能高达1 TB/秒。根据Howard的介绍,正是为了满足这一需求,芯片上才预留了大量区域来封装路由器件。
对于这样一块线程和网络都相当密集的芯片,大家可能想当然认为它的发热量会非常惊人,但事实并非如此。这款芯片在1 GHz主频下的最高功率为75瓦。据英特尔介绍,16台服务器的整体配置总计可容纳8 TB内存、2048个核心、13.5168万个线程,而总功耗约为1.2千瓦。相比之下,拥有112个核心和224个线程的双插槽Sapphire Rapids系统自己就很容易达到这样的运转功率,所以原型设计的能效还算不错。
英特尔设想,这些芯片能够支撑起最高10万台服务器的网格计算体系当中,甚至为规模最大的图形分析工作负载提供近线性的性能扩展支持。但这一切目前都仅仅只是设想,毕竟英特尔迄今实际测试过的就只有此架构上的双芯片用例。
Howard解释道,这套设计方案能否商业化,还是要看客户们愿不愿意拿出真金白银来支持。“只要大家表现出积极的消费愿望,我们是非常乐意把它制造出来的。”
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。