英伟达展示设计蓝图，硅光连接GPU系统初步成形

近年来，硅光技术已经成为行业讨论中的热点话题，很多朋友也急切盼望着它能尽快普及、服务市场。十年前关于实用性硅光互连的讨论曾陷入困境，好在如今信号传输技术重新迈开发展的脚步，在我们最需要它的时候渐渐发展成形。

当初纯电路互连具有压倒性的成本优势，相当于占据了“价格/性能”等式中的分子部分，而硅光技术的亮点则主要体现在性能这个分母上。随着时间推移，传输带宽越来越大，电信号波长则变得越来越短，于是噪声问题日益严重。转折性的一天终于到来，我们开始将电磁信号载体由电子转换为光子，信号传输介质也由铜导线转为光纤导线。

下图中的曲线来自英伟达首席科学家Bill Dally在今年3月光纤通信会议上发表的演讲，很好地反映了这种趋势：

英伟达展示设计蓝图，硅光连接GPU系统初步成形

这些曲线本身代表着客观规律，但我们也可以通过一点材料学魔法再稍做改变。

几周之前，英伟达刚刚与Ayar Labs签署了合作研发协议。为此，我们有幸采访了这家硅光初创公司CEO Charlie Wuischpard，讨论英伟达和Ayar接下来的工作计划。英伟达还参与了Ayar Labs今年年初进行的C轮融资，期间他们筹集到1.3亿美元，用于开发带外激光器与硅光互连方案。HPE也在今年2月与Ayar Labs签署一项协议，共同研究如何将硅光技术引入自家的Slingshot互连系统，而且HPE同样参与了今年4月Ayar 的C轮融资。就连英特尔也提供了不少早期支持，只是芯片巨头希望将激光器嵌入到芯片内部，而不是像Ayar Labs那样从芯片外部泵入激光信号。顺带一提，目前英特尔的运营形势相当不妙，几乎可以说是不容有失，所以用硅光技术来对冲风险应该是个好选择。

在今年4月融资期间，我们曾与Wuischpard详细探讨过硅光技术在现代系统中的适用区和不适用区。根据最近得到的消息，英伟达似乎也在为此专门规划设计蓝图。

之后就是Dally在2022年光纤通信会议上发布的上述演示了，其中非常详尽地阐述了使用密集波分复用（DWDM）技术的共封装光学器件，以及如何利用硅光传输实现机架间及GPU计算引擎间的交叉连接。

演示文稿中还展示了一台没有正式定名的概念设备，类似于Dally团队早在2010年就设计出的“Echelon”百亿亿次概念系统。这台设备采用特殊的数学引擎、而非GPU，各引擎间采用高基数电气交换机和克雷“Aries”设备机架间的光学互连设计。当初的Echelon设备一直未能商业化，英伟达于是转而选择Dally在英伟达研究院中设计出的NVSwitch内存互连，并很快将其投入生产，希望制造出基于胖多端口InfiniBand互连通道的大型NUMA GPU处理器。

在最初基于NVSwitch的DGX系统中，英伟达可以通过“Volta”V100 GPU加速器在单一图像中使用16个GPU；而到“Ampere”A100 GPU加速器时，为了让每个GPU实现带宽翻倍，他们只能将NVSwitch的基数削减一半，所以单一图像中只能使用8个GPU。但伴随着今年早些时候公布的NVSwitches叶/脊网络以及将于今年晚些时候出货的“Hopper”H100 GPU加速器，英伟达已经可以将256个GPU融入统一内存结构，由此实现巨大的性能改进。

但归根结底，作为DGX H100 SuperPOD的核心，NVSwitch结构在本质上仍然是一种对NUMA直接放大的方法，而且必然受到线缆布局的限制。而且即使是到了Hopper这一代，NVSwitch的规模也不可能支持超大规模厂商将数万个GPU捆绑在巨型AI工作负载当中。

Wuischpard在采访中笑道，“我暂时还不能透露太多细节。简单来讲，这是一个物理层面的解决方案，在此之上还有软件，还要对GPU、内存和CPU进行编排。这里我们不谈具体细节，总之你可以把它理解成我们对于未来支持需求的物理性探索。这将会是一项长期、多阶段的探索，我们的目标就是用参数证明自己，逐步跨过一个个发展里程碑。”

虽然了解不到更多细节，但我们不妨回归Dally在光纤通信会议上的演讲，看看英伟达如何谋划未来基于硅光互连的GPU加速系统。

在进入正题之前，我们先来看看GPU或交换机之间的带宽和功率限制，二者接入的印刷电路板，以及承载它们的机柜。正是这些现实因素，为硅光互连的出现奠定了基础：

英伟达展示设计蓝图，硅光连接GPU系统初步成形

这里的规律非常简单。链路越短，传输带宽就越大，数据转移消耗的能量也越小。下表列出的中介层、印刷电路板、共封装光学器件、线缆及有源光缆各自对应的功率、成本和密度，这些都是现代系统中不同层次所使用的线缆：

使用DWDM共封装光学器件的目的，是在保持相似的成本、与有源线缆相当的传输范围以及与印刷电路板类似的信号密度的同时，获得比线缆更低的功耗。

Dally还公布了下面这份DWDM信号传输草图：

以下框图，展示了GPU与NVSwitch如何使用光引擎将电信号转换为光信号，借此为GPU创建NVSwitch网络：

每个光学引擎包含24根光纤，初步信号传输速率为200 Gb/秒，总带宽为4.8 Tb/秒。每个GPU对应两个光学引擎，用以提供基于NVSwitch结构的双工传输带宽。因此，包含6个光学引擎的NVSwitch初始速率为28.8 Tb/秒，去除编码占用的带宽后为25.6 Tb/秒。

下图所示，为英伟达硅光概念设备中各组件间的能耗计算方式：

GPU与交换机之间的数据移入与移出操作，每比特消耗3.5皮焦耳能量，与Dally在上表中设定的目标完全一致。但我们怀疑功耗成本还要再低一些，才能让计算引擎接受这种将光学器件纳入封装的设计思路。英伟达正在为此积极努力，相信后续还会有更多亮眼表现。

目前DGX-A100系统上嵌入的NVSwitch结构，使用的电信号传输范围约为300厘米，数据传输功耗则为每比特8皮焦耳。下阶段的发展目标是用硅光传输将功耗降低一半，并将设备间的传输距离提高到100米。

在达成以上目标后，架构中的GPU跟交换机就可以彼此拆分。虽然英伟达的概念机并没有提及这一点，但CPU也可以匹配光学引擎，实现同样的拆分效果。

下图为带有共封装光学器件的GPU与交换机外观：

下图则为GPU与采用CPO链路的NVSwitch的连接方式：

虽然外部激光源会占用不少空间，但这也意味着设备间的连接距离可以放大，让机架密度显著降低。这样冷却系统更易于部署，激光器也能实现更换。于是，整套系统的运行温度将有所下降，激光器工作效果提升。以DGX系统为例，目前的设备密度其实已经太高，导致机器运行温度过热。为了匹配大部分数据中心的功率密度和冷却部署能力，机架内的实际安装空间恐怕只能用掉一半。

细心的朋友可能还注意到，上图中的GPU和交换机是垂直放置的，这样同样有助于冷却。而且它们也没有安装在带插槽的巨型印刷电路板上，这样可以降低系统整体成本，省下来的钱也许可以抵消额外的光互连开支。

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

人工智能

模型优化

大语言模型

2025-06-05

zip2zip：通过令牌压缩实现大语言模型的推理时自适应词汇表

zip2zip是一项创新技术，通过引入动态自适应词汇表，让大语言模型在推理时能够自动组合常用词组，显著提高处理效率。由EPFL等机构研究团队开发的这一方法，基于LZW压缩算法，允许模型即时创建和使用"超级tokens"，将输入和输出序列长度减少20-60%，大幅提升推理速度。实验表明，现有模型只需10个GPU小时的微调即可适配此框架，在保持基本性能的同时显著降低计算成本和响应时间，特别适用于专业领域和多语言场景。

人工智能

自然语言处理

仇恨言论无毒化

2025-06-05

LLM循环助力：创建PARADEHATE数据集实现仇恨言论无毒化

这项研究创新性地利用大语言模型(LLM)代替人类标注者，创建了PARADEHATE数据集，用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美，随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示，在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异，证明LLM生成的数据可作为人工标注的高效替代方案，为创建更安全、更具包容性的在线环境提供了新途径。

3D编辑

视觉一致性

渐进式视角范式

2025-06-05

Pro3D-Editor：一种实现3D模型一致精准编辑的渐进式视角方法

这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor，一种新型3D编辑框架，通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑，要么同时编辑多个固定视角，都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块：主视角采样器自动选择最适合编辑的视角，关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角，全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。

ComposeAnything：来自INRIA的人工智能新突破，让AI图像生成理解复杂空间关系

英伟达展示设计蓝图，硅光连接GPU系统初步成形

来源：至顶网计算频道

2022

08/18

13:44

分享

点赞

强化学习存在推理效率问题，阿里千问团队发明推理二八法则，解决AI选择困难症

Victoria’s Secret 遭遇服务中断，正应对安全事件

诺基亚贝尔亮相2025中国光网络研讨会，探讨AI在网络基础设施中的潜能

十年专利纠纷如何可能颠覆 Uber 业务

Automattic 表示将在暂停后恢复对 WordPress 的贡献

荷兰企业在应对不断加剧的威胁下，网络韧性落后

使用 Edits 指南：Meta 全新短视频编辑利器，挑战 CapCut

将 ROCs 放在 SOCs 之前 —— Qualys 对公共部门的建议

全民基本收入：AI时代的商业案例

PTC推出Creo 12以加快设计速度、提高生产力和协作能力

Qorvo推出高输出功率倍增器QPA3311和QPA3316，加速DOCSIS4.0向更智能高效演进

谷歌再次在融合能源领域押注 TAE Technologies

思科与英伟达扩大合作，助力企业加速应用AI技术

黄仁勋CES记者会实录：AI扩展没有物理限制，英伟达只专注做好两件事

英伟达推进合作，旨在加速人工智能代理在医疗保健研究中的应用

该需要多少 NVIDIA CUDA Cores ？

未来，就在我们手中

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

一文读懂 GPU 资源动态调度

市值一夜蒸发6400亿！回顾英伟达被调查始末，华为或成最终赢家？

2024 AI服务器市场竞争格局

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: