近年来,硅光技术已经成为行业讨论中的热点话题,很多朋友也急切盼望着它能尽快普及、服务市场。十年前关于实用性硅光互连的讨论曾陷入困境,好在如今信号传输技术重新迈开发展的脚步,在我们最需要它的时候渐渐发展成形。
当初纯电路互连具有压倒性的成本优势,相当于占据了“价格/性能”等式中的分子部分,而硅光技术的亮点则主要体现在性能这个分母上。随着时间推移,传输带宽越来越大,电信号波长则变得越来越短,于是噪声问题日益严重。转折性的一天终于到来,我们开始将电磁信号载体由电子转换为光子,信号传输介质也由铜导线转为光纤导线。
下图中的曲线来自英伟达首席科学家Bill Dally在今年3月光纤通信会议上发表的演讲,很好地反映了这种趋势:
这些曲线本身代表着客观规律,但我们也可以通过一点材料学魔法再稍做改变。
几周之前,英伟达刚刚与Ayar Labs签署了合作研发协议。为此,我们有幸采访了这家硅光初创公司CEO Charlie Wuischpard,讨论英伟达和Ayar接下来的工作计划。英伟达还参与了Ayar Labs今年年初进行的C轮融资,期间他们筹集到1.3亿美元,用于开发带外激光器与硅光互连方案。HPE也在今年2月与Ayar Labs签署一项协议,共同研究如何将硅光技术引入自家的Slingshot互连系统,而且HPE同样参与了今年4月Ayar 的C轮融资。就连英特尔也提供了不少早期支持,只是芯片巨头希望将激光器嵌入到芯片内部,而不是像Ayar Labs那样从芯片外部泵入激光信号。顺带一提,目前英特尔的运营形势相当不妙,几乎可以说是不容有失,所以用硅光技术来对冲风险应该是个好选择。
在今年4月融资期间,我们曾与Wuischpard详细探讨过硅光技术在现代系统中的适用区和不适用区。根据最近得到的消息,英伟达似乎也在为此专门规划设计蓝图。
之后就是Dally在2022年光纤通信会议上发布的上述演示了,其中非常详尽地阐述了使用密集波分复用(DWDM)技术的共封装光学器件,以及如何利用硅光传输实现机架间及GPU计算引擎间的交叉连接。
演示文稿中还展示了一台没有正式定名的概念设备,类似于Dally团队早在2010年就设计出的“Echelon”百亿亿次概念系统。这台设备采用特殊的数学引擎、而非GPU,各引擎间采用高基数电气交换机和克雷“Aries”设备机架间的光学互连设计。当初的Echelon设备一直未能商业化,英伟达于是转而选择Dally在英伟达研究院中设计出的NVSwitch内存互连,并很快将其投入生产,希望制造出基于胖多端口InfiniBand互连通道的大型NUMA GPU处理器。
在最初基于NVSwitch的DGX系统中,英伟达可以通过“Volta”V100 GPU加速器在单一图像中使用16个GPU;而到“Ampere”A100 GPU加速器时,为了让每个GPU实现带宽翻倍,他们只能将NVSwitch的基数削减一半,所以单一图像中只能使用8个GPU。但伴随着今年早些时候公布的NVSwitches叶/脊网络以及将于今年晚些时候出货的“Hopper”H100 GPU加速器,英伟达已经可以将256个GPU融入统一内存结构,由此实现巨大的性能改进。
但归根结底,作为DGX H100 SuperPOD的核心,NVSwitch结构在本质上仍然是一种对NUMA直接放大的方法,而且必然受到线缆布局的限制。而且即使是到了Hopper这一代,NVSwitch的规模也不可能支持超大规模厂商将数万个GPU捆绑在巨型AI工作负载当中。
Wuischpard在采访中笑道,“我暂时还不能透露太多细节。简单来讲,这是一个物理层面的解决方案,在此之上还有软件,还要对GPU、内存和CPU进行编排。这里我们不谈具体细节,总之你可以把它理解成我们对于未来支持需求的物理性探索。这将会是一项长期、多阶段的探索,我们的目标就是用参数证明自己,逐步跨过一个个发展里程碑。”
虽然了解不到更多细节,但我们不妨回归Dally在光纤通信会议上的演讲,看看英伟达如何谋划未来基于硅光互连的GPU加速系统。
在进入正题之前,我们先来看看GPU或交换机之间的带宽和功率限制,二者接入的印刷电路板,以及承载它们的机柜。正是这些现实因素,为硅光互连的出现奠定了基础:
这里的规律非常简单。链路越短,传输带宽就越大,数据转移消耗的能量也越小。下表列出的中介层、印刷电路板、共封装光学器件、线缆及有源光缆各自对应的功率、成本和密度,这些都是现代系统中不同层次所使用的线缆:
使用DWDM共封装光学器件的目的,是在保持相似的成本、与有源线缆相当的传输范围以及与印刷电路板类似的信号密度的同时,获得比线缆更低的功耗。
Dally还公布了下面这份DWDM信号传输草图:
以下框图,展示了GPU与NVSwitch如何使用光引擎将电信号转换为光信号,借此为GPU创建NVSwitch网络:
每个光学引擎包含24根光纤,初步信号传输速率为200 Gb/秒,总带宽为4.8 Tb/秒。每个GPU对应两个光学引擎,用以提供基于NVSwitch结构的双工传输带宽。因此,包含6个光学引擎的NVSwitch初始速率为28.8 Tb/秒,去除编码占用的带宽后为25.6 Tb/秒。
下图所示,为英伟达硅光概念设备中各组件间的能耗计算方式:
GPU与交换机之间的数据移入与移出操作,每比特消耗3.5皮焦耳能量,与Dally在上表中设定的目标完全一致。但我们怀疑功耗成本还要再低一些,才能让计算引擎接受这种将光学器件纳入封装的设计思路。英伟达正在为此积极努力,相信后续还会有更多亮眼表现。
目前DGX-A100系统上嵌入的NVSwitch结构,使用的电信号传输范围约为300厘米,数据传输功耗则为每比特8皮焦耳。下阶段的发展目标是用硅光传输将功耗降低一半,并将设备间的传输距离提高到100米。
在达成以上目标后,架构中的GPU跟交换机就可以彼此拆分。虽然英伟达的概念机并没有提及这一点,但CPU也可以匹配光学引擎,实现同样的拆分效果。
下图为带有共封装光学器件的GPU与交换机外观:
下图则为GPU与采用CPO链路的NVSwitch的连接方式:
虽然外部激光源会占用不少空间,但这也意味着设备间的连接距离可以放大,让机架密度显著降低。这样冷却系统更易于部署,激光器也能实现更换。于是,整套系统的运行温度将有所下降,激光器工作效果提升。以DGX系统为例,目前的设备密度其实已经太高,导致机器运行温度过热。为了匹配大部分数据中心的功率密度和冷却部署能力,机架内的实际安装空间恐怕只能用掉一半。
细心的朋友可能还注意到,上图中的GPU和交换机是垂直放置的,这样同样有助于冷却。而且它们也没有安装在带插槽的巨型印刷电路板上,这样可以降低系统整体成本,省下来的钱也许可以抵消额外的光互连开支。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。