身为英伟达公司CTO,Kagan解释了AI计算需求如何推动半导体技术突破摩尔定律的边界。
英伟达正积极拥抱一种新的计算范式,利用大规模并行计算机系统为新一代应用程序提供服务。而这场变化的开端,主要始于以色列。

英伟达公司CTO Michael Kagan指出,“虽然计算元件随着发展而尺寸愈小,但21世纪的计算设备本体却向着大小两极延伸——小至智能手表、大至超大规模数据中心。”
“数据中心本身就相当于一台计算机,而英伟达正在建立数据中心架构。我们正在打造几乎一切的必要元素,包括调整芯片、框架乃至应用程序,以便让这台21世纪机器上的一切都高效执行。”
Kagan居住在以色列海法区,三年前经由Mellanox Technologies收购案正式加入英伟达,目前担任公司CTO。英伟达创始人兼CEO黄仁勋对Kagan寄予厚望,任命他督导一切系统架构事宜。
著名的摩尔定律,源自戈登·摩尔 (Gordon Moore) 1965 年撰写的一篇论文《在集成电路上塞入更多元件》。这位后来担任英特尔CEO的技术先驱在文中预测,随着技术与经济的双重驱动,未来半导体行业每年都将在同样大小的空间内将晶体管的布置数量翻倍,而且这种情况将持续10年。
他的观察和总结后来被称为摩尔定律,且10年后稍做修改就继续适用。1975年,摩尔表示发展的速度将变成约每两年翻一番。他还提到,在可预见的未来,这样的情况将一直持续下去。直到2005年左右,芯片制造商都始终保持着这样的发展速度,但之后情况开始变化——无论是在经济还是在物理特性上,各晶体管元件间的距离已经太小,每过两年将相同空间内的晶体管数量增加一倍将难以实现。
为此,芯片制造商想出了各种办法来提高算力水平。其一就是增加核心数量,另一种则是用网络替代容易引发性能瓶颈的共享总线,将不同组件间直接互连以改善多芯片/处理器和内存之间的通信能力。
半导体制造商还发明了其他提升计算能力的新方法,包括研究算法、加速器和新的数据处理方式。加速器是一类专用组件(通常采取芯片形式),能够以极快速度执行特定任务。一旦系统遇到此类任务,就会将其交由加速器处理,从而实现整体性能提升。
厂商们还特别关注人工智能(AI)。与计算机行业惯用的冯·诺依曼架构相比,AI用例中的数据处理方式可谓截然不同。
Kagan解释称,“AI基于神经网络,这是一种与冯·诺依曼架构大相径庭的数据处理方式。冯·诺依曼架构的本质,是一种执行指令、查看结果、再决定下一步做什么的串行机器。”
“而处理数据的神经网络模型则受到人脑研究的启发。向神经网络提供数据,它就会从中学习。其工作原理类似于向三岁的小孩展示狗和猫,最终让对方学会区分这两者。在神经网络的帮助下,我们得以解决众多以往在冯·诺依曼架构上不知该如何处理的问题。”
AI与数字孪生等新型应用也加快了对于计算性能的需求,新需求自然需要搭配新的范式。以往,软件开发只需要很少算力,主要算力需求都集中在程序的运行过程上。相比之下,AI则需要大量算力来训练神经网络,但训练完成之后的运行成本却要低得多。
单个GPU或CPU都不足以训练大型AI模型。例如,ChatGPT的训练就需要使用约1万个GPU。所有GPU并行工作,彼此之间也自然需要相互通信。除了大规模并行处理之外,新的计算范式还要求使用新型专用芯片,名为数据处理单元(DPU)。
Kagan谈到,“2003年时,世界上最快的计算机器是Earth-Simulator地球模拟器,性能为每秒万亿次浮点运算。而当今最快的计算机是Frontier,运算速度已经达成百亿亿级别,是当初的100万倍。是的,20年间从万亿级提升到了百亿亿级。”
他补充道,“在1983年至2003年这20年间,计算性能则提高了数千倍。从数千倍到数百万倍,这种计算性能的飞跃就是很多人说的「黄氏定律」。即我们英伟达CEO黄仁勋观察到的,GPU加速计算性能每隔一年就会翻一番。”
“事实上,算力的增长速度还不止每年倍增。现在我们讨论的是AI工作负载和数据处理的新方法。如果把目光转向这一代英伟达Hopper GPU上运行的应用程序,就会发现与上代Ampere相比,速度的增幅超过了20倍。”
Kagan表示,这种计算速度的提升主要源自算法和加速器的双重加持:“每推出新一代GPU,都会添加更多、更强的加速器,以及更复杂的数据处理方式。”
“新设计完全取决于如何在不同部件之间划分功能。现在我们面对三大计算要素——GPU、CPU和DPU,外加连通彼此的网络。是的,网络本身也执行一部分计算。在英伟达收购的Mellanox公司,我们引入了网络内计算技术,能够在数据流经网络时执行一部分计算。”
从当初每两年让晶体管数量倍增、从而令计算性能翻一番的摩尔定律,到如今依靠GPU加速计算实现每年翻番的黄氏定律,半导体行业仍在不断突破新的极限。但目前来看,即使是黄氏定律恐怕也跟不上AI应用不断增长的需求。毕竟AI应用已经给出了明确的性能需求:每年算力提升10倍!
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。