身为英伟达公司CTO,Kagan解释了AI计算需求如何推动半导体技术突破摩尔定律的边界。
英伟达正积极拥抱一种新的计算范式,利用大规模并行计算机系统为新一代应用程序提供服务。而这场变化的开端,主要始于以色列。

英伟达公司CTO Michael Kagan指出,“虽然计算元件随着发展而尺寸愈小,但21世纪的计算设备本体却向着大小两极延伸——小至智能手表、大至超大规模数据中心。”
“数据中心本身就相当于一台计算机,而英伟达正在建立数据中心架构。我们正在打造几乎一切的必要元素,包括调整芯片、框架乃至应用程序,以便让这台21世纪机器上的一切都高效执行。”
Kagan居住在以色列海法区,三年前经由Mellanox Technologies收购案正式加入英伟达,目前担任公司CTO。英伟达创始人兼CEO黄仁勋对Kagan寄予厚望,任命他督导一切系统架构事宜。
著名的摩尔定律,源自戈登·摩尔 (Gordon Moore) 1965 年撰写的一篇论文《在集成电路上塞入更多元件》。这位后来担任英特尔CEO的技术先驱在文中预测,随着技术与经济的双重驱动,未来半导体行业每年都将在同样大小的空间内将晶体管的布置数量翻倍,而且这种情况将持续10年。
他的观察和总结后来被称为摩尔定律,且10年后稍做修改就继续适用。1975年,摩尔表示发展的速度将变成约每两年翻一番。他还提到,在可预见的未来,这样的情况将一直持续下去。直到2005年左右,芯片制造商都始终保持着这样的发展速度,但之后情况开始变化——无论是在经济还是在物理特性上,各晶体管元件间的距离已经太小,每过两年将相同空间内的晶体管数量增加一倍将难以实现。
为此,芯片制造商想出了各种办法来提高算力水平。其一就是增加核心数量,另一种则是用网络替代容易引发性能瓶颈的共享总线,将不同组件间直接互连以改善多芯片/处理器和内存之间的通信能力。
半导体制造商还发明了其他提升计算能力的新方法,包括研究算法、加速器和新的数据处理方式。加速器是一类专用组件(通常采取芯片形式),能够以极快速度执行特定任务。一旦系统遇到此类任务,就会将其交由加速器处理,从而实现整体性能提升。
厂商们还特别关注人工智能(AI)。与计算机行业惯用的冯·诺依曼架构相比,AI用例中的数据处理方式可谓截然不同。
Kagan解释称,“AI基于神经网络,这是一种与冯·诺依曼架构大相径庭的数据处理方式。冯·诺依曼架构的本质,是一种执行指令、查看结果、再决定下一步做什么的串行机器。”
“而处理数据的神经网络模型则受到人脑研究的启发。向神经网络提供数据,它就会从中学习。其工作原理类似于向三岁的小孩展示狗和猫,最终让对方学会区分这两者。在神经网络的帮助下,我们得以解决众多以往在冯·诺依曼架构上不知该如何处理的问题。”
AI与数字孪生等新型应用也加快了对于计算性能的需求,新需求自然需要搭配新的范式。以往,软件开发只需要很少算力,主要算力需求都集中在程序的运行过程上。相比之下,AI则需要大量算力来训练神经网络,但训练完成之后的运行成本却要低得多。
单个GPU或CPU都不足以训练大型AI模型。例如,ChatGPT的训练就需要使用约1万个GPU。所有GPU并行工作,彼此之间也自然需要相互通信。除了大规模并行处理之外,新的计算范式还要求使用新型专用芯片,名为数据处理单元(DPU)。
Kagan谈到,“2003年时,世界上最快的计算机器是Earth-Simulator地球模拟器,性能为每秒万亿次浮点运算。而当今最快的计算机是Frontier,运算速度已经达成百亿亿级别,是当初的100万倍。是的,20年间从万亿级提升到了百亿亿级。”
他补充道,“在1983年至2003年这20年间,计算性能则提高了数千倍。从数千倍到数百万倍,这种计算性能的飞跃就是很多人说的「黄氏定律」。即我们英伟达CEO黄仁勋观察到的,GPU加速计算性能每隔一年就会翻一番。”
“事实上,算力的增长速度还不止每年倍增。现在我们讨论的是AI工作负载和数据处理的新方法。如果把目光转向这一代英伟达Hopper GPU上运行的应用程序,就会发现与上代Ampere相比,速度的增幅超过了20倍。”
Kagan表示,这种计算速度的提升主要源自算法和加速器的双重加持:“每推出新一代GPU,都会添加更多、更强的加速器,以及更复杂的数据处理方式。”
“新设计完全取决于如何在不同部件之间划分功能。现在我们面对三大计算要素——GPU、CPU和DPU,外加连通彼此的网络。是的,网络本身也执行一部分计算。在英伟达收购的Mellanox公司,我们引入了网络内计算技术,能够在数据流经网络时执行一部分计算。”
从当初每两年让晶体管数量倍增、从而令计算性能翻一番的摩尔定律,到如今依靠GPU加速计算实现每年翻番的黄氏定律,半导体行业仍在不断突破新的极限。但目前来看,即使是黄氏定律恐怕也跟不上AI应用不断增长的需求。毕竟AI应用已经给出了明确的性能需求:每年算力提升10倍!
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。