AMD公司CTO Mark Papermaster制定了未来两年的发展计划。
过去几年以来,随着摩尔定律的逐步放缓,以及需要更高的功率来支撑一代又一代的高处理性能,半导体器件的发热量正变得愈发夸张。
正因为如此,芯片制造商才必须在芯片的设计和制造方式上发挥创意,确保即使总功率有所增长,也要把能效控制在合理水平。AMD公司CTO Mark Papermaster在接受采访时表示,对于芯片设计师们来说,单纯把更多晶体管封装到芯片当中并不代表就万事大吉了。

“现在已经不能继续这么粗暴解决了……在当初的摩尔定律时代,新的制程节点让我们能不断封装进更多性能更高的晶体管,同时不会增加能耗……但那段美好的时光已经结束了。”
这也是AMD多年来一直在探索解决的问题。该公司为此在2021年启动了30x25计划,目标是到2025年将计算效率较2020年的基准提高30倍。
虽然这些努力为算力的可持续性带来了明显优势,但AMD这种努力提高芯片每瓦性能的举措更多是出于自身生存的考量。
正如AMD CEO苏姿丰在今年早些时候的ISSC主题演讲中所明确指出,考虑到当前的技术发展速度,虽然zetaFLOP(千百亿亿次)超级计算机在未来十年之内肯定可以实现,但必须要严格控制其运行功率才能实现真正的可用性。据她估计,目前这样一台设备的运行功率可能会超过500兆瓦。
随着AMD最后期限的临近,其芯片业务倒也已经取得了重大进展。不过接下来还有很长的路要走,因为迄今为止其性能提升还只有13.5倍。
Papermaster解释道,这是个亟待解决且极其复杂的问题,而且并没有什么单一方案可供参考。“我们正处于算力与能耗呈指数递增的曲线之上,必须考虑有什么手段能够遏制这条曲线。”
在起步阶段,AMD公司就一直强调通用、加速和特定领域计算能力的灵活组合,希望将CPU、GPU、FPGA和加速器等IP组合协同起来以解决问题。
AMD还大力投资于多种技术,包括小芯片与先进封装方案,希望突破现代半导体制造技术的极限。
AMD优化能效的首要思路之一,就是将计算与I/O和内存分离开来,之后为二者使用最佳处理技术。其中的思路在于,某些元素会比其他元素更适合随制程缩小而实现扩展。也正因为如此,AMD的Epyc 4 CPU才会在计算芯片中采用5纳米节点、而I/O芯片则采用6纳米节点。
这种方法还能在行进封装技术的加持下进一步发展,从而将单一产品的晶体管密度提高至掩模版的极限以上。AMD上周发布的MI300系列加速器就属于这类成果,该芯片采用APU加GPU设计,由多达13个小芯片组装而成(此外还有8个高带宽内存栈),再使用高性能芯片互连将它们连接在一起。
说到MI300A(这里的「A」代表APU),AMD实际上还开发了一项名为Smart Shift的技术,可以根据工作负载在芯片的24个Zen 4核心和6个CDNA 3 GPU芯片之间动态分配功率。
可以上种种方法还是无法改变摩尔定律正逐渐失效的事实,将更多算力塞进单一封装仍会带来更高的功耗,只能说目前的技术有助于在数据移动的角度控制负载、降低损耗。
他解释道,“集成度越高,被耗费在串行器反序列化器上的电力就越少——这里浪费的能量其实相当可观……但更大的创新也已经蓄势待发。”
即使如此,芯片本体发热量的不断上升也给热管理构成了挑战。根据之前的相关报道,热管理正成为令数据中心运营方烦恼的头号难题,特别是那些希望大规模部署AI基础设施的运营商。
但Papermaster认为这些挑战并非不可克服,反而代表着下一代热管理及数据中心基础设施的发展机遇。
他解释道,“在建立数据中心时,投资于更先进的冷却技术将越来越有性价比。对运营商们来说,保持领先优势、使用新的可再生能源以及为数据中心选择更适合的地理位置将物有所值。在我看来,先进冷却、改善导热材料、增强系统散热等方面都有着全新的发展空间。”
通过这些技术,Papermaster预计AMD及其他半导体厂商完全可以将系统总功耗推得更高。“无论如何,我认为我们还没有挖尽全部潜能。”
除了架构、封装和系统层面的改进之外,Papermaster还专门强调了软件质量提升所带来的其他机遇。
他强调,“下一个前沿领域就是通过软件栈建立更深入的合作伙伴关系。我们已经开始与领先的AI从业者密切合作……包括微软、甲骨文、Lamini等厂商,还有我们在Mosaic ML项目中做出的种种探索。这些合作伙伴关系已经让我们深入了解到可以与软件解决方案的提供方和社区参与者携手进行哪些优化。”
随着上周ROCm 6软件平台的推出,我们看到AMD在通过软件改进来推动更高能效方面已经取得一定进展。AMD方面也表示,单凭对底层软件框架的优化,他们就成功将vLLM、HIP Graph和Flash Attention等大语言模型的性能表现提高至1.3倍到2.6倍左右。
ROCm 6与MI300系列加速器则通过组合进一步改进架构设计,与ROCm 5加MI250相比,前者在运行Llama 2 700亿参数模型的推理负载时可将延迟降低至八分之一。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。