AMD公司CTO Mark Papermaster制定了未来两年的发展计划。
过去几年以来,随着摩尔定律的逐步放缓,以及需要更高的功率来支撑一代又一代的高处理性能,半导体器件的发热量正变得愈发夸张。
正因为如此,芯片制造商才必须在芯片的设计和制造方式上发挥创意,确保即使总功率有所增长,也要把能效控制在合理水平。AMD公司CTO Mark Papermaster在接受采访时表示,对于芯片设计师们来说,单纯把更多晶体管封装到芯片当中并不代表就万事大吉了。
“现在已经不能继续这么粗暴解决了……在当初的摩尔定律时代,新的制程节点让我们能不断封装进更多性能更高的晶体管,同时不会增加能耗……但那段美好的时光已经结束了。”
这也是AMD多年来一直在探索解决的问题。该公司为此在2021年启动了30x25计划,目标是到2025年将计算效率较2020年的基准提高30倍。
虽然这些努力为算力的可持续性带来了明显优势,但AMD这种努力提高芯片每瓦性能的举措更多是出于自身生存的考量。
正如AMD CEO苏姿丰在今年早些时候的ISSC主题演讲中所明确指出,考虑到当前的技术发展速度,虽然zetaFLOP(千百亿亿次)超级计算机在未来十年之内肯定可以实现,但必须要严格控制其运行功率才能实现真正的可用性。据她估计,目前这样一台设备的运行功率可能会超过500兆瓦。
随着AMD最后期限的临近,其芯片业务倒也已经取得了重大进展。不过接下来还有很长的路要走,因为迄今为止其性能提升还只有13.5倍。
Papermaster解释道,这是个亟待解决且极其复杂的问题,而且并没有什么单一方案可供参考。“我们正处于算力与能耗呈指数递增的曲线之上,必须考虑有什么手段能够遏制这条曲线。”
在起步阶段,AMD公司就一直强调通用、加速和特定领域计算能力的灵活组合,希望将CPU、GPU、FPGA和加速器等IP组合协同起来以解决问题。
AMD还大力投资于多种技术,包括小芯片与先进封装方案,希望突破现代半导体制造技术的极限。
AMD优化能效的首要思路之一,就是将计算与I/O和内存分离开来,之后为二者使用最佳处理技术。其中的思路在于,某些元素会比其他元素更适合随制程缩小而实现扩展。也正因为如此,AMD的Epyc 4 CPU才会在计算芯片中采用5纳米节点、而I/O芯片则采用6纳米节点。
这种方法还能在行进封装技术的加持下进一步发展,从而将单一产品的晶体管密度提高至掩模版的极限以上。AMD上周发布的MI300系列加速器就属于这类成果,该芯片采用APU加GPU设计,由多达13个小芯片组装而成(此外还有8个高带宽内存栈),再使用高性能芯片互连将它们连接在一起。
说到MI300A(这里的「A」代表APU),AMD实际上还开发了一项名为Smart Shift的技术,可以根据工作负载在芯片的24个Zen 4核心和6个CDNA 3 GPU芯片之间动态分配功率。
可以上种种方法还是无法改变摩尔定律正逐渐失效的事实,将更多算力塞进单一封装仍会带来更高的功耗,只能说目前的技术有助于在数据移动的角度控制负载、降低损耗。
他解释道,“集成度越高,被耗费在串行器反序列化器上的电力就越少——这里浪费的能量其实相当可观……但更大的创新也已经蓄势待发。”
即使如此,芯片本体发热量的不断上升也给热管理构成了挑战。根据之前的相关报道,热管理正成为令数据中心运营方烦恼的头号难题,特别是那些希望大规模部署AI基础设施的运营商。
但Papermaster认为这些挑战并非不可克服,反而代表着下一代热管理及数据中心基础设施的发展机遇。
他解释道,“在建立数据中心时,投资于更先进的冷却技术将越来越有性价比。对运营商们来说,保持领先优势、使用新的可再生能源以及为数据中心选择更适合的地理位置将物有所值。在我看来,先进冷却、改善导热材料、增强系统散热等方面都有着全新的发展空间。”
通过这些技术,Papermaster预计AMD及其他半导体厂商完全可以将系统总功耗推得更高。“无论如何,我认为我们还没有挖尽全部潜能。”
除了架构、封装和系统层面的改进之外,Papermaster还专门强调了软件质量提升所带来的其他机遇。
他强调,“下一个前沿领域就是通过软件栈建立更深入的合作伙伴关系。我们已经开始与领先的AI从业者密切合作……包括微软、甲骨文、Lamini等厂商,还有我们在Mosaic ML项目中做出的种种探索。这些合作伙伴关系已经让我们深入了解到可以与软件解决方案的提供方和社区参与者携手进行哪些优化。”
随着上周ROCm 6软件平台的推出,我们看到AMD在通过软件改进来推动更高能效方面已经取得一定进展。AMD方面也表示,单凭对底层软件框架的优化,他们就成功将vLLM、HIP Graph和Flash Attention等大语言模型的性能表现提高至1.3倍到2.6倍左右。
ROCm 6与MI300系列加速器则通过组合进一步改进架构设计,与ROCm 5加MI250相比,前者在运行Llama 2 700亿参数模型的推理负载时可将延迟降低至八分之一。
好文章,需要你的鼓励
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起围观“AI企业”如何解“企业AI”落地难题。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者一起预见“AI超级个体”。
即刻报名参加2024 AI创新者大会暨PEC·提示工程峰会,与百位AI创新者现场“预见2025”。
戴尔负责边缘计算、战略和执行的高级副总裁Gil Shneorson对CRN表示:“因此,我们已经开始着手有效创建边缘云的工作。”“它仍然是唯一一款能将所有一切结合在一起的边缘运营软件。目前还没有其他类似的软件。”