AMD公司CTO Mark Papermaster制定了未来两年的发展计划。
过去几年以来,随着摩尔定律的逐步放缓,以及需要更高的功率来支撑一代又一代的高处理性能,半导体器件的发热量正变得愈发夸张。
正因为如此,芯片制造商才必须在芯片的设计和制造方式上发挥创意,确保即使总功率有所增长,也要把能效控制在合理水平。AMD公司CTO Mark Papermaster在接受采访时表示,对于芯片设计师们来说,单纯把更多晶体管封装到芯片当中并不代表就万事大吉了。
“现在已经不能继续这么粗暴解决了……在当初的摩尔定律时代,新的制程节点让我们能不断封装进更多性能更高的晶体管,同时不会增加能耗……但那段美好的时光已经结束了。”
这也是AMD多年来一直在探索解决的问题。该公司为此在2021年启动了30x25计划,目标是到2025年将计算效率较2020年的基准提高30倍。
虽然这些努力为算力的可持续性带来了明显优势,但AMD这种努力提高芯片每瓦性能的举措更多是出于自身生存的考量。
正如AMD CEO苏姿丰在今年早些时候的ISSC主题演讲中所明确指出,考虑到当前的技术发展速度,虽然zetaFLOP(千百亿亿次)超级计算机在未来十年之内肯定可以实现,但必须要严格控制其运行功率才能实现真正的可用性。据她估计,目前这样一台设备的运行功率可能会超过500兆瓦。
随着AMD最后期限的临近,其芯片业务倒也已经取得了重大进展。不过接下来还有很长的路要走,因为迄今为止其性能提升还只有13.5倍。
Papermaster解释道,这是个亟待解决且极其复杂的问题,而且并没有什么单一方案可供参考。“我们正处于算力与能耗呈指数递增的曲线之上,必须考虑有什么手段能够遏制这条曲线。”
在起步阶段,AMD公司就一直强调通用、加速和特定领域计算能力的灵活组合,希望将CPU、GPU、FPGA和加速器等IP组合协同起来以解决问题。
AMD还大力投资于多种技术,包括小芯片与先进封装方案,希望突破现代半导体制造技术的极限。
AMD优化能效的首要思路之一,就是将计算与I/O和内存分离开来,之后为二者使用最佳处理技术。其中的思路在于,某些元素会比其他元素更适合随制程缩小而实现扩展。也正因为如此,AMD的Epyc 4 CPU才会在计算芯片中采用5纳米节点、而I/O芯片则采用6纳米节点。
这种方法还能在行进封装技术的加持下进一步发展,从而将单一产品的晶体管密度提高至掩模版的极限以上。AMD上周发布的MI300系列加速器就属于这类成果,该芯片采用APU加GPU设计,由多达13个小芯片组装而成(此外还有8个高带宽内存栈),再使用高性能芯片互连将它们连接在一起。
说到MI300A(这里的「A」代表APU),AMD实际上还开发了一项名为Smart Shift的技术,可以根据工作负载在芯片的24个Zen 4核心和6个CDNA 3 GPU芯片之间动态分配功率。
可以上种种方法还是无法改变摩尔定律正逐渐失效的事实,将更多算力塞进单一封装仍会带来更高的功耗,只能说目前的技术有助于在数据移动的角度控制负载、降低损耗。
他解释道,“集成度越高,被耗费在串行器反序列化器上的电力就越少——这里浪费的能量其实相当可观……但更大的创新也已经蓄势待发。”
即使如此,芯片本体发热量的不断上升也给热管理构成了挑战。根据之前的相关报道,热管理正成为令数据中心运营方烦恼的头号难题,特别是那些希望大规模部署AI基础设施的运营商。
但Papermaster认为这些挑战并非不可克服,反而代表着下一代热管理及数据中心基础设施的发展机遇。
他解释道,“在建立数据中心时,投资于更先进的冷却技术将越来越有性价比。对运营商们来说,保持领先优势、使用新的可再生能源以及为数据中心选择更适合的地理位置将物有所值。在我看来,先进冷却、改善导热材料、增强系统散热等方面都有着全新的发展空间。”
通过这些技术,Papermaster预计AMD及其他半导体厂商完全可以将系统总功耗推得更高。“无论如何,我认为我们还没有挖尽全部潜能。”
除了架构、封装和系统层面的改进之外,Papermaster还专门强调了软件质量提升所带来的其他机遇。
他强调,“下一个前沿领域就是通过软件栈建立更深入的合作伙伴关系。我们已经开始与领先的AI从业者密切合作……包括微软、甲骨文、Lamini等厂商,还有我们在Mosaic ML项目中做出的种种探索。这些合作伙伴关系已经让我们深入了解到可以与软件解决方案的提供方和社区参与者携手进行哪些优化。”
随着上周ROCm 6软件平台的推出,我们看到AMD在通过软件改进来推动更高能效方面已经取得一定进展。AMD方面也表示,单凭对底层软件框架的优化,他们就成功将vLLM、HIP Graph和Flash Attention等大语言模型的性能表现提高至1.3倍到2.6倍左右。
ROCm 6与MI300系列加速器则通过组合进一步改进架构设计,与ROCm 5加MI250相比,前者在运行Llama 2 700亿参数模型的推理负载时可将延迟降低至八分之一。
好文章,需要你的鼓励
微软宣布为Word和Excel推出基于OpenAI的AI代理模式,通过简单提示即可自动生成文档和分析数据。Word用户可享受"氛围写作"功能,利用现有文档组装报告和提案。Excel代理能分析电子表格数据并生成可视化报告。尽管在SpreadsheetBench基准测试中准确率仅为57.2%,低于人类平均水平71.3%,但微软强调其针对实际工作场景优化。此外,微软还发布了基于Anthropic的Office代理,显示其正逐步减少对OpenAI的依赖。
北卡罗来纳大学研究团队通过深入分析手指触控过程中的动态特征,开发出新型触控识别算法,能够理解触控过程中的压力分布、接触面积变化等信息,比传统方法准确率提高15-28%。该技术采用分层处理架构解决计算效率问题,已在真实设备上验证效果,将为个性化交互、情感感知等未来应用奠定基础,有望显著改善用户的触控体验。
OpenAI为美国ChatGPT用户推出"即时结账"功能,用户可在对话中直接购买Etsy和Shopify商品,无需跳转至外部网站。该功能支持Apple Pay、Google Pay等多种支付方式,并计划接入超过100万家Shopify商户。OpenAI还将开源其代理商务协议技术,与谷歌的代理支付协议形成竞争。这标志着电商购物模式的重大转变,AI聊天机器人可能重塑在线零售发现和支付生态系统。
Perfios公司研究团队开发了创新的AI理财顾问训练框架,通过行为心理学驱动的数据生成方法,让8B参数的小模型在个人理财建议方面达到了与32B大模型相当的性能,同时运营成本降低80%。该方法首次将用户心理状态分析作为独立训练阶段,显著提升了AI建议的个性化程度和人性化表达,为普及化AI理财服务提供了技术路径。