曾几何时,我们还只能在服务器上选择特定几种CPU。那时候,全世界的服务器供应商也只有几十家,提供的选项自然相对有限。如今,虽然服务器CPU的设计与制造仍然集中在少数厂商手中,但计算引擎却早已蓬勃发展、遍地开花。
随着摩尔定律在晶体管价格/性能比中的改进速度逐渐放缓,加上现代服务器对于工作负载支持范围的不断拓展,计算引擎的丰富多样也是必然的结果。AMD就需要在客户定制需求与自身产品线利润之间找到理想的平衡点,而这项重任落在了服务器业务高级副总裁兼总经理的Dan McNamara肩头。
McNamara的整个职业生涯都围绕着半导体行业展开。在2004年加入FPGA制造商Altera担任业务发展总监之前,他曾创立过一家公司、也在其他公司做过销售。从Altera时代起,McNamara逐渐从销售总监过渡为应用工程负责人,之后开始管理这家FPGA制造商的嵌入式部门。而在英特尔于2015年以167亿美元收购Altera并将其编制为可编程解决方案事业部时,McNamara凭借着四年的运营经验成功转型为网络与自定义逻辑部门总经理。2020年1月,McNamara正式加盟AMD,帮助引导公司向数据中心领域扩张。
为此,我们有幸邀请他参与讨论,聊聊未来五到十年之内服务器芯片与架构将会发生哪些变化。
记者: 那咱们就先从上周公布的“Milan-X”Epyc服务器芯片及其搭载的3D V-Cache说起吧。我们该怎么看待这种全新形式的Epyc服务器芯片,未来会不会所有芯片都搭载上3D V-Cache?我知道芯片产品必须在制造难度与性能提升之间求取平衡,但如果设计师需要最大程度利用芯片复合体上的核心空间,那以垂直方式部署L3缓存应该是个不错的办法、对应的成本压力也不会那么大。
Dan McNamara: 这个问题有意思。3D V-Cache属于我们远景规划的一部分,也许能反映出未来计算技术的发展走向。Milan-X是这条通往不同优化点的漫长路线图中的一个节点。在“Naples”Epyc 7001系列中,我们就和客户在通用计算的实现思路方面达成了独特的共识;而在“Rome”Epyc 7002系列中,我们推出了普通版本与高主频版本。而在“Milan”Epyc 7003时代,我们则带来了Milan、Milan高主频以及现在这款搭载堆叠缓存的Milan-X。
去年11月,我们已经就这个问题进行过多番讨论。纵观整个宏观计算发展周期,我们真心相信这就是能代表未来的发展思路,也坚信这正是客户们切实需要的优化点。
所以,如果我们从总体拥有成本和性能的角度审视Milan-X,就能体会到它对客户种种需求——包括电子设计自动化、计算流体动力学、流体动力学等方向——的相应优化。我们相信这只是迈向未来的第一步,AMD的Epyc发展路线图中还有很多成果没有公开。而且至少可以肯定的是,未来3D V-Cache将逐步出现在客户端与服务器领域,通过切实优化为客户带来真正的价值。
记者: 明白了。但面对这样一个处理复合体,3D堆叠设计肯定会引发新问题。毕竟计算核心本身就在放热,而因为V-Cache缓存的I/O密度是普通片上缓存的两倍,所以只要把L3缓存加倍堆叠就能轻松获得三倍容量,这样就能省下更多插槽区域来添加计算核心、加速器或者其他元件。既然思路可行,后续就是制造完善、尽可能压低成本,将理论转化成实际产品。简而言之,单单是堆叠L3缓存就能帮我们在裸片上省下足以容纳20%到30%额外核心的空间。同时,我认为这也代表着一个转折点,简单易行意味着这项技术将很多无处不在。对于那些高度依赖于大缓存的技术工作负载,您可能要继续对L3缓存加倍来进一步提升性能……
Dan McNamara: 理论上讲,你的理解完全正确。这里我再稍微扩展一下。如果着眼于未来五年左右,那我们能做的就不只是在CPU核心上堆叠缓存了。未来的插槽将呈现出全面异构的趋势,因此谁能在封装或者裸片上提供更多异构组件、谁就能占据新时代下的市场主动权。
另外,我觉得你也体会到了其中的重点——CPU复合体的基础层级究竟是什么,又该如何在基础之上适当堆叠。我们与台积电建立了合作伙伴关系,并共同开发出一项混合联结技术、保证晶片表面没有任何微凸。我们也很清楚,这种优势不能只停留在纸面上、必须要投入实际应用。当然,我也不希望这项技术被过度吹捧,我们的OEM和ODM合作伙伴都知道Milan-X其实并不是全方位优越。如果客户需要的是更低的总体拥有成本、运行密度更高的虚拟机,那么普版Milan才是更好的选择。
从发展路线图中也能看到,我们的设计更多关注未来。“Geona”将拥有96个计算核心,以飞跃式的性能提升为企业、公有云及高性能计算等场景提供大量额外算力。而在“Bergamo”中,我们则采取完全不同的视角,其拥有128个核心并针对云原生工作负载进行了优化,能够带来更低的功耗与极好的能源利用率/计算密度。
记者: 我认为当下是个大容量通用计算的时代,只需要略微调整SKU就能设计出批量投放市场的产品。这更多是为了尽可能拉高芯片产量,从同样的设计/制造成本中获取更多利润。但是,未来会不会是小批量、精确调整硬件的时代?到那时,芯片厂商只能根据单一设计制造出几十到一百万块芯片。这意味着企业客户的机房里将同时使用三、四、五、六种不同类型的服务器SKU,而服务器设计层面的这种多样性变化——包括插槽内、插槽间与节点外——会不会成为全球一线企业的新常态?
Dan McNamara: 会的,我说的就是这个兽性。
记者: 那我们再换个话题。与十年之前相比,如今的服务器市场发生了哪些变化?未来五到十年又会出现哪些变化?
Dan McNamara: 我觉得这也是咱们这次对话的核心。未来的主流就是关注各种不同优化点,将正确的优化点跟软件结合起来、共同组成异构计算。看看今天的高端超级计算机,就能发现这类系统完全采取异构设计,囊括了CPU、GPU等多种不同技术。随着时间推移,CPU之外还会出现更多值得关注的优化点。有SmartNIC、有GPU、还有对等连接。优化的范围正从CPU,逐渐延伸到整个计算系统。
记者: 我猜在未来,也许就连服务器这个概念也会逐渐模糊,毕竟现在的分布式计算系统已经在模糊这个概念。也许到那时,组件的组织与编排方式也会跟我们如今熟悉的样子完全不同。
不知道那一天何时才会到来,但我认为大家熟知的服务器——也就是安装在机架上的那些1U、2U或者4U大小的金属盒子——正在消失。我认为新的计算单元可以扩展到PCI-Express、CXL乃至更多领域。也许新的计算单元可以是多机架、整排机架甚至是多排机架的形式,我也说不准。但顺着这个思路去想,未来的服务器将拥有CPU、GPU、FPGA和定制化的ASIC托架,用来容纳专用内存与共享内存,再通过架构体系内的共享闪存托架经由不同层次的互连机制彼此结合、最终接入外部。也许这就是我们现在使用的主板,只是规模更大了。有趣的是,单从计算引擎插槽角度来看,服务器的多样性和复杂性也在爆发式提升。现在的服务器CPU插槽就变得更多样了,对吧?
Dan McNamara: 我觉得你说得没错。业界在分类计算这个问题上已经讨论了很长时间,但一时半会还是克服不了各种各样的内存孤岛与计算孤独。这类问题在目前的云体系中还是存在,所以解决这个问题应该就是下一阶段的探索重点。
记者: 是的,我们现在还是有比较明确的服务器系统,需要在设备里部署服务器主板。而如果之前的构想能够成真,我们也还是需要类似于现今主板这类东西把静态硬件分解成更小的、能够灵活组合的系统,再配合高度复杂的工作负载管理工具保证其始终处于高效运行。这样一个完备的复合体内不该存在闲置组件,所有配置都在云端一刻不停地执行运算,比如分析蛋白质折叠结构……
而我担心的是,这些拼接起来的组件会消耗大量I/O资源,我也想不出有什么好办法能避免这种情况。
Dan McNamara: I/O确实需要关注。对于I/O,目前比较靠谱的思路就是把管理工作移交出去。看看今天的系统、特别是云计算系统:云端就在提供存储容量,我们为什么还要在本地设备上保留存储空间?所以最好的办法就是用SmartNIC加速数据传输、替代传统本地存储。未来这种情况会越来越多,人们不会把宝贵的计算周期浪费在可以移交的工作上。所以问题就变成了:我们该如何简化I/O,以确保延迟与带宽处于最佳状态?
记者: 现在只要走进数据中心,就能随处看到大规模定制设计的痕迹。
Dan McNamara: 因为人们都面对着海量数据,希望搞清楚我们要如何创造更强的智能、获取更好的结果。而这一切都离不开计算资源,所以未来对算力的依赖趋势绝不会止歇。而且,我觉得咱们之前谈的优化方向肯定会变成现实。AMD才刚刚起步,Milan-X就是个很好的例子。我们相信这将是一场巨大的胜利,虽然它并不适合一切使用场景。
记者: 我觉得在第一波浪潮下,3D V-Cache在SKU总体销售量中可能也就占比10%到20%吧,肯定达不到50%。
Dan McNamara: 这个问题太细了,我觉得没必要太较真。当然了,肯定达不到50%。我们要做的就是培训销售团队,保证他们了解3D V-Cache、也知道这项新技术并不适用于所有工作负载。至少现在,他们已经很清楚Milan和Milan-X各自适用于哪些方向了。
记者: 您能不能谈谈AMD打算如何进一步扩大自己的服务器市场份额?我一直期待着AMD能超过市场占比四分之一这个历史性的阈值。
Dan McNamara: 这个我没法谈太多,可以肯定的就是AMD对市场份额一直抱有很高的期待。这一点从2021年和2022年初公布的财务报表就能看到。总之,目前这个阶段我们还不适合讨论这个问题……
记者: 哈哈,确实!您能接受采访就很难得了。
下面是最后一个问题:您有没有考虑过在大规模优化的背景下,AMD未来会推出四插槽和八插槽服务器?
Dan McNamara: 我们还没有公布四插槽或者更大型服务器产品的计划。但我们一直在关注,这也是我们培养自身生态系统的必要工作。我们确实遇到过需要巨大内存容量的客户,其中的代表就是SAP HANA——这绝对是一头内存猛兽,动不动就要求2 PB级别的容量。但AMD目前还没有任何公开的计划。
记者: 是的,这方面需求不算太大,但利润应该还是可观的。着眼未来,也许随着各类SKU势均力敌、用量都占据不了绝对主导的情况下,同时包含CPU、GPU和FPGA的大规模定制化SKU真能得到更多重视呢。毕竟对客户来说,只要总体拥有成本可以接受、运行效果也更好,那么就算使用成本更高的芯片,厂商一边也可以用更高的零售价冲抵这部分成本。这还真是值得期待。
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
研究表明,现有的公开 AI 模型在描述大屠杀历史时过于简单化,无法呈现其复杂性和细微之处。研究人员呼吁各相关机构数字化资料和专业知识,以改善 AI 对这段历史的理解和表述。他们强调需要在 AI 系统中加入更多高质量的数据,同时在审查和信息获取之间寻求平衡。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。