ZDNet至顶网服务器频道 06月24日 编译:AMD已经公布了一项野心勃勃的目标,即到2020年使其APU——也就是该公司打造的加速处理单元,包括集成在CPU、GPU、视频加速乃至其它任何类似芯片之上的方案——在能源效率方面实现25倍的改进。
尽管AMD方面一直致力于这项目标的实现,但其达成难度堪称一座难以逾越的高峰。能源效率的提升已经不可能再像过去那样随着产品换代而自动实现,因为依靠缩小芯片尺寸来获得能效改善的道路已经走到了尽头。
“能源效率的正常提升态势已经开始衰退,单靠物理层面的换代已经无法支撑进一步优化,”AMD公司研究员Sam Naffziger在上周五接受采访时解释道。“我们已经在某些方面将晶体管尺寸压缩至最低,而电压也稳定在1伏左右。”
在1974年发布的一篇堪称里程碑的论文当中,Robert Dennard为处理规模划定了指导方针,但这一切如今已经无以为继,Naffziger指出。“根据Dennard给出的思路,在理想状况下我们可以在三维空间内实现设备规模缩减并借此实现高达四倍的能源效率提升,没错,这就是最后一招王牌。我们仍然能够进一步改善能源效率——每代产品也许提升30%、也许提升50%,这当然已经非常出色,不过如此幅度已经没办法跟当初相提并论了。”
换句话来说,当谈到能源效率改进时,仅仅缩小芯片的制程工艺已经无法满足现实世界对于提升幅度的渴求了。信息与通信技术产业的要求越来越高,芯片制造商可以选择的方案却几尽枯竭。
这种渴求已经达到近乎贪婪的程度。根据斯坦福大学Jonathan Koomey得出的研究结果,信息与通信技术所需要的能源总量正快速增长。随着联网设备数量的爆炸式膨胀与互联网用户规模的持续攀升,数字化内容的消耗量也以惊人之势迅猛扩张,这就要求我们拥有足够的数据中心对其加以处理——到2020年,数据中心消耗的电力将占全球总体电力产出的14%,而这一数字大约占到全球碳排放能源总量的2%左右。
“我们的目标是,”Naffziger指出“通过智能化能源管理以及贯穿整个架构与软件体系的优化手段降低能源消耗的整体增长速度,从而抵消芯片能源利用效率与过去相比所出现的增幅下滑。”
顺带一提,在谈到能源效率的时候,Naffziger指的是由美国环境保护总署创建的能源之星志愿计划所规定的“典型使用”效率。“能源之星设立的规范为其下达了准确的定义——能源效率是指在典型使用情况下、由能源消耗计算出的设备能耗状态加权总值,”他解释道。“我们目前的工作正是对于这类典型使用场景进行性能优化。”
根据Naffziger的说法,AMD在过去六年当中已经将典型使用情况下的能源效率提升了约10倍——是指从2008年的“Puma”到2014年的“Kaveri”芯片,二者针对的都是笔记本设备。
AMD在过去六年中已经取得了令人瞩目的进展,而现在他们计划将能源效率优化节奏提高一倍
这样的成绩还不错,但仍然无法令其满意,Naffziger坦言。芯片尺寸压缩所带来的效率改善一直遵循但却落后于Dennard所提出的准则,他表示,在理想情况下效率提升幅度应该达到14倍。
“我们需要取得效果更好、更进一步的科研成果,”他指出,而AMD也确实制定了一套关于如何在本个十年结束之前达成25倍能效提升成果的详尽路线图——该公司把这个项目命名为“25 X 20”。
目前AMD及其它芯片厂商确实已经在这一领域取得了一定程度的良好成果。能源管理在最近几年中变得更为智能且更加细化,而就趋势来看在同一块处理器上纳入更多计算核心与其它组件也确实能够减少多路跨越传输所带来的能源空耗。
在此基础上,AMD还积极在其产品线当中引入 了异构式系统架构(简称HSA)。通过异构式统一内存访问(简称hUMA)与异构式队列(简称hQ)机制,CPU与GPU核心能够共同使用同一套系统内存。由于CPU无需再额外为GPU提供所要处理的数据,因此这种方案在执行效率上提升明显——GPU会以智能化方式自行提取数据内容。除此之外,利用GPU作为计算核心的APU还能在某些合适的处理任务中为CPU分担工作负载,从而大大降低后者的运转强度。
现在真正的工作才刚刚开始
但还将有更多计划相继出现,Naffziger告诉我们。举例来说,尽管内置在芯片当中的能源管理机制在过去几年中正变得愈发智能,但其中仍然存在着尚有潜力可挖的效率提升可能。
就目前来看,AMD APU拥有三大主要电压输送平台——各个区域通过自己的电力来源获得必要的运作动力。电压平台越多,控制手段也就更细化,对能耗的控制自然越具体。
举例来说,Naffziger表示,GPU与北桥芯片——也就是内存接口——共享同一套电压平台。“在大多数情况下,GPU其实根本无事可做,”他指出。“但北桥芯片却始终需要为CPU提供数据,因此系统就得为二者的电压平台准备充足的能源。”
GPU由芯片上的开关机制控制其能源供给,他解释道,但这套开关机制“并不完美——它们切实生效的情况仅占约10%——而且在很多情况下我们压根无法使用这种能源供给控制功能。”解决方案是:将GPU、北桥芯片、CPU、缓存以及其它各类组件分别指派给彼此独立的电压平台。控制手段越多,能源效率自然也就越高,因为芯片上的每一部分都将能够恰如其分地获得不多不少的能源供给。
“就目前来看,这项工作可以说是看起来容易做起来难,”Naffziger表示。芯片的智能化演变需要以透彻掌握具体处理实例所需要的精确能源供给为前提——虽然困难重重,但将芯片细分为多个电压平台已经是解决问题的良好开端。
“一旦我们对电压平台进行细分,”他解释道,“接下来就可以实现对每一种平台的具体优化——我们将在这里使用大量自适应技术。我们已经部署过其中一部分,但大多数实现这类实时自适应效果的必要技术尚处于开发过程中。”
正如我们在本月早些时候对AMD的Kaveri芯片进行剖析时所解释,该芯片模板当中排列有数千个监控单元,有些用于追踪芯片温度、还有一大部分在时刻关注处理活动与能源使用情况。来自这些监控单元的信息将被用于强化、削弱、关闭或者保持某些模块元素,其目的只有一个——保持芯片始终拥有最为高效的执行状态。
尽管这听起来非常简单,但利用这些监测数据来实时进行芯片调整、进而实现运行状态优化实际上非常困难。举个例子,尽管温度传感器所提供的有价值反馈能够被用于调节功率,但另有一个内置的热延迟温度传感装置,而这种延迟状况无法被纳入单纯报告活动或者当前功耗情况的监控单元的考量范围。
为了解决这一沟通难题,Naffziger表示,目前的方案之一在于利用与功耗及执行活动相关的数据预先为即将到来的温度变更作好准备——举例来说,提高风扇转速或者将处理任务由即将发热的计算核心转移到另一个温度较低、能够充分利用的核心。
“这还只是我们早期创新工作阶段中的一个例子,”他指出。“还有很多机会允许我们以实时方式处理这类调整任务。”
Neffziger还谈到了“争取闲置”这一概念——这并不是什么新鲜思路,但却能切实通过在短时间内提高功率来获得更高的处理性能,从而在短时间内完成任务运算、并在随后的时间内持续保持闲置状态。很明显,这样的作法要比让核心拖拖拉拉慢慢处理计算任务更能节约能源。
作为例子,他提到了“帧间能源选通”方案,也就是说对某一视频帧进行快速渲染、然后在下一帧到来之前让渲染器保持关闭并将内存调整至低功耗甚至是休眠状态。这听起来似乎是种反直觉的处理方式,毕竟视频帧对于我们来说似乎更像是一种连续的处理过程——但从处理器的角度看,根据帧率的不同、整个处理过程肯定是分段进行的。
“两帧之间的时间间隔是33毫秒,”他解释称,“但大家可以将其扩大到一整天来理解。如果对单一视频帧的渲染需要5到10毫秒时间,那么余下的20多毫秒完全可以用于休息、恢复精力。”
听起来可能有点怪异,但通过这种方式、大家确实能够感受到总功耗的显著降低
更重要的是,不同的视频在处理时需要的性能也不尽相同,因此并不是每帧内容都要花费同样的渲染时长。APU的视频硬件有能力完成要求最为苛刻的处理任务,因此它可以说是一套过度配置的方案,Nafziger告诉我们。对于大多数视频来说,根本用不到芯片的全部处理能力,因此在每帧之间进行休眠能够节约大量能源。
每一项优化机制都需要软件与硬件团队之间的紧密配合,而且研发过程也很可能极为缓慢。“大家可能会惊讶于这项工作需要花费的时间。我们首先需要推出原型方案,然后处理其中存在的漏洞。一般来讲,其开发周期长达三年,”他表示。
“如果我们不彻底完成这项耗时多年的知识产权内容的开发工作,公司绝不会冒然公布那些令人难以置信的能源效率提升目标,”这位“信心满满”的技术人员这样评论AMD放出的六年能效提升25倍这一远景方案,甚至甘于承受芯片本身可榨取空间已经越来越少的风险。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。