扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:John McCalpin、Chuck Moore、Phil Hester 来源:AMD 2007年7月3日
关键字:
在本页阅读全文(共5页)
3. 当前和短期问题
3.1. 功耗问题
功耗与性能一样,比我们最初假设的情况更加多元化。在基于高性能微处理器的系统环境中,“功耗问题”包括:
由此可以看出,功耗问题实际上至少与5、6个相互关联而性质截然不同的技术和经济问题有关。
3.2. 吞吐量Vs.功耗/核心Vs.核心数量
针对以同样的功耗水平提高性能这一问题,我们着重讨论一下如何使用越来越多的核心提供更高的吞吐量。
如果参数保持不变,功耗通常以 CPU 时钟频率的平方或立方倍率增长。但是,性能的增长速度是低于频率的线性增长速度的。对于能够利用多线程的工作负载来说,多核心能够显著提高每瓦吞吐量。但是,正如之前所见,这种吞吐量的增长除了等待光刻工艺的提高,使我们能够在一个芯片上放置更多核心之外,我们还可以创建更小的 CPU核心,使其外形更小巧,效能更高。就在前不久这种技术还很少见(除了 Sun T1 处理器芯片),这是因为我们假设单线程性能太重要了,不能牺牲它。
我们将在“长期预测”章节继续讨论这一问题,但是,之前描述的性能模型的直接应用说明,只要 CPU 内核功耗下降的速度大于峰值吞吐量的速度,则通过无限数量的极小快速核心,即可获得最佳吞吐量。显而易见,这种系统的单线程性能将非常低,从而直接影响对单一指标值的优化。为了解决这一问题,一种方法是可以定义一个可接受的最低单线程性能,然后对芯片进行优化,在面积和大功耗的限制条件下,尽可能加入更多的核心。
还有一种方法是将核心数量限制到一个合理的数量。在此处使用的单一吞吐量模型中,我们忽略了通信与同步这一因素。若用户希望在单一的并行/线程应用中使用更多的核心,将需要某种通信/同步,而且对于固定工作负载,还必须要保证通信/同步的开销将随着作业中使用的 CPU 核心数量而单向增长。
由此产生了对 Amdahl 定律的简单修改:
其中,T 为解决问题所需的总时间,Ts 是完成串行(非重叠性)工作所需的时间,Tp 是完成所有可并行工作所需的时间,N 是并行工作使用的处理器数量,To 是结合实施该应用所需的通信与同步,每个处理器的开销。最后这一条件说明,随着处理器的增多,开销也将提高,而这是传统的 Amdahl 定律公式中所没有的。
在标准模型(没有开销)中,解决问题所需的总时间随着 N 函数单调递减,逐渐接近 Ts。在修改后的公式中,可以明显看出,随着 N 的增加,由于出现通信开销,解决问题所需的总时间将开始增加。在上述的简单示例中,可以根据以下公式定义完全并行的应用 (Ts=0) 所需处理器的最优数量:
由此,举例来说,若 To 是 Tp 的 1%,则可以使用 10 个处理器获得最大性能。是否将此作为一个重要设计点,将取决于其他性能与性能价格比指标的相对重要性。
3.3. 市场问题
即将推出的多核芯片与 RISC SMP极其相似 —— 在过去的 10 年中,RISC SMP 市场的硬件收入超过 2400 亿美元。
与 1990 年代中期的 RISC SMP 一样,这些多核心处理器具备易于使用、内置缓存、共享内存的特性,不同的是,多核心处理器是在单一芯片中实现这些特性。
1995 年前后,SGI POWER Challenge 是中端市场中最畅销的 HPC 服务器 —— 笔者之一(McCalpin)当年就曾花费近 40 万美元购买了一个配备 8 个 CPU 的系统。在 1996 到 1997 年,CPU 主频为 90 MHz (11 ns),主内存延迟接近 1000 ns,或 90 个时钟周期。2007 年,四核 AMD 处理器的频率超过 2 GHz (0.5 ns),主内存延迟约为 55 ns,或者 110 个时钟周期。这些比例都惊人的相似。
SGI要在Power Challenge上提供充足的内存带宽是一项艰巨的“挑战”(这里的双关令人遗憾)。一个配备 8 个 CPU 的SGI POWER Challenge 的最高浮点性能为 2.88 GFLOPS,最高内存带宽达到 1.2 GB/s,约为 0.42 字节/FLOP。而AMD即将推出四核Barcelona处理器的最高浮点性能约为 32 GFLOPS、最高内存带宽达到约 12.8 GB/s,也是大约 0.4 字节/FLOP的比例。
到1996 年,UNIX 服务器市场的硬件收入超过 220 亿美元,而到 2000 年,该收入提高到近 330 亿美元。之后,该市场一直在萎缩,2006 年,已下滑至 180 亿美元左右。
以下 3 个因素共同导致了市场萎缩:
对这三个因素的详细分析也很耐人寻味。
3.3.1. 打破系统平衡
如上所述,最初,RISC SMP 主内存延迟在 100 个CPU时钟范围内,带宽范围接近 0.4 字节/FLOP。该延迟在很大程度上不受 CPU 数量的限制,同时,可以通过配置不同数量的处理器,调整每个处理器的带宽。
在应用领域和每个处理器带宽间,始终存在着明确的系统相关性,即“缓存友好”型应用领域采用满处理器负荷装入SMP,而“高带宽”领域配置更少的处理器或坚持使用单处理器系统。
到 2000 年,RISC SMP 中的主内存延迟已经降低了三分之一,而同时CPU 频率也已经提高了 3 到 6 倍。随着单一系统总线转变为多种NUMA结构,每个处理器的带宽也变得更为复杂。
3.3.2. 价格趋势
1990年代后期,服务器厂商获得了长足的进步,能够使在1990年代初极为成功的系统保持令人满意的系统平衡属性。虽然这获得了高度成功,但是却在经济方面代价不菲。其两大成本来源是:要为这些系统提供片外 SRAM 缓存和监听系统总线,以便实现缓存一致性。对于这些系统来说,大量片外 SRAM 缓存对于这些系统忍受相对较高的内存延迟,并降低对于共享地址和数据总线的带宽需求至关重要。当英特尔停止使用标准的片外 SRAM 缓存时,整个市场停滞不前,而 SRAM 的性价比也无法追随其他电子组件的下降趋势。2000 年,一个大容量片外SRAM缓存的成本要比处理器的成本高好几倍。
但是,对于小型 SMP 来说,减少共享内存和地址总线也就意味着缩短延迟并提高每个处理器的带宽,从而可以使用更小的片外SRAM缓存。随着小RISC SMP与大RISC SMP间的价格/处理器差距进一步拉大,客户也日益转向采用小SMP集群取代大SMP。
3.3.3. “杀手级”微处理器
到 2000 年初,日益商品化、高产量的x86架构的服务器与基于专用 RISC 架构的服务器相比,已具有绝对的性能优势,且高产量服务器能够提供更优越的性价比。转向小型RISC SMP 的趋势使得向小型x86 SMP 的迁移也更为简单。
2003 年,随着基于 AMD64 架构处理器的推出,提供了更高的性能和真64 位寻址能力及整数算法,这一趋势获得了极大的发展动力。英特尔紧随AMD之后推出了 EM64T 架构,从而在几年内,导致了一次声势浩大的将绝大多数 x86 服务器业务从 32 位迁移至 64 位硬件的无缝迁移。
这些趋势并不能说明客户对 SMP 缺乏兴趣。他们确实有兴趣,但是,这些趋势可以说明,众多客户都对大型 SMP 系统所提供功能的价格较为敏感。由于价格差异巨大,市场自然会找到如何使用价格更便宜硬件的途径。
正如RISC SMP市场最终产生了大量进行并行处理编码的ISV(在企业与技术计算方面)一样,多核心x86处理器也将推动更多大型软件的并行化,并显著降低目前小型服务器的价格。
与1990年代的 RISC SMP 市场不同,如今的多核心处理器不会依赖于片外 SRAM 缓存,可对其进行配置以避免产生成本高昂的芯片到芯片的相干性流量(可以通过监听过滤器,也可以简单地使用单芯片服务器,例如Sun T1/Niagara)。也许除了移动/低功耗设备之外,没有任何一个通用CPU的竞争者能够明确地以更低的价格提供更高的 x86 性能。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者