ZDNet至顶网服务器频道 12月18日 新闻消息:售价便宜、占用空间小且能耗低这三大特点威胁到英特尔以及其他品牌服务器制造商的市场统治地位,而实际上最近的市场调研报告结果显示组装 ODM 贴牌系统设备也正在疯狂地攫取市场份额。然而英特尔显然不会再犯那种将移动处理器市场拱手让给 ARM 的悲剧。
但就目前公司的反应来看,虽说英特尔是牢牢把握住数据中心市场,但鉴于云系统设计的需求,这所谓的市场地位也似乎存在一些不确定性。尽管云架构为低端、消费者导向的处理器留下生存空间,但就目前来看,并无预兆显示下一代 ARM 处理器会发生重大变化。
「云」到底有何不同?
基于「云」的硬件是完全虚拟化的,这意味着现如今的处理器能够处理十多种工作负载。同样一群性能稍弱但是效率更高的处理器也能完成同样的工作负载,为何要在服务器里配置高性能的处理器来完成同样的工作负载呢?实际上在「云」系统环境中,工作负载是均匀分布和共享与各种计算和存储节点之间。相较于企业级数据中心而言,云系统看起来更像是一群蚂蚁,而非一群大象。
云系统的集群式设计似乎专为密集排列的低功耗 ARM 处理器量身定做。而英特尔的处理器架构的演化发展进程则是以单层客户端-服务器应用程序的需求为主导,而这类应用往往将工作负载局限在一台服务器上进行,因此最大程度地发挥了处理器多个处理核心多线程的工作性能,相应的性能衡量尺度是性能功耗比(每瓦特能耗能输出多少计算性能)以及性能尺寸比(每立方英寸空间能输出多少计算性能)而非纯粹的最大性能输出。这非常像 RISC 指令集充分利用了当时采用全新优化架构传统处理器的硬件瓶颈,进而成为上世界 90 年代 Unix 设备的主流平台。
鉴于 ARM 处理器更能满足虚拟化工作负载的需求,并且在占用空间、性能效率以及性价比上占据优势,所以说超大规模的云系统为 ARM 处理器打开了一扇机会之门。而基于目前的表现来看,英特尔似乎已经「砰」的一声重重地关上了这扇机会之门。
ARM 的进击:64 位、支持虚拟化功能的服务器芯片
相较于智能手机平台而言,ARM 在数据中心的表现则显得黯淡无光。尽管在服务器领域有所尝试,但既没有得到市场的广泛认可,技术上也未能得到大规模使用,从而导致专注开发 ARM 架构服务器处理器的 Calxeda 公司在去年关门倒闭。当时的产品最大的缺点在于仅支持过时的 32 位指令集并且在硬件上不支持虚拟化技术,从而致使基于 ARM 平台的系统无法运行云软件堆栈或者企业级的虚拟化软件 VMware。
ARM 公司解决了 Cortex A-57 在设计上的局限性并推出了首款针对服务器和嵌入式设备的 64 位 ARM SoC(片上系统)。ARM 服务器芯片制造商 Applied Micro 近期推出 ARM 服务器意味着不久之后我们会看到基于 ARM 平台的系统在服务器工作负载中的实际性能表现。
CERN(欧洲核子研究组织)进行了首次独立的 64 位 ARM 服务器性能基准测试。这次测试将搭载有 8 核 Cortex-A57 SoC 的 Applied Micro X-Gene 主板的系统与两款英特尔系统(分别是搭载传统的 8 核 Xeon 处理器的系统以及搭载多核计算加速协处理器 XeonPhi 的系统)。鉴于 Xeon Phi 是专为高度并行的工作负载而设计的,所以对于数据中心设计者而言,最为有趣的对比结果是 ARM 和 Xeon 的性能表现对比。不出所料,在纯粹的最大化性能输出对比测试中,Xeon 服务器系统把 ARM 服务器系统甩出十几条大街外,但在性能功耗比对比测试中,两个系统的数据非常接近。当然考虑到此次测试中所采用的是现已过时的第一代 E5 Xeon(代号为 Sandy Bridge)的处理器,而非最新的 Haswell Xeon E5-v3,所以从对比测试结果来讲,CERN 有点低估英特尔系统的实际表现。
拿英特尔的旧款 E5 Xeon 处理器来进行测试,虽然在性能功耗比对比测试中,ARM 系统能够取得与英特尔平台接近的数据,但是这样做有失公允。在笔者进行的测试中,通过最后 SPEC 总体性能基准测试可以发现,三款 Xeon 处理器无论是在最大化性能输出还是性能功耗比上,都完胜 ARM。所以英特尔根本无需担心 ARM 的进击。
笔者在测试中所采用的 Xeon 处理器在性能规格上和 CERN 所说采用的 E5 Xeon 基本一致。在最大化性能上,英特尔 Xeon 系统是 ARM 系统的三倍。而在性能功耗比对比测试中,差距有所缩小,但 ARM 系统也仅有 Sandy Bridge Xeon 的 10% 不到。鉴于 Haswell v3 性能更为强劲且效率更高,在计算效率对比测试中,ARM 系统也仅有英特尔 Xeon 系统的 65%。详情请参看下图
英特尔-ARM 服服务器平台性能对比测试(分别拿 Xeon E5、Xeon E5 v2 以及 Xeon E5 v3 与 ARM64 位处理器 Cortex-A57 进行对比,对比的内容有 CMS 内容管理系统的性能和效率)
英特尔仍然统治云系统平台
首款 64 位 ARM 服务器处理器的推出仅仅是意味着与英特尔在数据中心服务器领域同台竞争成为可能。这仅仅意味着全新的密集处理器分布设计产品发展战略的诞生,这种设计思路能和单一集中处理器设计一样都能带来性能的稳定提升。单一的 CERN 的测试并不能说明什么,基于云架构的数据中心依旧会寻求英特尔 Haswell 架构的 Xeons 处理器,绝对的最大性能输出,良好的性能功耗比表现以及久经时间考研的 x86 指令集才是王道。
对于那些寻求最大化密集架构设计的云系统设计人员而言,用于 VMware EVO:RAIL 的超大规模 2U 四节点服务器 x86 服务器才是上乘之选。
好文章,需要你的鼓励
亚马逊云服务宣布雷尼尔项目正式投入运营,该AI超级集群配备近50万块Trainium2芯片,分布在多个数据中心。AWS称这是全球最大的AI计算集群之一,从宣布到全面运营仅用不到一年时间。合作伙伴Anthropic计划年底前扩展到超过100万块芯片。该项目与OpenAI星门计划展开激烈竞争,AWS凭借自主硬件开发优势能够控制从芯片到数据中心的完整技术栈。
约翰斯·霍普金斯大学研究团队提出了创新的隐私保护AI文本生成方法,通过"控制代码"系统指导AI生成虚假敏感信息来替代真实数据。该方法采用"藏身于众"策略,在医疗法律等敏感领域测试中实现了接近零的隐私泄露率,同时保持了高质量的文本生成效果,为高风险领域的AI应用提供了实用的隐私保护解决方案。
谷歌开始推出Fitbit应用的重大更新,采用全新设计并集成由Gemini AI驱动的个人教练功能。该更新于10月28日首先面向美国地区的Fitbit Premium用户开放,后续将逐步扩大覆盖范围。新版本围绕今日、健身、睡眠和健康四个主要标签重新设计,强调周趋势数据分析。AI教练功能可根据用户的实时和历史数据提供个性化建议和训练计划,支持语音或文字交互。用户可选择是否使用AI功能,预览期间可在新旧界面间切换。
这项由Reactive AI提出的稀疏查询注意力机制通过减少查询头数量而非键值头数量,直接降低了注意力层的计算复杂度,实现了2-3倍的训练和编码加速。该方法在长序列处理中表现出色,在20万词汇序列上达到3.5倍加速,且模型质量损失微乎其微,为计算密集型AI应用提供了新的优化路径。