英特尔声称,旗下的Skylake服务器处理器比上代Broadwell芯片的性能提升了65%。据悉,新的至强可扩展(Xeon Scalable)系列顶级版本的性能超越了AMD最近发布的Epyc CPU(中央处理器),但其I/O则不如Epyc CPU的充足。
结果表明,英特尔在数据中心方面仍保持统治地位,并无任何威胁。不过,预计AMD的Epyc和新兴的高通基于ARM服务器芯片及其他产品亦将在广泛而多样化的云计算领域中占据一席之地。
Skylake白金8180和8160版本在性能/瓦特比(Performance/watt)上与AMD的Epyc 7601比提升了2%至28%,而使用Specint_rate2006基准的话,其性能/瓦特比则增加了12%至22%。这些结果极有可能因为英特尔倾向于使用优化过的编译器进行基准测试而不是针对AMD的标准使用做的测试而受到影响。
Skylak高端8100系列内置高达3.6 GHz的28个内核、高达48个PCIe 3.0道和6个DDR4-2666内存通道。而相比之下,AMD高端Epyc最多包含32个内核,系列里全部9个产品均支持128个PCI Express 3.0道和8个DDR4-2666通道。
英特尔与二十四家公司一起做了测试,测试的工作负载各不相同。其中的一个结果是Skylake击败Broadwell芯片,比率为1.4,用了Ansys制造的软件,而另一个结果的比率为2.2,应用程序用了Skylake及英特尔专有Optane固态内存驱动器。
市场观察公司Insight64(位于加州Saratoga)负责人内森·布鲁克伍德(Nathan Brookwood)表示,“令人印象深刻的是,与Broadwell比较的结果远远优于典型的各代产品,特别是考虑到二者都是14纳米产品。
Skylake超越AMD的Epyc,不过英特尔的优化编译器可能对结果有影响。
布鲁克伍德说表示,“AMD曾拥有皓龙(Opteron)产品的绝对优势,占了25%的服务器市场,但我认为Epyc不会比Skylake好很多。”
AMD上个月发布了Epyc的一系列基准结果,性能上平均超Broadwell 约45%。但服务器领域含各种市场和需要,在许多地方英特尔有优势,而在有些地方AMD可能更优。
例如,AMD希望利用其PCIe和DDR4的优势以单插槽Epyc服务器取代双插槽Broadwell服务器。不过,Skylake新的AVX-512矢量处理扩展在浮点密集型工作上则远超Epyc的功能。
在架构上,Skylake使用的是分立I / O芯片单处理器模。而Epyc套件内置了含I / O的四个模,在有些操作中牺牲延迟以换取AMD更大的灵活性和更低的成本。
英特尔出货的Skylake芯片已超过50万,芯片在阿里巴巴、亚马逊、AT& T和Google的数据中心运行。30多个客户在使用英特尔Skylake芯片,包括名列全球速度排名榜13位的巴塞罗超级计算机系统。
Skylake的网状芯片网络取代了Broadwell的双环网络。
Skylake的上佳性能来自各种稳步的创新,包括微架构升级和指令集扩展。Skylake芯片采用网状网络芯片,英特尔称,与环形总线比,网状网络芯片可提供比更高的带宽和更稳定的低延迟。
AVX-512与 Broadwell上的AVX2比,其单精度和双精度性能分别提高了64 flops /周期和32 flops /周期。AVX-512在做到这些的同时仍保持与英特尔过去的芯片相同的功率水平并降低了对频率的要求。
英特尔表示,这些扩展可支持高达每内核、每周期85.33个INT8和64个FP32操作,进而提高了机器学习训练和推理运算的性能,英特尔还表示,Skylake在整数通用矩阵乘法任务可提供优于Broadwell 3.4倍的优势。
英特尔做的不是扩展缓存,而是改进缓存方法。因此,这些芯片用的内存稍微少一些,但却针对数据中心做过更好的优化。
Skylake配套I / O芯片名为Lewisburg,支持四个10G以太网端口,而Broadwell I/O芯片仅支持单GE端口。Lewisburg也是第一款整合了加密和压缩功能的产品,英特尔称其加密和压缩功能为快速辅助(Quick Assis)技术。
英特尔还提升了处理器总线的性能,处理器总线现在叫超路径互连(Ultra Path Interconnect),其速度由9.6 GTransfers /秒增加到10.4 GTransfers /秒。超路径互连链接里的三个置于高端芯片上。
AVX-512的浮点运算性能翻番,同时功耗和频率保持不变。
至强可扩展系列产品由50个版本组成,用的是英特尔14纳米工艺的各种变种。价格各不相同, 8插槽版标价近9000美元,而入门级部件的价格为约400美元。
该系列产品的功耗范围为70瓦到205瓦。低端青铜3100系列最多可以使用8个1.7 GHz 的内核,该系列支持DDR4-2133,但不支持双线程。
一些新设备将英特尔的Omnipath互连与高性能计算处理器放在同一个套件里。英特尔正在打造将FPGA置于套件里的样本,但其产品要到明年年初才可以发货。
要想在Skylake近50个版本(下图)找到用户使用的版本可能需要英特尔提供的产品名称解码环(上图)。
好文章,需要你的鼓励
这篇研究揭示了大语言模型强化学习中的"熵崩塌"现象——模型在训练早期迅速失去探索能力,导致性能达到可预测的上限。研究者发现验证性能和策略熵之间存在精确的数学关系:R = -a·exp(H) + b,并深入分析了熵变化的内在机制。基于这些发现,他们提出了两种简单有效的方法(Clip-Cov和KL-Cov)来缓解熵崩塌问题,显著提升了模型性能,特别是在困难任务上。这项研究为大模型强化学习的规模化应用提供了关键指导。
Skywork OR1是昆仑公司AI团队开发的开源推理大模型,通过创新的强化学习方法显著增强了语言模型的推理能力。该研究基于DeepSeek-R1-Distill模型系列,采用名为MAGIC的训练方法,在AIME24、AIME25和LiveCodeBench三大基准测试中实现了显著性能提升,32B模型平均准确率提高15.0%,7B模型提高13.9%。研究团队通过系统研究策略熵崩塌现象,提出了有效的缓解策略,并开源了全部代码、数据和模型权重,为AI社区提供了宝贵资源。
上海交通大学研究团队发现多模态大语言模型中的"啊哈时刻"(自我反思模式)虽存在但并不意味着推理能力提升。他们提出了"冷启动强化学习"两阶段方法:先用监督微调建立推理模式,再通过强化学习优化。实验表明,这种方法在多个多模态数学推理基准上表现卓越,使3B参数模型达到接近甚至超越部分7B模型的性能,为增强多模态AI推理能力提供了有效路径。
MBZUAI研究团队开发的SVRPBench是首个模拟真实物流环境的随机车辆路径问题基准测试平台。它通过建模时间依赖的交通拥堵、概率性延误和客户特定时间窗口,为500多个包含最多1000客户的测试实例注入真实世界的不确定性。实验结果显示,先进的强化学习算法在分布变化时性能下降超过20%,而传统方法表现更为稳健。该开源平台通过GitHub和Hugging Face发布,旨在推动更适应现实世界不确定性的路由算法研究。