ZD至顶网服务器频道 11月15日 新闻消息(文/刘新萍): 在中国越来越多的企业在SPEC测试,或者用以指导服务器的集采,或者用以对应用系统整体性能进行优化和改进。中国移动就是SPEC测试基准的一家重量级用户。目前SPECcpu和SPECpower两个测试基础都在中国移动得以采用。而在未来,随着电信专用设备IT化(比如NFV),通用X86服务器的应用将越来越广泛。而无论是下对服务器本身的性能测试,还是它到底是否能替代所有目前电信专用设备,都需要借助SPEC基准进行评估。因此,未来中国移动将增加SPEC测试的频度和强度。
在日前举行SPEC2016亚洲峰会上,中国移动研究院测试技术研究所经理鲁江山现场发表了《服务器测试的三点思考》的主题演讲。会后鲁江山接受了ZD至顶网记者的独家专访,对SPEC测试基准在中国移动的应用情况以及其当前面临的挑战进行了介绍。
主持人:大家好,这里是SPEC2016亚洲峰会ZD至顶网视频采访间,我们请到了中国移动研究院测试技术研究所经理鲁江华,鲁经理跟大家打个招呼吧。
鲁江华:大家好,我是来自中国移动研究院的鲁江华,主要从事IT设备性能测试相关的技术研究和项目实施的工作。
主持人:鲁经理,您也知道现在各类的业务和新技术层出不穷不断涌现,您作为中国移动研究院的测试部门,能够给这些程序员们分享一下平时是怎么测试这些服务器的吗?
鲁江华:首先如我上午演讲,我们作为一个企业相当于对服务器的一个用户来说,测试分两个需求角度来说,第一个内容主要进行采购之前的集采项目测试,这种测试情况下我们更关注的是在公平情况下采用统一的工具来完成各厂家产品之间的横向对比,来为我们的采购提供技术评比依据。还有一方面的内容,如果我采购之后对产品对线网业务在上线之前这种情况下,我会针对业务的应用情况,对服务器进行测试,这相当于另外一个内容的测试,一方面更关注的是解决本身业务承载问题,分两个需求目的来,这两个方面,两个目的的工作都有参与也都有实施,也就是说在集采过程中我们更关注的是公平横向,可能用到更多的像SPEC组织提供的标准模型测试。当然也有针对我们的业务特殊需求的测试,刚才讲的第二种测试情况下可能更关注的是我们实际要上线的业务本身的测试情况。
主持人:听起来这个过程蛮复杂的,我们也知道SPEC是一个国际标准化的评估组织,它专门评估这些最新的高性能计算,中国移动研究所之前用过SPEC哪些软件?您最关注这些SPEC的哪些测试指标呢?
鲁江华:我上午演讲有提到我们用过的两个SPEC工具,其中第一个可能用到SPEC CPU2006,当然我们除了使用工具之外也在引用SPEC组织所公布的测试结果,已经完成的结果,当然我也是提到过我们选择了50%参考的比例。
另外我还提到在能耗方面的测试,我认为SPEC Power是目前最好的一款做能耗测试的工具,我们在其中也用了这个工具,这个结果也用在我们招标采购的评比当中,这两个工具也挺好。最关注的指标及目前重点我们在转向能耗方面,在近两年我们是投入比较大的,对SPEC Power的应用同样也很大。
主持人:在使用这些软件的过程当中,您有没有一些反馈,觉得他们应该加强哪方面的测试方法和工作?
鲁江华:SPEC Power的测试我们其实除了能耗还关注服务器的散热,以及相关的情况。我当时说把集成了功率测试仪,能不能再集成一些热传感器,甚至热成像的这种仪器,能够在测能耗的同时也能够把它的整个散热系统反映出来,这也是我觉得从实际项目实施中有一点需求。
主持人:散热确实是所有高性能计算需要去考量的很重要问题,具体到云计算您给大家说一下对它的评估测试有什么看法吗?应该重视或者是加强哪一方面的工作?
鲁江华:云计算的系统评估,这个内容我们其实也正在做一个自行工具的研究,因为现在在集采设施中我们可能更多是关注设备本身,一台设备,或者少量设备之间配合,可能云计算对我们的要求是,除了对单台设备的测试之外,可能一堆设备在云计算场景下好多设备并行的测试场景,也是我们需要考量的。可能涉及到测试成本的增加,但是实际上像我昨天也看到网上有IT之家发的一个帖子,就是他从阿里云迁到百度云这个情况,昨天在IT行业是比较火的一个帖子,他讲了整个在阿里云提供的服务造成的宕机和各种情况,包括他从10月份开始做百度云的测试情况,最终他们是从阿里云转到了百度云。
这个事其实影响很大,我自己触动也很大,也就是说在现在云测试服务提供这么多,包括阿里云应该是目前业界很成熟的,但是也会有这种情况的发生,也就是说以后测试我也希望我们加入更多的云测试,不仅仅关注单台的设备,整个在基于服务器之上构建的云,包括它的硬件设备、软件系统,整个包括SDN方面做整体的测试,也能对实际应用产生指导作用。
主持人:除了这些云测试,您站在研究院的角度来去看,未来能不能预测一下还有哪些新业务新挑战?
鲁江华:从电信行业的角度来讲,我们电信行业以前大部分设备都是基于电信研究的,可能提供商都是亿信这样的产品。随着近几年很多业务,包括很多电信级的一些处理都转向IT化,也就是用我们通用的X86服务器来做处理,这种情况下可能包括从我们对X86的需求在逐年基本上是成倍去增加,X86服务器的需求上,这种情况下对服务器本身的性能测试,包括它用来替代所有目前我们电信专用的这种设备的情况下,我们要进行考量。
因为之前的电信标准我们都知道包括之前的ATC的标准,这是电信级的一个标准,基础也是X86的芯片,但是它的电信级要求是相当于99.999%甚至更高,转向X86的服务器和加软件的方式来处理之后,首先它的稳定和可靠我们是一个考量的方面。另外,在这个基础之上包括之后所要构建的,我们所需要的SDN,包括NFV一些内容,都需要建在这个上面。所以说之后可能业界提供X86服务器的门槛越来越低,也就是说作为一个前端OEM厂商大家芯片可能是一样的,主板大家可能都采用同样的机板,包括代工甚至选择相同代工厂,这之间的差别在哪是我们需要仔细去研究的,因为这个可能影响到我们整个电信一些系统的稳定性。
主持人:我们今天就到这。
鲁江华:谢谢。
主持人:今天鲁经理的分享也确实是干货满满,不知道程序员们有没有get到一些新技能呢,我们也非常希望鲁经理在接下来的SPEC峰会上有所收获,谢谢。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。