ZD至顶网服务器频道 11月15日 新闻消息(文/刘新萍): 在中国越来越多的企业在SPEC测试,或者用以指导服务器的集采,或者用以对应用系统整体性能进行优化和改进。中国移动就是SPEC测试基准的一家重量级用户。目前SPECcpu和SPECpower两个测试基础都在中国移动得以采用。而在未来,随着电信专用设备IT化(比如NFV),通用X86服务器的应用将越来越广泛。而无论是下对服务器本身的性能测试,还是它到底是否能替代所有目前电信专用设备,都需要借助SPEC基准进行评估。因此,未来中国移动将增加SPEC测试的频度和强度。
在日前举行SPEC2016亚洲峰会上,中国移动研究院测试技术研究所经理鲁江山现场发表了《服务器测试的三点思考》的主题演讲。会后鲁江山接受了ZD至顶网记者的独家专访,对SPEC测试基准在中国移动的应用情况以及其当前面临的挑战进行了介绍。
主持人:大家好,这里是SPEC2016亚洲峰会ZD至顶网视频采访间,我们请到了中国移动研究院测试技术研究所经理鲁江华,鲁经理跟大家打个招呼吧。
鲁江华:大家好,我是来自中国移动研究院的鲁江华,主要从事IT设备性能测试相关的技术研究和项目实施的工作。
主持人:鲁经理,您也知道现在各类的业务和新技术层出不穷不断涌现,您作为中国移动研究院的测试部门,能够给这些程序员们分享一下平时是怎么测试这些服务器的吗?
鲁江华:首先如我上午演讲,我们作为一个企业相当于对服务器的一个用户来说,测试分两个需求角度来说,第一个内容主要进行采购之前的集采项目测试,这种测试情况下我们更关注的是在公平情况下采用统一的工具来完成各厂家产品之间的横向对比,来为我们的采购提供技术评比依据。还有一方面的内容,如果我采购之后对产品对线网业务在上线之前这种情况下,我会针对业务的应用情况,对服务器进行测试,这相当于另外一个内容的测试,一方面更关注的是解决本身业务承载问题,分两个需求目的来,这两个方面,两个目的的工作都有参与也都有实施,也就是说在集采过程中我们更关注的是公平横向,可能用到更多的像SPEC组织提供的标准模型测试。当然也有针对我们的业务特殊需求的测试,刚才讲的第二种测试情况下可能更关注的是我们实际要上线的业务本身的测试情况。
主持人:听起来这个过程蛮复杂的,我们也知道SPEC是一个国际标准化的评估组织,它专门评估这些最新的高性能计算,中国移动研究所之前用过SPEC哪些软件?您最关注这些SPEC的哪些测试指标呢?
鲁江华:我上午演讲有提到我们用过的两个SPEC工具,其中第一个可能用到SPEC CPU2006,当然我们除了使用工具之外也在引用SPEC组织所公布的测试结果,已经完成的结果,当然我也是提到过我们选择了50%参考的比例。
另外我还提到在能耗方面的测试,我认为SPEC Power是目前最好的一款做能耗测试的工具,我们在其中也用了这个工具,这个结果也用在我们招标采购的评比当中,这两个工具也挺好。最关注的指标及目前重点我们在转向能耗方面,在近两年我们是投入比较大的,对SPEC Power的应用同样也很大。
主持人:在使用这些软件的过程当中,您有没有一些反馈,觉得他们应该加强哪方面的测试方法和工作?
鲁江华:SPEC Power的测试我们其实除了能耗还关注服务器的散热,以及相关的情况。我当时说把集成了功率测试仪,能不能再集成一些热传感器,甚至热成像的这种仪器,能够在测能耗的同时也能够把它的整个散热系统反映出来,这也是我觉得从实际项目实施中有一点需求。
主持人:散热确实是所有高性能计算需要去考量的很重要问题,具体到云计算您给大家说一下对它的评估测试有什么看法吗?应该重视或者是加强哪一方面的工作?
鲁江华:云计算的系统评估,这个内容我们其实也正在做一个自行工具的研究,因为现在在集采设施中我们可能更多是关注设备本身,一台设备,或者少量设备之间配合,可能云计算对我们的要求是,除了对单台设备的测试之外,可能一堆设备在云计算场景下好多设备并行的测试场景,也是我们需要考量的。可能涉及到测试成本的增加,但是实际上像我昨天也看到网上有IT之家发的一个帖子,就是他从阿里云迁到百度云这个情况,昨天在IT行业是比较火的一个帖子,他讲了整个在阿里云提供的服务造成的宕机和各种情况,包括他从10月份开始做百度云的测试情况,最终他们是从阿里云转到了百度云。
这个事其实影响很大,我自己触动也很大,也就是说在现在云测试服务提供这么多,包括阿里云应该是目前业界很成熟的,但是也会有这种情况的发生,也就是说以后测试我也希望我们加入更多的云测试,不仅仅关注单台的设备,整个在基于服务器之上构建的云,包括它的硬件设备、软件系统,整个包括SDN方面做整体的测试,也能对实际应用产生指导作用。
主持人:除了这些云测试,您站在研究院的角度来去看,未来能不能预测一下还有哪些新业务新挑战?
鲁江华:从电信行业的角度来讲,我们电信行业以前大部分设备都是基于电信研究的,可能提供商都是亿信这样的产品。随着近几年很多业务,包括很多电信级的一些处理都转向IT化,也就是用我们通用的X86服务器来做处理,这种情况下可能包括从我们对X86的需求在逐年基本上是成倍去增加,X86服务器的需求上,这种情况下对服务器本身的性能测试,包括它用来替代所有目前我们电信专用的这种设备的情况下,我们要进行考量。
因为之前的电信标准我们都知道包括之前的ATC的标准,这是电信级的一个标准,基础也是X86的芯片,但是它的电信级要求是相当于99.999%甚至更高,转向X86的服务器和加软件的方式来处理之后,首先它的稳定和可靠我们是一个考量的方面。另外,在这个基础之上包括之后所要构建的,我们所需要的SDN,包括NFV一些内容,都需要建在这个上面。所以说之后可能业界提供X86服务器的门槛越来越低,也就是说作为一个前端OEM厂商大家芯片可能是一样的,主板大家可能都采用同样的机板,包括代工甚至选择相同代工厂,这之间的差别在哪是我们需要仔细去研究的,因为这个可能影响到我们整个电信一些系统的稳定性。
主持人:我们今天就到这。
鲁江华:谢谢。
主持人:今天鲁经理的分享也确实是干货满满,不知道程序员们有没有get到一些新技能呢,我们也非常希望鲁经理在接下来的SPEC峰会上有所收获,谢谢。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。