在最新发布的SPEC CPU CINT 2006测试排行榜中,浪潮NF8480M4刷新了该项测试四路服务器的最好成绩,峰值成绩为3570。短短2个月,浪潮天梭TS860G3和NF8480M4相继打破该项测试的八路和四路服务器的世界纪录。
国际标准化性能评估组织SPEC(The Standard Performance Evaluation Corporation)是一个全球性、权威的第三方非营利性应用性能评估组织,致力于建立、维护以及完善一系列最新的服务器应用性能评估标准,拥有10大类测试标准、53项测试规范,该组织发布的测试成绩具有很高的权威性,是金融、能源、交通、大型制造企业实际应用的重要参考。
SPEC CPU CINT2006用于测试计算机系统的整型计算性能,测试过程模拟了包括天气预报、垃圾邮件监检测、C代码编译、大型公交系统的单站车辆调度等12个典型应用场景。整型计算性能决定了计算机系统在数据库、云计算、大数据等场景的性能表现。
NF8480M4是浪潮四路服务器旗舰型产品,专为数据分析和云计算应用场景优化,具备强大的计算性能和扩展能力,采用最新英特尔至强E7-8800v4系列处理器,单机最高达96个计算核心、12TB内存容量(可实现交叉存取),支持内存热插拔、内存镜像、内存热备份等高级RAS特性,特别适合大型数据中心的虚拟化整合、大型应用软件的中间件应用、大型数据库应用以及数据挖掘等对性能要求严苛的关键应用;支持4颗NVMe接口的2.5英寸PCIE SSD硬盘,大幅提升存储系统IO吞吐能力,也可作分级存储应用场景的搭建。
NF8480M4
不仅在SPEC测试中表现出强劲的性能,不久前浪潮全线四路和八路服务器,均已经通过了SAP HANA系统的认证,基于浪潮多路服务器的SAP HANA解决方案可为客户实时分析多种数据源的海量数据,可实现多任务并行处理和最小化数据传输,数据压缩达5—20倍,处理速度比传统的数据仓库方案提高几十倍、甚至上百倍。
全球数字经济大潮及国内“互联网+”大背景下,企业和政府迫切需要从数据中获得业务洞察,获得变革的动力,企业对于智能分析的需求越来越旺盛,浪潮集团副总裁彭震表示,浪潮一直在布局分布式计算、融合架构、大数据等智能决策相关技术,联合合作伙伴用户提供整体优化的端到端解决方案。
据悉,浪潮在多路服务器领域处于领先地位。据Gartner数据显示,2016年浪潮四路服务器连续2个季度获得全球市场第一,而八路服务器已经连续12个季度中国市场出货量第一。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。