
如何以更低成本维护温冷数据成为企业数据中心重要课题
提到企业冷数据,最先闪出的概念是一大堆无人问津的1和0,这些数据可能是三年前产生的某个世界级比赛视频,可能是三个月前的一封邮件,也或许是上个月的某个网红视频,这些数据具有一个共同的属性--被读取的可能性极低。
往往一个公司拥有PB级别的数据,那么很大程度上可以说是拥有了巨大的财富宝藏,但是这些数据需要被持续的存储和挖掘,才能让数据从资源变成资产。这一挖掘时间可能持续数月甚至数年的时间才能完成,在此期间如何以更低的成本维护这些数据,是企业数据中心必须考虑的课题,因为每天都有海量的新数据产生,第二天大部分数据就变成冷数据堆积在服务器的硬盘中。处理这些冷数据的做法,往往会使用最低成本的设备来存储,比如低性能的处理器,低带宽网卡,高密度低转速的硬盘,总之一切以低成本为考量。
但是,随着大数据挖掘技术的发展,越来越多的冷数据被参与到计算和分析中,因此许多互联网数据中心发现一味追求低性能并不能完全满足要求。但解决方案却往往矫枉过正,一些业务同学会要求使用更高性能的部件,比如处理器由低功耗的E3-1220v3升级到了高功耗的E5-2620v4。这样的方法简直是简单粗暴,计算性能肯定会大幅度提升,但是要付出更多的采购成本,电力成本,运维部门自然不乐意。另一方面,虽然采用高配方案能够使计算性能提升一大截,但也远远超出客户所需要的能力,造成服务器整体利用率只用20%左右。

Intel Xeon-D CPU
那么是不是能采用一款性能适中的存储服务器平台,既有不错的性能,又能够控制功耗?近日,浪潮SA5224M4服务器上市,基于Intel Xeon-D CPU,拥有介于Intel Xeon E3和E5服务器的性能,功耗却远低于E5,更适合温冷数据的存储应用。

浪潮SA5224M4温冷数据存储服务器
优势一 80%性能、43%功耗,高能效比节省千万成本
浪潮SA5224M4服务器所搭载的Xeon-D CPU与E5-2600v4系列CPU技术架构相同,并可以通过SoC架构平衡计算性能和功耗参数。从实际测试数据来看来看,搭载D-1531 CPU的SA5212M4的计算性能已经达到原E5-2620V3 平台服务器的80%左右,但是单CPU的TDP(散热设计功耗)只用45W,相比传统E5 CPU功耗降低35W以上。一般服务器的生命周期为三年,这样算下来,1000台的存储服务器集群就能节省下至少1050万的电费。
而在性能方面,温冷数据存储应用(如云存储、邮箱数据存储和数据备份等)在传统E5 CPU存储服务器上的负载率约为30%,而使用浪潮SA5224M4时CPU的负载率约在40%,满足应用计算性能需求的同时,保留足够的性能冗余,防止出现短时数据流量骤增带来的计算压力。
优势二 内存容量提升,解决数据列表瓶颈
目前,数据的存储多采用检索方式,即软件产生索引表,这种方式具有简单、精准、容量大的特点,但是对于内存容量的需求大。在4T硬盘时代,单机36块硬盘的144T数据需要30G的内存存储索引,但是随着硬盘单体容量的快速增大,6T/8T最终代替4T,因此对于36盘位存储服务器的索引表占用的内存空间需要突破32G。但是,传统的冷数据存储服务器往往基于Intel E3 CPU/Atom CPU,这两种CPU只能支持32G内存,因此导致数据读取、存储的效率不佳。
浪潮SA5224M4最大支持128G内存,这有效解决了低功耗存储服务器内存容量扩容的难题。同时,浪潮SA5224M4支持DDR4内存,内存功耗降低50%,性能则能够提升33%。
优势三 集成万兆网络,省成本也省功耗
随着数据中心内外数据交换量的大增,万兆网络正在成为越来越多互联网服务器的标配。但传统的外插网卡形式,一方面会占用PCIe扩展资源,另一方面也会增加功耗和成本。SA5224M4中的Xeon-D CPU集成了内存控制器、PCH万兆网络等周边电路,因此主板功耗会更低,相比传统10-20W的外插万兆网络卡,至少能够节约20%以上功耗。
更重要的是网络部分不需要客户再付费升级10G,直接使用即可。因为浪潮SA5224M4中已经使用CPU集成的万兆网络做了板载万兆网络设计,而且有光口和电口两种,方便客户的应用选择。
伴随互联网产生的数据越来越多,数据正成为互联网企业不可抛弃的重要资产,而其中温冷数据的存储成本和效率的平衡是互联网IT人员关注的焦点问题。浪潮SA5224M4这种"不太冷"的存储型服务器,将会为云存储、邮箱数据存储和数据备份等应用提供能具性价比的硬件平台。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。