随着十四五规划的落地、“东数西算”工程正式全面启动,推动数字化转型向纵深迈进。如何有效地管理海量多样的数据类型,实现资源共享,进一步发掘数据价值,高效支撑多样化应用,成为存储系统亟待解决的问题。3月23日,曙光就以上问题在京举行技术研讨,与行业资深专家共探存储新发展。
分布式统一存储
应对海量数据多样化应用需求
“面对海量爆发的数据,传统集中式存储已经不是最优选了,现在更多是采用分布式存储解决这个难题。”在海量数据多样化应用需求面前,中科曙光存储事业部副总经理张新凤给出了解决方案。
据悉,相较于传统存储,横向扩展的分布式存储具备扩展性强、容量大、数据安全性高等特点,可轻松应对海量数据的管理需求。而近10年来,曙光一直致力于海量数据存储与处理技术的研发,面对数字化转型的挑战,曙光分布式统一存储系统ParaStor,可应对“5G+AI+云”时代下的海量数据多样化应用需求。
曙光ParaStor集结多项优势
激发数据潜在价值
张新凤介绍,去年底,曙光ParaStor融合了文件、对象、块、HDFS多种协议,真正实现了海量异构数据资源的融合,高效助力企业的数字化转型,可广泛应用于高端计算、通信、自动驾驶、EDA、能源勘探等多个领域,全面挖掘数据的潜在价值。
曙光ParaStor单一存储节点同时支持文件、块、对象、HDFS四种存储服务,3节点存储集群即可承载非结构化与结构化数据业务,消除存储设备多样性及管理复杂性,降低存储系统的构建成本;为了满足对象应用,曙光ParaStor对IO协议栈进行极简优化,实现了单桶千亿KB级小对象的存储能力,存储集群百万级TPS吞吐性能可达到业内领先水平;同时,曙光ParaStor提供原生HDFS接口,无任何协议损耗,无缝接入大数据平台,实现存储与计算资源按需配置的同时,满足新老存储同时读写,应用“0”改造,数据“0”迁移,构建更佳的高性价比大数据存算分离解决方案。
值得一提的是,基于自研优势,曙光可根据不同行业用户的不同需求,进行代码级的定制化设计与开发,产品功能和性能指标可大大优于同类产品。同时,多年来超大规模项目的部署经验与应用的支持,让曙光ParaStor的可靠性和稳定性得到了充分的市场检验。
“存储市场是需要很深技术积累和很大资金投入的市场,所以很早预估到行业的发展趋势,进行自主研发产品的企业一定会跟未来的趋势高度结合”赛迪顾问业务总监高丹表示。作为国内第一批做自研分布式存储的厂商,曙光将不断进行自我革新,根据市场趋势进行产品和系统的迭代升级,开发更多场景应用,切实推进企业的数字化转型。
曙光技术圆桌派精彩回顾:https://live.vhall.com/v3/lives/watch/556380469
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。