日前,浪潮推出了inData数据库一体机新品,专为HTAP(Hybrid Transactional/Analytical Processing)大并发事务实时处理与海量数据实时分析的混合负载业务场景设计,具有出色的高可用性、高性能以及强大的横向扩展能力,可以作为企业、政府数据库和数据仓库的统一承载平台,为数字化转型中的高端用户提供有力支撑。
传统的数据仓库环境和数据库架构,通常是将业务生产库和分析决策库进行分离,并通过ETL等工具将生产数据导出、清洗、加工处理,形成按业务需要划分的主题库,来满足多样化的业务分析决策需求。这样,企业要消耗几天甚至一周以上的时间才能得到目标分析数据,进行业务决策。随着海量业务数据急剧增长,企业要以最快速度得出分析结果,迅速调整企业决策。因此,企业要有一个强大的数据平台,在不进行数据库拷贝分离的情况下,能够同时支撑OLTP大并发在线事务处理和OLAP海量数据实时分析响应,即HTAP混合负载场景。
为此,浪潮发布了基于融合架构的inData数据库一体机,可一站式交付,开箱即用。inData一体机将浪潮K-DB数据库、NVMe SSD以及InfiniBand高速网络完美融合,结合先进的K-RAC集群技术以及RDMA协议,在存储节点开发了智能过滤、智能索引等独有技术,完美应对HTAP混合负载场景下同时存在的大并发事务处理和海量数据实时分析的发展需求。
inData一体机是一个全冗余的融合系统,分为软硬件紧耦合的计算、存储和网络三个资源池,服务器及Infiniband交换机等硬件设备都采用了冗余的配置,软件方面依靠K-DB数据库一体机的K-RAC共享存储多活集群、KAS存储虚拟化技术,提供了计算节点的高可用、存储节点的数据多副本镜像、条带化和数据再平衡等功能。因此,inData不仅能很好地避免单点故障,整体计算性能还可以随着设备的增加而近线性增长。
inData一体机可以实现百万级IOPS、海量吞吐与微妙延迟,提供PB级海量数据查询秒级响应能力。
在智能过滤方面,inData一体机在存储节点上部署了K-DB数据库实例,充分利用存储服务器的CPU、内存等计算资源,当计算节点收到来自应用的SQL请求后,首先将SQL卸载到存储节点做一遍行与列的筛选,然后将筛选后的更准确的数据块,通过网络传输到计算节点做进一步的精准计算。这一过滤过程既降低计算节点的运算负载,又数十倍的减小了计算与存储之间网络传输压力。在诸如全表扫描等复杂请求场景时,使OLAP业务性能提升5-10倍。
同时,inData一体机可以实现存储智能索引。这项技术可以减少不必要的磁盘I/O。在系统运行过程中,节点会实时地将列数据的概要信息更新存储到存储内存中,比如各区数据的Min/Max值,这样在数据查询过程中就可以通过概要信息预先定位数据存储区间,有效减少了磁盘的I/O次数。
inData一体机会自动统计数据的访问频次,将经常被访问的“热点数据”,存储在热点盘——PCIe NVMe SSD闪存卡中,不经常访问的数据则会存储在大容量机械磁盘中,做到智能缓存,很好的兼顾性能与成本。
这些技术有效提高了inData一体机的负载处理能力,其中OLAP场景的负载处理能力可较传统数据库提高10倍。
inData一体机出厂时已完成所有软硬件的安装、调试与优化,实现到客户现场一键式快速部署,整体系统部署时间缩短80%以上。
inData一体机提供用户定制化服务,基于“2+3”基础配置可以自由扩展“N+M”(N<=4,M<=32)的计算节点和存储节点数量配置,包括IB网络和万兆网、PCIe NVMe SSD全闪存及HDD存储的选配与组合,在满足用户个性化需求的同时,帮助用户更好地平衡成本与性能。
浪潮inData一体机完全融合现有的技术生态,已经在金融、制造、医疗和教育等广泛应用。浪潮解决方案部总经理乔鑫表示,“数据的统一整合是企业数字化的起点, inData一体机是一款理想的统一数据平台方案,希望这款产品能够帮助用户快速洞察商业机遇,加速数字化转型。”
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。