集群功能是数据库产品高可用性的重要一环,集群架构是保障业务连续性的核心架构,体现着数据产品的高可用性和技术水准。但在业界集群架构有多种方案和技术,其中最具稳定性、最能够保障业务连续性的架构当属于RAC集群,即Real Application Cluster。RAC集群特点是多个数据库节点共享存储,节点多活,可同时处理业务请求,具有负载均衡和故障转移两大特性,以此为系统提供业务连续性和高性能保障,经过多年电信、金融等关键行业的核心业务检验,RAC集群技术已经成为业界数据库集群的首选方案。
目前,甲骨文的Oracle数据库和浪潮的K-DB数据库是仅有的两个支持RAC集群架构的数据库产品。 RAC需要支持多个节点的并行读写操作,节点之间协同工作的复杂度远超出其他集群方案,这也是RAC集群技术难以突破的重要原因。其中,RAC集群技术的重中之重是锁机制的管理,也是实现RAC架构的核心技术。
K-DB数据库突破了锁机制管理的技术难点,实现了真正的RAC集群。
锁与数据库的基本架构等紧密结合,涉及到内存管理、请求调度等其他相关技术。所以,从今天起,我们将发布系列的文章,介绍K-DB演进、K-DB基本架构、锁机制的构成、及锁的运行和测试数据等各个方面,让您对浪潮锁机制管理有全面的了解。
锁技术是伴随着K-DB数据库的发展而不断进化的,在谈锁技术之前,先简单回顾一下K-DB的历史。
K-DB第一代产品可以满足用户的基本需求,具备行级锁、MVCC基于在线重做日志及增量日志的备份与恢复等功能,但不足也十分明显——解决不了扩展和单点故障两大问题。
第二代产品基于日志同步的 Active-Standby容灾架构,将在主库中的操作产生的redo日志,传送到备库中。备库以read only 方式打开,供用户做查询服务,帮助主库降低一定的负载。当主库发生故障时,备库以normal方式打开,给用户进行正常的读写服务,主库和备库的切换时间不长,数据库经过短暂的停顿后,就可以继续对外服务,满足了灾备需求。
现在的K-DB是第三代产品,实现了RAC技术,具备负载均衡能力,解决了扩展性和单点故障问题。从此,浪潮K-DB具备了RAC架构,可实现真正的共享存储、多活节点的集群方案。浪潮将该技术称为“K-RAC”。
从单机架构到Active-Standby架构,从Active-Standby架构到RAC架构,RAC架构为技术实现提出了挑战,多个节点共享同一存储设备,为保障数据一致性,避免节点之间争抢数据的情况发生,锁机制管理技术使这一技术难题得以完美解决。
K-DB架构演变图
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。