7月29日,由工业和信息化部、山东省人民政府共同主办的首届中国算力大会在济南召开,紫光股份旗下新华三集团应邀参会。新华三集团网络产品线规划与解决方案部总经理汲哲在分论坛上发表主题演讲,针对“东数西算”背景下,如何通过算力评估标准体系建立以及分层分域的算网架构管理实现算力调度等话题,分享新华三的独到见解。
当前,算力呈现出异构化、共享化的发展趋势。在算网深度融合的背景下,网络已从单纯的连接转为构建泛在算力的重要角色。新华三认为,建立各方认可的统一算力评估标准平衡成本、效率和体验,构建分层分域管理的算网架构,实现客户体验和社会总体效益的平衡,是未来高效调度管理算力的关键所在。
打造算力评估标准体系,汇生态合力建泛在算力
作为算力网络的核心系统,算网大脑通过算网的统一编排和资源的灵活调度,将算力和网络以一体化的形态对外提供服务。统一的算力评估标准体系,可实现不同参与方之间的高效协同,为用户提供算网一体化体验。
● 分阶段构建算力评估标准体系。算力评估体系应分阶段推进:第一阶段基于用户算力需求,综合考虑算力因子、网络因子以及成本因素,得出综合评估结果;第二阶段,算力评估需引入软件服务,建立统一的服务镜像仓库和服务目录,为客户提供算力服务。
● 算力评估需关注功能和服务的统一。首先在关注基本功能实现的同时,需考虑安全、容灾备份等服务指标,建立统一的标准;其次应聚焦应用化、场景化,基于业务场景确定不同评估模型,满足场景适配要求;最后,将整网均衡情况、总体社会效益目标纳入算法,实现整网资源利用的最大化。
● 统一标准方可聚合生态合力。建立起统一的算力评估标准体系,才能强化产业链各方整体协同,形成算力网络强大的生态合力,为百行百业提供易用易获得,屏蔽厂商和地域差异的泛在算力服务。
分层分域管理算网,助力“东数西算”战略落地
作为一项国家级超级工程,“东数西算”自今年初启动后,对算网管理架构提出了新挑战。面对各地建设周期不同步、跨区域算力计算量大、跨厂商互通难度高等问题,新华三集团创新设计分层算网大脑架构,通过系统分解、局部优化等方式,实现具备算力统筹和智能调度能力的算力网络。
● 专网构建跨区域分布式算网大脑。分层算网大脑架构通过在省内部署区域中心算网大脑,实现区域的集中控制、本地优先。同时,在集团总部部署总部中心算网大脑,分布式控制调配全网算力资源,降低综合算力成本。各省与总部中心的算网大脑通过专用网络实现算力协同,共同构成覆盖全国的超级分布式算网大脑。
● 算力资源和算力管理“双管齐下”。全国范围集中管控算力资源带来巨大的计算量和消息通信,使得算力资源的集中评估至关重要,从算力资源和管理方面着手才是解决之道。在算力资源上,跨省资源建议只选择“东数西算”枢纽资源,社会泛在算力资源仅在省内调度,确保跨省调度效益最大化。在管理方面,将路径计算分成用户所在省、全国骨干网、云资源所在省三段,算力评估时各自计算路径,使计算分布式,提高效率、优化管理流程。
● 复用现有网络协议为算网建设“降本增速”。不同厂商的网络设备之间实现互通才能更好支持算力网络需求。新华三认为,应尽可能复用现有的通用网络协议,降低对路由器软件的依赖和路由器本身性能要求,最小化地减少对路由器的改造,充分利旧,以便于在降低运维成本同时,加快算力网络落地进度。
泛在算力目标驱动下,统一算力评估标准,分层分域管理算网,是新华三集团对于算力调度方法的全新思考与探索。作为算力网络发展的积极参与者和赋能者,新华三集团将深化“云智原生”战略,以合作创新为引领,深度协同算力产业链上下游,持续助力算力网络的标准化、产业化发展,提升“算网大脑”的能力,真正把“算力”变为可流动的生产力,共同推进“东数西算”战略落地。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。