4月25日,中国移动2023移动云大会在苏州金鸡湖国际会议中心开幕。大会全方位展示了移动云最新发展成绩,并发布了移动云全新战略规划、自研核心技术成果及未来市场关键举措,释放加速赋能千行百业数智化转型的数智力量。
杨杰:云擎未来铸重器 智信天下绘宏图
中国移动董事长杨杰表示,作为新型信息基础设施的重要组成部分,以云为核心的算力基础设施正加快成为数字经济高质量发展的有效推动力、促进社会进步的数智生产力、全球大国博弈的重要竞争力。建设云基础设施、提供算力服务,是中国移动数智化转型的战略重点。2022年移动云收入突破500亿元、较三年前增长25倍,发展创新力、市场竞争力、生态聚合力、品牌影响力明显提升,综合实力跃升至国内云服务商第一阵营。
谈及未来发展,杨杰坦言,中国移动将以移动云为关键载体,加快推进算力网络从泛在协同到融合统一再到一体内生,勇担算力网络国家队、主力军、排头兵,根植于“强富美高”新江苏这片数字经济的沃土,扎实践行“为国建云”使命担当,与广大合作伙伴携手,努力建成技术领先、客户信赖、开放合作的一流云服务商,合力绘就算力网络的宏伟蓝图。
COCA 引领云计算市场下一个黄金十年
值得注意的是,本次移动云为创新高性能计算框架,发布了一款数据中心级软硬体化片上计算架构——移动云COCA架构,推进DPU性能加速、SDN网络管控分离,自研高性能软硬一体边界网关,支撑打造无损网络。
随着算力成为数字经济新引擎,算力规模持续增长,算力结构发生改变,主动拥抱智算浪潮,持续输出优质算力支撑数字中国建设,适配泛在化、异构化算力推动数智化转型,正成为面向未来基础设施新变革的重要思考。
当前,“封闭的技术生态,复杂的技术堆栈,碎片化的技术体系”已严重阻碍数字基础设施的健康发展,这不仅会增加数字基础设施的维护和升级成本,还会让数字化转型过程中的各种技术瓶颈更加难以解决。为了解决当前数字基础设施发展中遇到的问题,移动云COCA架构应运而生。“我们有一个宏伟愿景,那就是利用移动云COCA架构助力打造国家级自主可控的高性能算力基础设施。”中国移动云能力中心IaaS产品部总经理刘军卫在大会同期举行的“磐石算力底座论坛论坛”上这样说。
刘军卫解释道:“为了实现这一愿景,我们将持续布局国产化智算生态,与合作伙伴共建自主可控GPU+DPU联盟、联合创建高性能网络技术,希望带动国产化智算产业成熟发展,抓住云计算技术定义权,引领云计算市场下一个黄金十年。”
据了解,移动云COCA架构面向算力网络研发GPU、DPU、HPN三大核心单元,旨在实现“算力 + 连接”集群化技术的横向融合与垂直抽象。统一实现计算、存储、网络、安全、管控能力的硬件卸载加速。
1、GPU单元异构协同
在GPU单元方面,刘军卫透露,移动云希望与合作伙伴共建自主的GPU联合生态。统一算子接口标准、提供统一北向接口,兼容各GPU的深度学习框架。AI抽象降低客户迁移成本,AI加速提高训练+推理效率,AI池化提升GPU资源利用率。
移动云这一布局可谓切中时弊。诚然,现阶段,CPU负载高、缺乏GPU进行图形处理和加速、整体体验差等多维挑战,持续影响着终端用户获得“完美体验”,而生态协作则是推动应用落地的关键力量。“移动云COCA架构面向GPU单元,将以异构协同的算力构建智算基础设施能力基石。”刘军卫补充道。
2、DPU单元软硬一体
在DPU单元方面,移动云以COCA架构为基础,打造出包括网络引擎、存储引擎、管控引擎、虚拟化引擎、安全引擎的磐石DPU五大卸载引擎,软硬融合重构算力基础设施,助力编程加速单元DPU成为新算力核心,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。
3、HPN单元突破瓶颈
在HPN单元方面,移动云旨在基于COCA架构攻克业界“卡脖子”的连接难题。
2023年,由于环境原因,我国本土化的高性能算力丞待突破。同时,自ChatGPT的爆火掀起生成式AI的浪潮以来,各类“大模型”如雨后春笋般冒出,这使得AI算力日渐紧俏。刘军卫坦言;“基于COCA架构,我们以X-Link + 自研“乌蒙协议”+ 分布式通信库,三者协同配合攻坚“大模型”等应用场景的算力供给。携手共进突破算力连接瓶颈,推动算力新基建能力跃升。
关于COCA架构的落地规划,刘军卫透露,2023年6月移动云将发布COCA-DPU单元v1.0,构建软硬一体行业标准;2023年9月。发布COCA-GPU单元v1.0,实现AI算力的融合加速;2023年11月发布COCA-HPN单元v1.0,实现自主可控高性能网络;2024年第二季度,实现COCA架构的全栈自主可控,助力国家数字新基建。
“我们愿携手各方战略合作伙伴,共同打造国家级自主可控算力基础设施,以COCA架构的技术生态,引领云计算市场下一个黄金十年。”刘军卫总结道。
COCA让“磐石更坚”
在中国移动展区,至顶网探寻到了中国移动最新发布的“第三代磐石服务器”。
磐石DPU,是磐石系列硬件产品核心。作为业内领先的DPU解决方案,磐石DPU拥有2*100G带宽,对主机可呈现多达1000个虚拟设备,读写资源提升8倍,可实现零虚拟化损耗的高性能计算服务。整机存储性能也可达100W IOPS(每秒进行读写操作的次数),存储性能提升1倍。整体算力提升10%,核心性能达到业界顶尖水平。
展区工作人员告诉至顶网,磐石算力架构由自研的磐石DPU和支撑其生命周期的磐石服务器组成,围绕裸金属、云主机、容器等算力需求作统一算力底座支撑。
谈及GPU方面,工作人员向至顶网展示道:“在这款磐石服务器的GPU上运行的是基于COCA架构搭建的算力平台。”该工作人员坦言,COCA架构主要面向算力网络技术设施生态的算力卸载、解耦、无损构建目标,力图构建算力的标准化接入生态同时弥补算力与应用间鸿沟。
现阶段,在DPU产业迅猛发展的行业风潮下,通过 FPGA、NP、ASIC 等多种硬件路线实现 DPU 芯片的设计策略已经被国内厂商广泛运用。同时,与国内云厂商和各行业数据中心采取定制或联合研发等模式,将有效推动DPU 在数据中心内更广泛地落地,并将产业竞争发展持续推向新高度。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。