7月29日-31日,国内首个算力领域的国家级会议——2022中国算力大会在山东济南召开,众多院士专家、企业精英齐聚一堂,共话算力产业发展。紫光股份旗下新华三集团应邀参加本届盛会,新华三集团副总裁、解决方案部总裁李立出席主论坛并发表演讲,分享了新华三集团对算力与网络融合背景下技术发展趋势的深度洞察。
新华三集团副总裁、解决方案部总裁李立
发表主题演讲
今年2月,“东数西算”工程正式启动,我国算力基础设施建设步伐进一步加快,但随着算力应用场景持续拓展、数据规模爆炸式增长、算法复杂度不断提高,产业发展面临的挑战也不断攀升。李立表示,算力产业主要面临着日益增长的行业智能化需求和不均衡、不充分的算力发展间的矛盾,应从芯片级、设备级、集群级、地域级4个维度寻找突破口,通过核心技术攻关解决从芯片到广域的IO不均衡问题,助推算力产业高质量发展。
芯片级:“存算一体”构建算力基石
在摩尔定律驱使下,芯片不断朝着高性能、低成本、高集成的方向发展,但随着单芯片集成的晶体管数量增多,高耗能等问题随之出现,导致芯片性能难以持续提升,制约了算力释放。
李立指出,多芯片堆叠封装为芯片突破性能瓶颈提供了可能,另一方面,存算一体的发展思路可以有效平衡计算和内存的配比,缩短数据搬运路径,降低搬运功耗,实现芯片级算力与IO的平衡,为算网融合构建算力基石。新华三集团未来将携手业界积极推进相关标准建设,以实现片内算力和片间互联的均衡发展。
设备级:互联设计实现多维度性能升级
从设备内视角来看,CPU、总线速度、主内存带宽及容量的发展速度不一,冯诺依曼体系下主内存已成为性能增长的主要瓶颈,不仅内存容量增速不及CPU内核增速,内存带宽也存在不足。另外,CPU、内存、GPU集成化设计成为IO和计算协调发展的制约因素,IO设备级的性能提升需要寻找新的优化方向,突破冯诺依曼体系是一个新思路。
当前,以扩展总线的Scale-out模式换取IO提升,成为设备算力提升的有效手段,例如PCIe Switch、CXL Switch、NV Switch、NVMe over Fabric等,业界已经开始尝试多种总线互联和扩展技术,从内存、GPU、存储等多个角度入手,从互联设计角度出发,对资源进行分布式池化设计,从而平衡数据IO和计算密度。
集群级:AI+在网计算,保障算力拓扑最优态
随着数据中心集群规模不断膨胀,传统的Spine-Leaf网络架构已无法满足大规模算力集群的通信需求。部分算力中心采用DragonFly等架构进行大规模网络互联拓扑,业界也持续研究最优拓扑架构,以实现Scale-out 性能线性增长的同时保障高带宽、低延时。
李立认为,算力拓扑也是构建高性能算力中心的关键环节,运用AI技术和网络设备的在网计算能力,可以实时收集并分析组网、设备、流量等综合信息,并通过强化学习对业务流量模型进行算力拓扑规划和动态调整,从而保障算力拓扑始终处于最优状态,满足大规模计算集群的部署需求。新华三集团近年来不断迭代组网拓扑,以期实现大规模算力部署和高性能数据中心网络的均衡,满足算力扩张需求。
地域级:确定性服务加持广域算力互联及调度
“东数西算”工程拉开了算力跨域调度建设的序幕,未来各算力中心将跨区域实现互联形成算力网络,这对算力调度保障、在网算力优化建设等提出了更高要求。
在李立看来,确定性服务是广域算力互联及调度的关键点,在实际应用中具备诸多优势。在网络传输层面,传统的广域网传输是尽力而为的转发方式,通过引入确定性网络技术,可以保证网络层面全方位确定性传输,数据跨区域传输时延确定可控;在算力调度层面,通过分布式算网大脑统筹考虑可用算力容量、成本、网络传输效率等多维属性,可以为客户提供确定性有保障的服务。
算力网络涉及网、云、数、智等多领域技术,要求多产业链高效协同,任何一个薄弱环节都可能影响产业整体的演进进程。当前,新华三集团已持续为行业客户提供覆盖云、网、边、端各类场景的算力供给、算力调度、算力赋能、算力安全、绿色算力等全方位算力服务,同时计划联合业界专业机构推出行业算力发展指数,通过对行业算力发展水平的多维度评估,找出影响算力发展的关键阻碍,助力算力行业实现“共同繁荣”。
算力与网络的融合发展是大势所趋,只有把握好算网融合新趋势,加强算网核心技术攻关,同时构建产业生态形成发展合力,才能更快更好地建成高质量算力网络,让算力成为普惠大众的生产力,进而推动百行百业数字化转型进程,促进我国数字经济的稳步健康发展。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。