英伟达GTC大会的召开,又带动了人工智能新一轮的狂飙。
西云算力CTO梁峰曾经在几年前参与过英伟达GTC大会,彼时会议更多聚焦在图形图像,人工智能和深度学习才刚刚进入大众视野成为流行词,现在人工智能已经是GTC的主旋律,在行业企业中也是无处不在。
在他看来,现阶段,更大的模型依然是驱动AI行业发展的基石,这就需要更大的智算集群能力。
西云算力一直坚定的致力于为大模型公司提供最佳集群服务,并在能源、算力和网络方面持续优化,建设高效、绿色、安全的算力平台。
到2023年底,西云算力已建成的智算算力规模位居国内前列,基于绿色、安全的AIDC和大规模GPU智算集群、存储集群与智算网络,西云算力正为各种大模型训练等专业场景提供强大高效的服务支持,打造面向行业应用的软硬一体化智算基础设施。
西云算力CTO梁峰
AI智算中心西云算力的探索
西云算力成立于2016年,依托自有数据中心建设算力服务,致力于成为中国西部最具竞争力、最有效率的绿色安全算力运营商。
“人工智能数据中心(AIDC)的搭建具有相当高的技术含量,并非简单地将机器和网络设备连接在一起。”梁峰说。西云算力正从多个方面努力,如建造高功率、低能耗的数据中心,设计智能模式和空间规划,测试风流模型以优化散热等。
集群设计上,重点考虑网络架构的选择,网络设计、路由协议、运营维护需适应不同AI训练框架和模型的不同模式,技术要求极高。
云平台搭建上,容器化服务需满足了AI模型训练和推理的调度要求,平衡模型数据调度、存储与计算消耗,以最大化模型MFU(Model FLOPS Utilization)即有效算力输出为目标。
推理层面,要适配最匹配的框架、加速库、参数和显卡来实现最高性能或最低成本的不同选择。
安全层面,与亚信安全合作,确保服务器、网络、模型和用户数据的安全。
西云算力还同时关注全栈能力的发展。梁峰谈到,AI需要从端到端全栈优化才能实现整体效率最佳。
现在西云算力正采取算力、能源和生态三位一体的战略,推进智算基础设施的发展,目前正服务于AI大模型训练、AIGC、高性能计算、云渲染应用等场景。
GPU集群的技术实力
AI设备的功耗远高于传统设备,所以选择合适的高性能机柜组成的数据中心成为首要解决的问题。
西云算力在AIDC上早有前瞻布局,2024年初,西云算力打造的宁夏智算中心项目一期工程——宁夏首个采用全自然风冷技术的30KW机柜人工智能数据中心(AIDC)已经交付并使用。
梁峰介绍,该数据中心包括大规模GPU集群支持、训练/推理配置智能优化、训练集群并行效率高度优化、分钟级断点续训、模型部署推理性能的优化。
该数据中心定位为新一代灵活、弹性、绿色、安全的数据中心。数据中心占地70亩,建筑面积近2.8万平方米,包含三栋高规格自然风冷高密度机房,采用多种创新技术,专业为支撑 人工智能大模型产业的发展,构建绿色安全的算力基础设施。
30KW高功率密度风冷机柜的应用,大幅提高了土地利用率,节约了超过30%的土地资源。创新的直接新风自然冷却AHU(Air Handling Unit)方案,大幅降低了常规制冷系统的风扇和压缩机 功耗,降低碳排放。
西云算力的大规模算力集群在完成网络组建后,将会适应AI相关技术的变化而不断调优,以取得最好的MFU。因为不同的模型架构、网络拓扑结构和优化策略都会影响这一指标,这既考验着系统设计的功力,也将成为集群的核心竞争力。
西云算力不仅在智能计算领域通过先进的硬件集群打造出卓越的性能,更通过容器、MAAS层、平台层及Agent层等多层次服务能力,是一个面向全场景全系列的一体化平台,满足各类客户需求的同时,推动AIGC行业加速发展与创新。
好文章,需要你的鼓励
这项由复旦、港科大等多校联合完成的研究首次系统性地解决了大型AI模型在识别场景文字时产生"语义幻觉"的问题。研究团队发现AI模型常将视觉上模糊的文字"脑补"成有意义但错误的词汇,并开发了包含ZoomText定位策略和接地层修正机制的训练无关解决方案,在多个基准测试中实现显著性能提升,为提高AI视觉系统可靠性提供了重要突破。
IBM研究院发布AssetOpsBench,全球首个工业资产AI代理评估平台。该研究建立了多代理协作框架,涵盖IoT数据采集、时序分析、故障诊断等专业模块,通过141个真实场景和六维评估标准测试AI在复杂工业运维中的表现。测试显示当前AI技术仍有改进空间,为工业4.0时代的智能运维发展提供重要基准。
韩国科学技术院研究团队开发出Simba方法,通过层次化稀疏化技术对状态空间模型进行"瘦身",在保持性能的同时显著提升计算效率。该方法采用类似高速公路的架构设计,让AI模型的上层只处理最重要的信息,实现了最高80%的速度提升和更好的长序列处理能力。这项即插即用的技术为AI模型优化提供了新思路。
这项研究展示了一个基于ModernBERT架构的prompt injection检测模型,通过精心构建的多样化数据集训练,在内部测试中达到98.7%准确率和98.0% F1分数,在公开基准测试中平均F1分数达93.8%,显著超越现有最强基线系统。该模型推理速度仅0.02秒,具备实时检测能力,为AI系统安全防护提供了新的解决方案。