英伟达GTC大会的召开,又带动了人工智能新一轮的狂飙。
西云算力CTO梁峰曾经在几年前参与过英伟达GTC大会,彼时会议更多聚焦在图形图像,人工智能和深度学习才刚刚进入大众视野成为流行词,现在人工智能已经是GTC的主旋律,在行业企业中也是无处不在。
在他看来,现阶段,更大的模型依然是驱动AI行业发展的基石,这就需要更大的智算集群能力。
西云算力一直坚定的致力于为大模型公司提供最佳集群服务,并在能源、算力和网络方面持续优化,建设高效、绿色、安全的算力平台。
到2023年底,西云算力已建成的智算算力规模位居国内前列,基于绿色、安全的AIDC和大规模GPU智算集群、存储集群与智算网络,西云算力正为各种大模型训练等专业场景提供强大高效的服务支持,打造面向行业应用的软硬一体化智算基础设施。
西云算力CTO梁峰
AI智算中心西云算力的探索
西云算力成立于2016年,依托自有数据中心建设算力服务,致力于成为中国西部最具竞争力、最有效率的绿色安全算力运营商。
“人工智能数据中心(AIDC)的搭建具有相当高的技术含量,并非简单地将机器和网络设备连接在一起。”梁峰说。西云算力正从多个方面努力,如建造高功率、低能耗的数据中心,设计智能模式和空间规划,测试风流模型以优化散热等。
集群设计上,重点考虑网络架构的选择,网络设计、路由协议、运营维护需适应不同AI训练框架和模型的不同模式,技术要求极高。
云平台搭建上,容器化服务需满足了AI模型训练和推理的调度要求,平衡模型数据调度、存储与计算消耗,以最大化模型MFU(Model FLOPS Utilization)即有效算力输出为目标。
推理层面,要适配最匹配的框架、加速库、参数和显卡来实现最高性能或最低成本的不同选择。
安全层面,与亚信安全合作,确保服务器、网络、模型和用户数据的安全。
西云算力还同时关注全栈能力的发展。梁峰谈到,AI需要从端到端全栈优化才能实现整体效率最佳。
现在西云算力正采取算力、能源和生态三位一体的战略,推进智算基础设施的发展,目前正服务于AI大模型训练、AIGC、高性能计算、云渲染应用等场景。
GPU集群的技术实力
AI设备的功耗远高于传统设备,所以选择合适的高性能机柜组成的数据中心成为首要解决的问题。
西云算力在AIDC上早有前瞻布局,2024年初,西云算力打造的宁夏智算中心项目一期工程——宁夏首个采用全自然风冷技术的30KW机柜人工智能数据中心(AIDC)已经交付并使用。
梁峰介绍,该数据中心包括大规模GPU集群支持、训练/推理配置智能优化、训练集群并行效率高度优化、分钟级断点续训、模型部署推理性能的优化。
该数据中心定位为新一代灵活、弹性、绿色、安全的数据中心。数据中心占地70亩,建筑面积近2.8万平方米,包含三栋高规格自然风冷高密度机房,采用多种创新技术,专业为支撑 人工智能大模型产业的发展,构建绿色安全的算力基础设施。
30KW高功率密度风冷机柜的应用,大幅提高了土地利用率,节约了超过30%的土地资源。创新的直接新风自然冷却AHU(Air Handling Unit)方案,大幅降低了常规制冷系统的风扇和压缩机 功耗,降低碳排放。
西云算力的大规模算力集群在完成网络组建后,将会适应AI相关技术的变化而不断调优,以取得最好的MFU。因为不同的模型架构、网络拓扑结构和优化策略都会影响这一指标,这既考验着系统设计的功力,也将成为集群的核心竞争力。
西云算力不仅在智能计算领域通过先进的硬件集群打造出卓越的性能,更通过容器、MAAS层、平台层及Agent层等多层次服务能力,是一个面向全场景全系列的一体化平台,满足各类客户需求的同时,推动AIGC行业加速发展与创新。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。