英伟达GTC大会的召开,又带动了人工智能新一轮的狂飙。
西云算力CTO梁峰曾经在几年前参与过英伟达GTC大会,彼时会议更多聚焦在图形图像,人工智能和深度学习才刚刚进入大众视野成为流行词,现在人工智能已经是GTC的主旋律,在行业企业中也是无处不在。
在他看来,现阶段,更大的模型依然是驱动AI行业发展的基石,这就需要更大的智算集群能力。
西云算力一直坚定的致力于为大模型公司提供最佳集群服务,并在能源、算力和网络方面持续优化,建设高效、绿色、安全的算力平台。
到2023年底,西云算力已建成的智算算力规模位居国内前列,基于绿色、安全的AIDC和大规模GPU智算集群、存储集群与智算网络,西云算力正为各种大模型训练等专业场景提供强大高效的服务支持,打造面向行业应用的软硬一体化智算基础设施。
西云算力CTO梁峰
AI智算中心西云算力的探索
西云算力成立于2016年,依托自有数据中心建设算力服务,致力于成为中国西部最具竞争力、最有效率的绿色安全算力运营商。
“人工智能数据中心(AIDC)的搭建具有相当高的技术含量,并非简单地将机器和网络设备连接在一起。”梁峰说。西云算力正从多个方面努力,如建造高功率、低能耗的数据中心,设计智能模式和空间规划,测试风流模型以优化散热等。
集群设计上,重点考虑网络架构的选择,网络设计、路由协议、运营维护需适应不同AI训练框架和模型的不同模式,技术要求极高。
云平台搭建上,容器化服务需满足了AI模型训练和推理的调度要求,平衡模型数据调度、存储与计算消耗,以最大化模型MFU(Model FLOPS Utilization)即有效算力输出为目标。
推理层面,要适配最匹配的框架、加速库、参数和显卡来实现最高性能或最低成本的不同选择。
安全层面,与亚信安全合作,确保服务器、网络、模型和用户数据的安全。
西云算力还同时关注全栈能力的发展。梁峰谈到,AI需要从端到端全栈优化才能实现整体效率最佳。
现在西云算力正采取算力、能源和生态三位一体的战略,推进智算基础设施的发展,目前正服务于AI大模型训练、AIGC、高性能计算、云渲染应用等场景。
GPU集群的技术实力
AI设备的功耗远高于传统设备,所以选择合适的高性能机柜组成的数据中心成为首要解决的问题。
西云算力在AIDC上早有前瞻布局,2024年初,西云算力打造的宁夏智算中心项目一期工程——宁夏首个采用全自然风冷技术的30KW机柜人工智能数据中心(AIDC)已经交付并使用。
梁峰介绍,该数据中心包括大规模GPU集群支持、训练/推理配置智能优化、训练集群并行效率高度优化、分钟级断点续训、模型部署推理性能的优化。
该数据中心定位为新一代灵活、弹性、绿色、安全的数据中心。数据中心占地70亩,建筑面积近2.8万平方米,包含三栋高规格自然风冷高密度机房,采用多种创新技术,专业为支撑 人工智能大模型产业的发展,构建绿色安全的算力基础设施。
30KW高功率密度风冷机柜的应用,大幅提高了土地利用率,节约了超过30%的土地资源。创新的直接新风自然冷却AHU(Air Handling Unit)方案,大幅降低了常规制冷系统的风扇和压缩机 功耗,降低碳排放。
西云算力的大规模算力集群在完成网络组建后,将会适应AI相关技术的变化而不断调优,以取得最好的MFU。因为不同的模型架构、网络拓扑结构和优化策略都会影响这一指标,这既考验着系统设计的功力,也将成为集群的核心竞争力。
西云算力不仅在智能计算领域通过先进的硬件集群打造出卓越的性能,更通过容器、MAAS层、平台层及Agent层等多层次服务能力,是一个面向全场景全系列的一体化平台,满足各类客户需求的同时,推动AIGC行业加速发展与创新。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。