人工智能(AI)对计算资源的贪婪需求推动了基础设施的变革,业界正着力解决如何满足AI在功率、可扩展性以及效率等方面的需求。这促使大量投资涌入,旨在重新配置数据中心架构,以更好应对上述及其他技术要求。问题的核心在于,智能性的构建需要巨大的算力支持。随着AI复杂度以每年一个数量级的速度递增,数据中心必须快速扩展。一个直观的参照可以说明这一需求增长的速度:到2027年,AI工作负载的能源消耗将超过阿根廷的年用电量。
没有万能之法
AI正在重新定义各类数据中心的架构,包括超大规模数据中心、现场数据中心、主机托管数据中心和边缘数据中心。迄今为止,大家的注意力主要集中在超大规模数据中心的竞争上。指数级增长的计算资源需求正在催生站点容量超过1GW的AI集群。麦肯锡预测,到2030年,欧洲和美国60%以上的AI工作负载将托管在超大规模基础设施上。
从超大规模数据中心到边缘:架构的演进
数据中心必须能够支持像大型语言模型(LLM)训练这样的AI工作负载。这就需要对设施的设计和架构进行全面升级。每个机架的功率必须增加到200-300kW,以支持密集型计算,并配备增强冷却解决方案以满足这种密集性需求。GPU和TPU等专用硬件必须与扩展的存储系统相集成,以应对海量数据的管理需求。为实现硬件的独立管理和扩展,分离架构正被广泛部署,支持不同工作负载高效利用资源。为了适应AI的流量模式,网络架构也需要进行更新,否则AI集群可能会陷入“数字交通堵塞”——强大的数据处理能力因数据瓶颈而无法发挥其应有的效能。
除了超大规模设施外,AI正在推动对去中心化基础设施的需求,以支持本地数据处理。这需要专为边缘工作负载设计的数据中心——在较小的物理空间和较低能耗下实现高性能。到2030年,随着越来越多的处理任务向边缘转移,该市场预计将超过1600亿美元。
该增长源于自动驾驶等应用中,对于更加贴近终端用户的实时处理能力的迫切需求。在这些应用中,更快的决策速度至关重要。该方法可以降低延迟,更好地支持这个由物联网和5G技术驱动的超连接世界。
随着AI应用的日益成熟,推理工作负载的增长速度已经远超模型训练。基础设施也需要适应这种从训练到推理的转变——DeepSeek R1和OpenAI v3的成功有赖于此。这类推理系统利用经过训练的模型来评估实时数据,从而高效地做出决策或完成任务。
边缘连接设备将产生大量的数据。因此,数据中心需要达到一定规模,以支持低延迟网络和灵活的资源分配,从容应对突发推理需求高峰。
以AI扩展AI
有趣的是,AI既是问题所在,又是解决问题的关键。智能化对于应对扩展挑战和确保高效运营至关重要。AI可以通过多种方式助力数据中心现代化,其中包括:
提高能源效率对于可持续运营至关重要。数据中心可以通过部署AI来自动调节冷却系统和服务器工作负载,应对需求高峰。实施智能节能技术有助于最大限度地减少浪费和运营成本,同时保持性能水平。
预测性维护利用机器学习在问题发生前进行预测。这可以最大限度地减少停机时间,并有助于延长基础设施的使用寿命。考虑到扩展所涉及的规模和成本,主动安排维修和更新以优化资源利用率的能力具有重要意义。
数字孪生与AI相结合,可创建动态模型来对组件和系统进行测试和验证。这些解决方案可用于确保复杂的数据中心保持稳健、富有弹性,并能支持未来的需求。AI算法会分析有关性能和环境条件的历史数据,为优化运营提供洞察。这些解决方案可以使用AI工作负载来模拟网络性能,从而发现并解决潜在的瓶颈问题。先进的测试和仿真工具是创建可扩展、高效、可靠的基础设施所需的技术堆栈的重要组成部分。
AI将加速完全自主的智能数据中心的实现,这些数据中心几乎可以处理所有操作,包括监控、维护、联网、能源管理和安全等,并且只需极少的人工投入。
面向未来的AI基础设施
随着AI的不断发展,数据中心必须适应日益复杂的工作负载。运营商迫切希望能以可持续的方式扩展基础设施来满足需求,而不必牺牲性能或可靠性。由于AI的未来发展仍存在不确定性,打造灵活、富有弹性且易于适应的基础设施至关重要。
通过AI系统编排在超大规模计算能力和边缘灵活性之间取得平衡将成为区分成败的关键,而那些能够顺应这一趋势的企业将在AI革命中脱颖而出。
好文章,需要你的鼓励
Brave Software开始为其AI助手Leo提供可信执行环境(TEE)技术,以增强云端AI服务的隐私保护。目前该功能仅在测试版本中支持DeepSeek V3.1模型。TEE技术能为数据处理提供可验证的机密性和完整性保障,解决传统云端AI模型处理用户请求时数据暴露的隐私风险。该技术采用Intel TDX和Nvidia TEE方案,让用户能够验证服务提供商的隐私承诺,确保AI响应来自声明的模型,未来将扩展支持更多AI模型。
华南师范大学团队开发的GraphTracer框架,通过构建信息依赖图解决多智能体系统高失败率问题。该方法摒弃传统时间序列分析,追踪信息流网络精确定位错误根源,在失败归因准确率上比现有方法提升18.18%,并已开源供实际应用。
OpenAI宣布与富士康合作,专注于下一代AI基础设施硬件的设计和美国制造准备工作。双方将结合OpenAI对AI模型需求的洞察和富士康的制造专业知识,共同设计多代数据中心硬件,强化美国AI供应链,并在美国本土构建关键AI数据中心组件。此次合作旨在满足先进AI模型对专用物理基础设施的需求,加速先进AI系统的部署。
杜克大学研究团队通过几何框架分析发现,AI推理过程呈现连续"流动"特征而非离散跳跃。研究表明逻辑结构像河床般调节推理流的速度和方向,即使面对不同语言和领域的内容,相同逻辑结构的任务在AI内部表现出惊人的几何相似性。这一发现颠覆了AI为"随机鹦鹉"的传统认知,证明AI具备真正的逻辑理解能力,为AI可解释性和系统优化开辟新方向。