人工智能(AI)对计算资源的贪婪需求推动了基础设施的变革,业界正着力解决如何满足AI在功率、可扩展性以及效率等方面的需求。这促使大量投资涌入,旨在重新配置数据中心架构,以更好应对上述及其他技术要求。问题的核心在于,智能性的构建需要巨大的算力支持。随着AI复杂度以每年一个数量级的速度递增,数据中心必须快速扩展。一个直观的参照可以说明这一需求增长的速度:到2027年,AI工作负载的能源消耗将超过阿根廷的年用电量。
没有万能之法
AI正在重新定义各类数据中心的架构,包括超大规模数据中心、现场数据中心、主机托管数据中心和边缘数据中心。迄今为止,大家的注意力主要集中在超大规模数据中心的竞争上。指数级增长的计算资源需求正在催生站点容量超过1GW的AI集群。麦肯锡预测,到2030年,欧洲和美国60%以上的AI工作负载将托管在超大规模基础设施上。
从超大规模数据中心到边缘:架构的演进
数据中心必须能够支持像大型语言模型(LLM)训练这样的AI工作负载。这就需要对设施的设计和架构进行全面升级。每个机架的功率必须增加到200-300kW,以支持密集型计算,并配备增强冷却解决方案以满足这种密集性需求。GPU和TPU等专用硬件必须与扩展的存储系统相集成,以应对海量数据的管理需求。为实现硬件的独立管理和扩展,分离架构正被广泛部署,支持不同工作负载高效利用资源。为了适应AI的流量模式,网络架构也需要进行更新,否则AI集群可能会陷入“数字交通堵塞”——强大的数据处理能力因数据瓶颈而无法发挥其应有的效能。
除了超大规模设施外,AI正在推动对去中心化基础设施的需求,以支持本地数据处理。这需要专为边缘工作负载设计的数据中心——在较小的物理空间和较低能耗下实现高性能。到2030年,随着越来越多的处理任务向边缘转移,该市场预计将超过1600亿美元。
该增长源于自动驾驶等应用中,对于更加贴近终端用户的实时处理能力的迫切需求。在这些应用中,更快的决策速度至关重要。该方法可以降低延迟,更好地支持这个由物联网和5G技术驱动的超连接世界。
随着AI应用的日益成熟,推理工作负载的增长速度已经远超模型训练。基础设施也需要适应这种从训练到推理的转变——DeepSeek R1和OpenAI v3的成功有赖于此。这类推理系统利用经过训练的模型来评估实时数据,从而高效地做出决策或完成任务。
边缘连接设备将产生大量的数据。因此,数据中心需要达到一定规模,以支持低延迟网络和灵活的资源分配,从容应对突发推理需求高峰。
以AI扩展AI
有趣的是,AI既是问题所在,又是解决问题的关键。智能化对于应对扩展挑战和确保高效运营至关重要。AI可以通过多种方式助力数据中心现代化,其中包括:
提高能源效率对于可持续运营至关重要。数据中心可以通过部署AI来自动调节冷却系统和服务器工作负载,应对需求高峰。实施智能节能技术有助于最大限度地减少浪费和运营成本,同时保持性能水平。
预测性维护利用机器学习在问题发生前进行预测。这可以最大限度地减少停机时间,并有助于延长基础设施的使用寿命。考虑到扩展所涉及的规模和成本,主动安排维修和更新以优化资源利用率的能力具有重要意义。
数字孪生与AI相结合,可创建动态模型来对组件和系统进行测试和验证。这些解决方案可用于确保复杂的数据中心保持稳健、富有弹性,并能支持未来的需求。AI算法会分析有关性能和环境条件的历史数据,为优化运营提供洞察。这些解决方案可以使用AI工作负载来模拟网络性能,从而发现并解决潜在的瓶颈问题。先进的测试和仿真工具是创建可扩展、高效、可靠的基础设施所需的技术堆栈的重要组成部分。
AI将加速完全自主的智能数据中心的实现,这些数据中心几乎可以处理所有操作,包括监控、维护、联网、能源管理和安全等,并且只需极少的人工投入。
面向未来的AI基础设施
随着AI的不断发展,数据中心必须适应日益复杂的工作负载。运营商迫切希望能以可持续的方式扩展基础设施来满足需求,而不必牺牲性能或可靠性。由于AI的未来发展仍存在不确定性,打造灵活、富有弹性且易于适应的基础设施至关重要。
通过AI系统编排在超大规模计算能力和边缘灵活性之间取得平衡将成为区分成败的关键,而那些能够顺应这一趋势的企业将在AI革命中脱颖而出。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。