长期以来,电子垃圾(e-waste)一直是数据中心运营商在环境可持续性和社会责任方面面临的一项挑战。然而,围绕人工智能的持续热潮可能会使数据中心的电子垃圾问题变得更加严重。
因此,现在数据中心运营商以及在数据中心内部署人工智能工作负载的企业应该开始考虑电子垃圾管理策略了。若能未雨绸缪,他们就可以减少人工智能基础设施造成的电子垃圾数量。
数据中心电子垃圾:基础知识
电子垃圾是指任何类型的不再使用并可能对环境造成危害的电子产品。数据中心的设备(如服务器、网络交换机和电源装置)可能含有铅和汞等化学物质。这意味着这些设备不再使用后有可能成为电子垃圾。
从环境可持续发展的角度来看,电子垃圾是有害的,因为数据中心设备中的危险化合物会渗入自然环境,对植物、动物和人类造成潜在危害。它还会对发展中国家的人民造成负面影响,因为这些国家往往是废弃IT设备的最终归宿。
人工智能会让电子垃圾问题变得更糟糕吗?
和很多技术行业一样,几十年来,数据中心一直在在助长电子垃圾的产生。但随着越来越多的企业寻求利用人工智能,尤其是生成式人工智能,这一问题可能会越来越严峻。
因为生成式人工智能应用和服务必须经过一个名为训练的过程,这个过程需要解析大量数据以识别模式。训练通常使用配备了图形处理器(GPU)的服务器进行。GPU的训练速度比传统CPU快得多,因为GPU具有更高的并行计算能力,这意味着它们可以同时处理更多数据。
在大多数情况下,人工智能训练是一个临时或一次性的过程。人工智能模型一旦完成训练,就不需要再次训练,除非开发人员想“教”它新的信息。这意味着,要想训练生成式人工智能模型很可能就要部署配备GPU的服务器,而对这些服务器的需求并不持续。
换句话说,在训练结束后,企业启动并运行了人工智能模型,对这些硬件的需求就会减少,因为除了训练人工智能模型之外,数据中心里GPU的用例并不多,而绝大多数组织都不需要经常重新进行训练。
从电子垃圾的角度来看,这有可能导致一些GPU或配备GPU的整个服务器的寿命明显缩短。它们仍能正常工作,但可能会因需求不足而被淘汰。
类似的故事已经在加密货币挖矿领域上演过了——GPU和其他专用硬件也很重要,因为它们经常被用于挖矿。由于为加密货币挖矿而制造的设备几乎没有其他有用的用途,因此很多设备也都成了电子垃圾。
减少人工智能造成的数据中心电子垃圾
好消息是,有一些方法可以避免人工智能训练造成数据中心电子垃圾的大量增加。
其中一个关键步骤就是企业共享人工智能训练服务器。企业可以选择“GPU 即服务”(GPU-as-a-Service)产品,这实际上是租用 GPU,而不是自己购买配备 GPU 的服务器进行训练。当他们完成训练后,这些GPU就可以被其他需要训练模型的企业使用。这比拥有无需持续使用的GPU服务器更具可持续性,更不用说成本效益了。
选择使用预先训练好的模型,而不是从头开始构建模型,是帮助降低人工智能电子垃圾风险的另一种方法。越来越多的模型可以从开源项目中获得,这些模型已经过训练,无需任何类型的专用数据中心基础设施。
当然,企业还应该确保在不再需要人工智能服务器时对其进行适当的回收或处理。但在理想情况下,他们首先应该尽量减少部署的服务器数量,因为这些服务器有可能在短时间内成为人工智能电子垃圾。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。