研究人员正在努力研发更小型、更紧凑的人工智能系统,以解决人工智能系统对数据日益增长的需求所带来的一系列挑战。而且,不只是如今新闻报道中的生成式人工智能模型需要变得更小,那些能够运营工业设施、智慧城市或自动驾驶汽车的人工智能系统也需要如此。
大型人工智能模型面临的挑战
当你使用人工智能(无论是在手机还是笔记本电脑上)时,大部分实际计算都发生在数据中心。这是因为最流行的人工智能模型在计算上非常耗费资源——你的笔记本电脑可能没有足够的计算能力来运行查询。这些人工智能系统还会消耗大量能源。据说,在生成式人工智能模型中进行一次查询(例如问“生成式人工智能是如何工作的?”这样一个问题)所消耗的电量相当于一个灯泡点亮一小时的电量。
这给人工智能的使用带来了两个挑战。首先,这引发了人们对人工智能可持续性的担忧,因为为人工智能供电的电力也会增加温室气体排放。
在最近一项针对全球技术领导者的调查“The Impact of Technology in 2025 and Beyond: an IEEE Global Study”中,35%的人表示人工智能的实用性远远超过其能耗,而34%的人表示人工智能的能耗和实用性处于良好的平衡状态。大约五分之一(21%)的人认为人工智能的益处是显著的,但高能耗仍然是一个问题,而8%的人认为大量的能耗超过了人工智能的益处。
其次,这意味着任何依赖人工智能的事物要么需要更多的电力来运行,要么需要连接到数据中心。
削减人工智能规模的前沿技术正在取得一些成功(https://spectrum.ieee.org/1-bit-llm)。
IEEE会员Jay Shah表示:“这些(技术)耗电量显著降低,通常在瓦特范围内运行,而不是大型数据中心系统消耗的千瓦或兆瓦。”
谁需要紧凑型人工智能?
更小、更节能的人工智能系统可以用于多种应用,比如自动驾驶汽车。
Shah说:“就长期可靠性和降低功耗而言,下一代低功耗人工智能加速器对自动驾驶汽车的未来至关重要。它们能够实现实时决策并实现更紧凑的设计。”
同时,它们对机器人系统来说也是个福音,因为它们将降低机器人的电力需求。
IEEE高级会员Cristiane Agra Pimentel表示,紧凑型人工智能系统在工业环境中也将很有用,在这种环境中,更小的控制系统可以使工厂流程自动化。
Pimentel说:“在工业领域使用紧凑型人工智能将越来越适用于机器操作控制、产品追溯控制和供应链系统管理。”
小型人工智能存在权衡取舍
大型语言模型通常适用于多种用途。它们可以协助撰写大学论文,还能帮你构建网站。紧凑型系统可以针对特定系统进行优化。它们可以被设计成公司的聊天机器人或者自动补全计算机代码。
但是,紧凑型人工智能系统目前准确性较低,因为它们通常使用较少的数据。
Shah表示:“考虑到低功耗、更快的推理时间以及在边缘设备上运行人工智能的能力等好处,这些权衡通常是可以接受的。研究人员和开发人员会继续努力提高紧凑型人工智能系统的准确性,同时保持其效率优势。”
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。