与大多数技术一样,在生成式AI领域,时间本身就是宝贵的财富。但对于生成式AI,这种“宝贵”还能够明确量化。AI模型执行操作(例如数据训练或者生成图像和视频)所耗费的时间越长,对应的成本投入也就越高。
英伟达多伦多AI实验室的研究人员正努力解决生成图像与视频的时间问题。在本周英伟达GTC 2024大会上,他们概述了这项工作的部分成果,展示的相关进展有助于更快(因此更经济)生成“噪声”更少的图像与细节更丰富的3D图形,甚至能够将以往耗时几周或几个月的任务缩短至几天乃至几分钟。
在展会上的演讲中,英伟达AI研究副总裁Sanja Fidler谈到了生成式AI的这一“关键进展”,即“设计出一系列新型算法,能够在规模极大的数据集和计算机上训练庞大模型并以可负担的成本执行推理。”
在图像生成方面,研究人员主要着眼于推动扩散模型的提速。此类模型善于解决高保真度、高分辨率图像这一棘手难题,同时也是OpenAI Dall-E3和谷歌Imagen等文本到图像模型的底层技术。从本质上讲,图像生成是在消除“噪声”——也就是图像原始场景内容中不存在的伪影,但这同时也会导致图像内容模糊、像素化、显示粗糙颗粒或者其他影响质量的问题。
因此行业也曾尝试利用其他模型来提高图像准确性,例如GAN和flow model流模型,但扩散模型最终成为最前沿的解决方案。扩散模型的处理过程分为两步,首先向数据集中添加高斯噪声(前向扩散过程),之后反转加噪过程,本质上就是教导模型如何从图像中去除噪声。
英伟达研究人员认真研究了扩散模型,包括采样、参数化和训练等环节,并探索了ADM(消融扩散模型)去噪网络的性能优化与训练提速方法。
在GTC大会最后一天发布的技术博客中,英伟达负责神经生成模型与计算机图形学的高级研究科学家Miika Aittala写道,英伟达研究人员开发的EDM-2是一种“简化的神经网络架构与训练配方,其类似于一块厚实、干净的盖板,能够在隔离ADM强大内核的同时摆脱过往的累赘与阻碍。”
研究人员还重点关注了“一种鲜为人知,但又极其重要的网络权重指数移动平均过程,并大大简化了该超参数的调节方式。”
以此为基础,EDM-2能够与GAN和VDM++等其他方法正面竞争,并在生成质量相当的前提下降低复杂性、加快训练速度,且随着模型体量增加其生成质量也会不断提高。
Fidler在演讲中表示,研究结果解决了模型用户和开发人员们的担忧。用户最关注的是图像质量,而EDM-2的输出质量非常高。她还提到,“我们还测量了计算时间,也就是模型的实际训练周期。开发人员对这项指标同样非常关注,因为训练时间与周转时间就决定着训练成本。”
训练速度越快,训练成本就越低。而根据Fidler的介绍,EDM-2的训练速度相当于其他扩散模型的5倍。也就是说,以往需要一个月的训练作业现在可能几天之内即可完成。
研究人员们探索的关键,是通过解决模型中激活与权重的增长问题来改善神经网络的运行效率。Aittala写道,这个复杂的问题虽然不会阻止神经网络的学习过程,但这是一种“不健康的现象,严重阻碍了训练的速度、可靠性与可预测性,最终有损实际输出质量。”
博文同时提到,消除激活与权重增长并制定指数移动平均线(EMA)的计算方式(在本质上就是将EMA长度较短的中间训练状态定期存储为快照),要比重新运行整个训练高效得多。
Fidler表示,英伟达将公布EDM-2代码,帮助各方提高扩散模型的训练效率。
作为以速度和保真度为核心诉求的研究成果,LATTE3D是一套文本到3D生成式AI模型,可用于输出物体和动物的3D表示。Fidler介绍称,使用LATTE3D几乎可以让高质量图像输出即时化,用时仅在一秒左右。
LATTE3D可用于电子游戏、设计项目乃至机器人虚拟训练等各个领域,这也是GTC大会期间备受关注的生成式AI与自动化应用方向。
Fidler在博文中指出,“一年之前,AI模型还需要一个小时才能生成这种质量的3D视觉效果;但以当前的技术水平,整个过程只需要10到12秒。我们现在可以更快产出结果,帮助各行业的创作者获得近乎实时的文本到3D输出能力。”
英伟达的研究人员还在论文中提到,其他3D图像生成方法往往涉及一系列权衡。虽然权衡的结果可能相当出色,但针对每条提示词的优化过程往往需要个把小时。
他们写道,“像ATT3D这样的摊销方法可以同时优化多条提示词以提高效率,从而实现文本到3D的快速生成。但由于其泛化能力很差,且无法捕捉高频几何与纹理细节,因此很难被扩展至大型提示集。”
此外,“这些方法往往要求昂贵且耗时的优化过程,创作者可能需要个把小时才能根据文本提示词重大单个3D对象。”
而借助LATTE3D(大规模摊销型文本到增强3D),英伟达构建起一套可扩展架构,并在优化过程中使用3D数据实现论文作者所谓“3D感知扩散先验、形状正则化及模型初始化来实现健壮的多样性与复杂训练提示能力。”LATTE3D利用神经场与纹理表面生成“在一次前向传递中创建细节丰富的纹理网格”,借此将3D对象的生成耗时控制在400毫秒以内。
根据博文介绍,LATTE3D并非从零开始设计或者解析3D资源库,而是“根据每条文本提示词生成多个不同的3D形状选项,可供创作者灵活选择。所选对象可以在几分钟内完成优化以进一步提升质量。”
之后,用户可以将这些成果转发至图形应用程序或平台中,包括英伟达Omniverse,在那里使用通用场景描述(OpenUSD)3D工作流程与软件做后续处理。
该模型使用英伟达自家的“Ampere”A100 GPU进行训练,并配合ChatGPT聊天机器人为其提供各种文本提示输入,因此可以轻松应对用户输入的短语并生成相应的3D对象。上图所示,为与狗相关的不同提示词生成的相应结果。
英伟达研究人员在演示中仅使用单块RTX A6000 GPU。
好文章,需要你的鼓励
DeepSeek 的 AI 模型在处理效率方面取得重大突破,可能对数据中心产生深远影响。尽管引发了科技股抛售,但业内专家认为,这项创新将推动 AI 应用普及,促进大规模和分布式数据中心基础设施需求增长。更高效的 AI 算法有望降低成本、扩大应用范围,从而加速数据中心行业发展。
Rivian 正全面推进 AI 技术整合,开发下一代电动车平台,以挑战特斯拉的市场地位。公司计划于 2025 年实现免手驾驶,2026 年达到 L3 级自动驾驶。Rivian 还将在车载系统中广泛应用 AI 技术,提供语音交互等功能,并计划推出更实惠的车型,扩大市场份额。
Postman 发布了 AI 代理构建器,这是一款创新的生成式 AI 工具。它允许开发者通过整合大语言模型、API 和工作流程来设计、构建、测试和部署智能代理。这一工具旨在简化 API 交互、优化工作流程,并支持创建能执行复杂任务的智能代理,标志着 API 优先的 AI 开发迈出了重要一步。
微软第二财季利润同比增长10%,人工智能年化收入达130亿美元。然而,云计算业务未达预期,下季度指引不及预期,导致盘后股价下跌。公司资本支出创新高,以满足AI和云需求。尽管Azure增长放缓,但微软对下半年增速加快持乐观态度。同时,中国AI初创公司DeepSeek的崛起引发业界对AI基础设施投资的重新审视。