与大多数技术一样,在生成式AI领域,时间本身就是宝贵的财富。但对于生成式AI,这种“宝贵”还能够明确量化。AI模型执行操作(例如数据训练或者生成图像和视频)所耗费的时间越长,对应的成本投入也就越高。
英伟达多伦多AI实验室的研究人员正努力解决生成图像与视频的时间问题。在本周英伟达GTC 2024大会上,他们概述了这项工作的部分成果,展示的相关进展有助于更快(因此更经济)生成“噪声”更少的图像与细节更丰富的3D图形,甚至能够将以往耗时几周或几个月的任务缩短至几天乃至几分钟。
在展会上的演讲中,英伟达AI研究副总裁Sanja Fidler谈到了生成式AI的这一“关键进展”,即“设计出一系列新型算法,能够在规模极大的数据集和计算机上训练庞大模型并以可负担的成本执行推理。”
在图像生成方面,研究人员主要着眼于推动扩散模型的提速。此类模型善于解决高保真度、高分辨率图像这一棘手难题,同时也是OpenAI Dall-E3和谷歌Imagen等文本到图像模型的底层技术。从本质上讲,图像生成是在消除“噪声”——也就是图像原始场景内容中不存在的伪影,但这同时也会导致图像内容模糊、像素化、显示粗糙颗粒或者其他影响质量的问题。
因此行业也曾尝试利用其他模型来提高图像准确性,例如GAN和flow model流模型,但扩散模型最终成为最前沿的解决方案。扩散模型的处理过程分为两步,首先向数据集中添加高斯噪声(前向扩散过程),之后反转加噪过程,本质上就是教导模型如何从图像中去除噪声。
英伟达研究人员认真研究了扩散模型,包括采样、参数化和训练等环节,并探索了ADM(消融扩散模型)去噪网络的性能优化与训练提速方法。
在GTC大会最后一天发布的技术博客中,英伟达负责神经生成模型与计算机图形学的高级研究科学家Miika Aittala写道,英伟达研究人员开发的EDM-2是一种“简化的神经网络架构与训练配方,其类似于一块厚实、干净的盖板,能够在隔离ADM强大内核的同时摆脱过往的累赘与阻碍。”
研究人员还重点关注了“一种鲜为人知,但又极其重要的网络权重指数移动平均过程,并大大简化了该超参数的调节方式。”
以此为基础,EDM-2能够与GAN和VDM++等其他方法正面竞争,并在生成质量相当的前提下降低复杂性、加快训练速度,且随着模型体量增加其生成质量也会不断提高。
Fidler在演讲中表示,研究结果解决了模型用户和开发人员们的担忧。用户最关注的是图像质量,而EDM-2的输出质量非常高。她还提到,“我们还测量了计算时间,也就是模型的实际训练周期。开发人员对这项指标同样非常关注,因为训练时间与周转时间就决定着训练成本。”
训练速度越快,训练成本就越低。而根据Fidler的介绍,EDM-2的训练速度相当于其他扩散模型的5倍。也就是说,以往需要一个月的训练作业现在可能几天之内即可完成。
研究人员们探索的关键,是通过解决模型中激活与权重的增长问题来改善神经网络的运行效率。Aittala写道,这个复杂的问题虽然不会阻止神经网络的学习过程,但这是一种“不健康的现象,严重阻碍了训练的速度、可靠性与可预测性,最终有损实际输出质量。”
博文同时提到,消除激活与权重增长并制定指数移动平均线(EMA)的计算方式(在本质上就是将EMA长度较短的中间训练状态定期存储为快照),要比重新运行整个训练高效得多。
Fidler表示,英伟达将公布EDM-2代码,帮助各方提高扩散模型的训练效率。
作为以速度和保真度为核心诉求的研究成果,LATTE3D是一套文本到3D生成式AI模型,可用于输出物体和动物的3D表示。Fidler介绍称,使用LATTE3D几乎可以让高质量图像输出即时化,用时仅在一秒左右。
LATTE3D可用于电子游戏、设计项目乃至机器人虚拟训练等各个领域,这也是GTC大会期间备受关注的生成式AI与自动化应用方向。
Fidler在博文中指出,“一年之前,AI模型还需要一个小时才能生成这种质量的3D视觉效果;但以当前的技术水平,整个过程只需要10到12秒。我们现在可以更快产出结果,帮助各行业的创作者获得近乎实时的文本到3D输出能力。”
英伟达的研究人员还在论文中提到,其他3D图像生成方法往往涉及一系列权衡。虽然权衡的结果可能相当出色,但针对每条提示词的优化过程往往需要个把小时。
他们写道,“像ATT3D这样的摊销方法可以同时优化多条提示词以提高效率,从而实现文本到3D的快速生成。但由于其泛化能力很差,且无法捕捉高频几何与纹理细节,因此很难被扩展至大型提示集。”
此外,“这些方法往往要求昂贵且耗时的优化过程,创作者可能需要个把小时才能根据文本提示词重大单个3D对象。”
而借助LATTE3D(大规模摊销型文本到增强3D),英伟达构建起一套可扩展架构,并在优化过程中使用3D数据实现论文作者所谓“3D感知扩散先验、形状正则化及模型初始化来实现健壮的多样性与复杂训练提示能力。”LATTE3D利用神经场与纹理表面生成“在一次前向传递中创建细节丰富的纹理网格”,借此将3D对象的生成耗时控制在400毫秒以内。
根据博文介绍,LATTE3D并非从零开始设计或者解析3D资源库,而是“根据每条文本提示词生成多个不同的3D形状选项,可供创作者灵活选择。所选对象可以在几分钟内完成优化以进一步提升质量。”
之后,用户可以将这些成果转发至图形应用程序或平台中,包括英伟达Omniverse,在那里使用通用场景描述(OpenUSD)3D工作流程与软件做后续处理。
该模型使用英伟达自家的“Ampere”A100 GPU进行训练,并配合ChatGPT聊天机器人为其提供各种文本提示输入,因此可以轻松应对用户输入的短语并生成相应的3D对象。上图所示,为与狗相关的不同提示词生成的相应结果。
英伟达研究人员在演示中仅使用单块RTX A6000 GPU。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。