芯片制造商Nvidia公司周一宣布推出(https://nvidianews.nvidia.com/news/nvidia-reinvents-computer- graphics-with-turing-architecture)业界期待已久的下一代图形处理技术图灵架构。
图灵架构的发布是2016年推出Pascal芯片以来重大的升级。Nvidia首席执行官Jensen Huang(上图)在温哥华召开的每年一度的SIGGRAPH计算机图形大会上介绍了新的芯片和架构,他还宣布这些芯片是 “世界上第一个光线跟踪算法图形处理单元(GPU)”。
新的图形处理单元系列(https://nvidianews.nvidia.com/news/nvidia-unveils-quadro-rtx-worlds- first-ray-tracing-gpu)名为Quadro RTX,配有“16 teraflops的单精度性能”,速度最高可达“每秒10千兆光线”。
Huang表示,图灵架构是“计算机图形学的‘圣杯’”,也是Nvidia旗下十多年来最重要的创新,是自2006年CUDA GPU发明以来最大的飞跃。
图灵架构会取代Nvidia之前的Pascal架构,并将引进许多重要的进展,最重要的是所谓的“光线追踪”, 光线追踪是一种图形渲染技术,比旧的技术实现的渲染更逼真。
光线跟踪可以对计算机生成的场景实现光线和阴影进行超级现实的渲染。光线跟踪用的算法可以跟踪光的路径,进而模拟光与计算机生成的世界里虚拟对象的交互方式。
到目前为止,光线跟踪过程只限于在大型电影制作工作室里使用,因为只有这些人能承受大量计算机处理能力所需的大预算。而Nvidia推出的新架构和芯片将使这项技术得到更广泛的应用。
图灵架构的光线跟踪引擎由新的“RT内核”提供,RT内核用于加速计算的运行,以确定光在3-D空间中如何与环境的交互作用。 Nvidia估计旗下新的Quadro RTX芯片的光线跟踪性能可比Pascal芯片提高25倍,能以高达每秒10千兆线(Gigaray)的速度进行所需的计算。
Nvidia曾在今年三月的公司GPU技术大会期间首先展示了新的GPU光线跟踪功能,在会上演示了专门生成的星球大战图像片段。
Quadro RTX GPU将在第四季度推出三个版本:Quadro RTX 8000、Quadro RTX 6000和Quadro RTX 5000。
Nvidia表示,这些GPU还具有名为“Tensor Core”(张量内核)的功能,这些张量内核处理器可以加速机器学习的训练和推导。张量内核将提供速度高达每秒500万亿次张量运算。
将GPU与Nvidia的NVLink配合使用可以进一步提高光线跟踪性能,两个RTX 8000芯片就可以提供高达96千兆位的内存和每秒100GB的数据传输速度。
Nvidia表示,这种性能令人工智能驱动的应用可以打造新的功能,例如深度学习抗锯齿(Deep learning antialiasing)。深度学习抗锯齿是一种新型的运动图像生成技术。其他的应用包括“去噪”、分辨率缩放和视频重定时等。
Jon Peddie Research公司的总裁Jon Peddie告诉记者, “真是个突破,比原定计划提前了五年。Nvidia的硬件加速器和软件开发结合在一起取得了巨大成功。几十年来,光线跟踪一直是计算机图形学的圣杯,而一旦得到充分的了解和研究后,各种新应用就会出现。”
记者问到我们可能会看到哪些由新的Nvidia GPU构建的特定类型应用程序,Peddie表示,新Nvidia GPU的影响会很广泛,会涵盖声学、医学诊断甚至天体物理学的各种内容。该分析师称,光线跟踪在机器学习应用程序中也具有巨大的潜力,特别是在诸如计算和渲染等共享工作负载或串联处理方面,RTX系列将提供“难以想象的投资回收率”。
Nvidia还为开发人员提供了新的RTX图形平台,以充分利用这些新芯片。该平台包括用于光线跟踪、AI、光栅化和模拟的应用程序编程接口。平台还支持Nvidia新开源的Material Definition Language(材料定义语言)软件开发套件,该软件开发套件能将真实世界里材料的精确外观和感觉集成到渲染应用程序。
Nvidia表示,RTX 8000芯片配有48GB内存,并将以10000美元的“估计街道价格”开始销售。配有24GB内存的RTX 6000的售价为6300美元,而配备16GB内存的RTX 5000的售价为2300美元。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。