与时俱进 NVIDIA持续创新赋能专业视觉计算原创

作者：李祥敬

近日，全新NVIDIA RTX A6000和NVIDIA A40正式发布，该GPU基于NVIDIA Ampere架构，采用了全新RT Core、Tensor Core和CUDA Core加速图形、渲染、计算和AI，与上一代产品相比增速显著。

随着5G、云计算、AI等技术的普及，图形渲染、VR/AR等工作负载成为内容创作领域必须面对的首要挑战。

在过去20年里，NVIDIA在各式各样的图形和可视化运算及AI等不同领域，包括现在很流行的AEC、BIM、CAM等，针对不同用户（电视、娱乐、传媒、现场直播、汽车制造、设计、大数据运算、科学运算、专业电影制作、AI等）提供了基于GPU的产品。

NVIDIA 中国区高级技术市场经理施澄秋告诉记者，NVIDIA深耕专业视觉计算领域，从Kepler到Maxwel、Pascal、Turing，以及最新的Ampere架构，在显存技术、规格和支持的软件运算规格、以及支持当下最时髦的5K、8K、VR/AR等一系列的软硬件及周边配套的环境配件支持中，NVIDIA的产品与时俱进，提供业界最先锋、一流的用户体验及最顶级的环境库支持。“二十年过去了，NVIDIA每一代产品的迭代都带来了大幅性能提升，之后造就了我们在专业可视化领域里面所带来的耳目一新的用户体验。”

与时俱进的第二代RTX GPU

Ampere架构和Turing架构相比，具有多方面的优势：第二代RT Core最高可提供2倍于上一代的吞吐量，以及并行光线追踪、着色和计算功能；第三代Tensor Core最高可提供5倍于上一代的吞吐量，并支持全新TF32和BF16数据格式，结合稀疏运算特性提供10倍加速性能；全新CUDA Core最高可提供2倍于上一代的FP32吞吐量，能够显著提高图形和计算能力。

施澄秋表示，无论是在CAD、CAM或者其它比较复杂的3D设计图形、仿真工作流程中，为了提升工作效率以及每瓦特的性能（性能功耗比），大部分情况会采用FP32的精度进行运算。因此针对FP32计算模式，第二代RTX GPU做了很多优化工作。

我们知道Turing架构引入了专门针对光线追踪的运算单元，采用BVX算法使用一个专门电路运算光线轨迹及当前画面里3D建模之间的光线的反射、折射或更复杂的轨迹，比如：镜面反射、慢反射或者半折射等类似光线互动，让每一个电脑画面更加逼真、让电脑处理出来的画面可以达到照片级渲染精度，让电脑处理出来的3D动画能够达到电影级真实效果。

在Ampere架构中，NVIDIA推出了第二代NVIDIA光线追踪运算核心，针对BVX算法做了大量优化，比如Motion flow、阴影功能或者去噪、降音功能。“得益于第二代光线运算核心，设计师及其用户可以获得更高的视觉准确性、更干净、更漂亮的渲染结果，而且还可以提升渲染效率。”施澄秋说。

此外，第二代RTX GPU支持48GB GPU内存，通过NVLink连接两个GPU可以扩展到96GB，支持大规模复杂场景以及运算模型数据集；PCIe Gen 4提供2倍于上一代的带宽，加速数据密集型工作负载（如数据科学、混合渲染和视频流）的GPU数据传输。

施澄秋表示，因为显存不足会导致系统主内存和显卡不停地进行数据交换，这个过程可能又浪费掉了大量冗余时间。而使用RTX A6000或A40的时候，就可以帮助大家节约非常多的工作时长、能够大幅提升工作流程和效率，优化每一个步骤。

而且，新一代的Ampere架构提供的实时光线追踪的功能，以及基于AI的许多复杂性后期特效，比如降噪、残缺画面修补、破损画面自动填充、像素自动填充等等技术都可以和5G结合起来，确保实时渲染结果。

不管是RTX A6000还是NVIDIA A40，它们是真正的企业级硬件和生产力工具，支持所有常规ISV应用程序。通过ISV认证，无论是工作站还是服务器，它都易于部署，性能和可扩展性也一目了然。

当今数据中心的工作负载非常越来越大，从AI到专业可视化，从虚拟图形工作站GPU到虚拟数据科学工作站GPU。科学家和工程师在这些领域里都想利用新的Ampere架构GPU进行突破，所以NVIDIA相应推出了不同于A6000主动散热的“被动散热解决方案”，能够最大化提升尺寸、性能和功耗比，就是A40 GPU。

第二代RTX GPU通过添加NVIDIA虚拟工作站等NVIDIA虚拟GPU软件，为远程用户提供针对图形工作负载和强大虚拟工作站实例的大规模支持，赋力高端设计、AI和计算工作负载的更大规模工作流程。

施澄秋说，第二代RTX GPU还可以支持NGC NVIDIA GPU Cloud，并进行了大量测试和验证，比如高性能计算软件。所以用户可以开箱即用，没有那么多复杂的调试过程。“基于全新Ampere架构的所有特性，第二代RTX GPU真正提高用户工作效率、改善工作流程，并提升生产力。”

一站式工作流程协同平台

在当下，更多专业用户选择了分散式办公，或者说是在家办公、分工协作的办公。而基于专业视觉行业运算模拟需求的情况下，整个工作负载都做出了相应改变，依托协同工作，最大限度内帮助其优化工作流程，提升工作效率。

基于5G、移动互联网等技术的发展，互动式操作、渲染和视觉远程协作变成了一个现实。NVIDIA推出了跨软件、跨应用程序的在线合作式/分享式总体解决方案平台Omniverse，仅需一个单一平台就可以完成多个设计师/多个科学家/多个工作人员之间的协同式分布合作。

过去这些平台的用户可能需要在A平台做材质、B平台做模型、C平台做贴图，最后到D平台去做所谓的组装。这个过程中可能面临着非常繁琐的数据资产存取/导入/导出，在各个不同平台之间进行不同格式转换，整个过程非常繁琐且耗费时间，甚至可能引发中间工作流程所带来的冗余和混乱。

如今，借助NVIDIA Omniverse平台，无论用户使用什么软件、工具和平台，都能通过NVIDIA Omniverse这个入口，帮助分发协调工作、整合工作流程，让所有用户、设计师、科学家和工程人员都在同一个NVIDIA Omniverse平台上完成分工和协作，并可以实时看到工作结果。

Omniverse可以利用NVIDIA各式各样的软件堆栈，包括物理加速、材质描述库、MDL语言以及NVIDIA和PhysX合作的USD通用场景描述语言，存取数据资产让各式各样的第三方ISV、软件专业工具程序进行调用。一切都能在NVIDIA Omniverse平台上实时一键分享、合作以及实现协同分布式远程办公。

施澄秋介绍说，在使用NVIDIA软件的时候，最重要的是能让NVIDIA用户通过API在各式各样不同渲染器之间移动数据，其中的关键就是采用PhysX USD技术。USD是一个通用的全局场景描述文件，能够把数字资产解析成在不同软件平台、不同ISV应用程序下都可以进行合作使用并统一存取的格式。

通过Omniverse，利用USD工具包就可以使用NVIDIA AI/VR的所有套件，包括实时光线追踪和RTX渲染等。因为Omniverse平台可以存取大量的GPU资源，并且是可叠加、可扩充、可管理的，这意味着可以通过在企业数据中心或者云端部署好的大量的NVIDIA GPU，例如A6000/A40能够分配不同的算力，给Omniverse平台当前的不同用户赋予相应的运算能力。

NVIDIA在Omniverse平台上使用USD十分关键。它是一个开放的API，支持复杂的场景贴图，专门在各式各样的场景、千差万别的应用程序之间帮助互换数据资产。此外，它还能够分层式管理数据资产，让许多不同部门的大型团队在同一个场景工作并共享数据，从而进行协同和分布。

如今，借助Omniverse我们能把虚拟数据提供给自动驾驶汽车的车载计算机，车载计算机会把虚拟世界创造的3D场景认成车载雷达所感知到的真实世界场景，它会被训练然后做出真实反馈。这种把训练好的结果存储在车载计算机中，就是我们所谓的“深度学习”或者“机器学习”最开始的理念。我们只不过是把以前由摄像头真实感知、真实抓取的真实场景变成由Omniverse平台生成的仿真3D场景。

不仅仅是设计、AEC、媒体娱乐、机器人或者是自动驾驶汽车飞机等，各行各业都能利用Omniverse平台进行相应的仿真。借助Omniverse平台，大家可以分工协作完成很多以前需要在各个不同数字资产、脚本、ISV程序中做的数据交换。

Omniverse整合了NVIDIA在图形、仿真和AI领域的突破，并获得了许多主要的软件领导者支持，例如Adobe、Autodesk、Bentley Systems、Robert McNeel & Associates和SideFX等。NVIDIA还与其他领先的软件供应商合作，让所有艺术家和设计师都可以在自己选择的应用上通过Omniverse开展协作。