去年,英伟达(NVIDIA)公司宣布,日本软银集团和英伟达已达成一项协议,后者将以400亿美元的价格从软银集团手中收购英国芯片设计公司Arm。当时的官方新闻稿说,此次合并将NVIDIA领先的AI计算平台与Arm广阔的生态系统结合在一起,创建一个人工智能时代的顶级计算公司,在加速创新的同时把公司带到大型,高增长的市场。

应该说这样的愿景非常宏大,而在近日举行的GTC 2021大会上,NVIDIA宣布了多个基于Arm的解决方案,为双方的协同创新做了最好的注脚。这些解决方案将NVIDIA的GPU和软件与基于Arm的CPU相结合,使得Arm架构灵活和高能效的优点扩展至从云到边缘的各类计算工作负载。
这些解决方案覆盖了从云端到软件、HPC、边缘计算和终端,包括将基于AWS Graviton2的Amazon EC2实例与NVIDIA GPU相结合;通过全新HPC开发者套件,为科学和AI应用的开发提供支持;提升边缘视频分析和安全功能;打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC。
NVIDIA创始人兼首席执行官黄仁勋表示:“Arm的高能效和IP商业模式使其成为了全球最受欢迎的CPU。Arm生态系统中包括全球各地的技术公司,他们蓄势待发,致力于将基于Arm的产品带入云、超级计算、PC和自主系统等新市场。我们致力于将Arm生态系统扩展到移动和嵌入式系统以外的市场,而今日宣布的新合作伙伴关系,正是我们迈出的重要一步。”
云端合作瞄准新机会
NVIDIA与CSP的合作其实非常广泛,当然这也包括AWS。只不过这次NVIDIA和AWS是在云端部署由GPU加速的基于Arm的实例。新的Amazon EC2实例将AWS Graviton2处理器和NVIDIA GPU相结合,将实现多重优势,包括降低成本,支持更丰富的游戏串流体验,以及为基于Arm的工作负载提供更高的性能。通过这些实例,游戏开发者将能够在AWS上本地运行安卓游戏,使用NVIDIA GPU加速渲染和编码,且无需运行仿真软件就能将游戏串流传输至移动设备。
其实除了AWS,在云计算领域,NVIDIA与Arm服务器SoC和OEM合作伙伴也开展了多个方面的合作。例如,NVIDIA与Ampere Computing合作,基于Ampere Altra的系统包含两个80核Arm SoC、四个NVIDIA T4 GPU和一个NVIDIA Mellanox BlueField-2 DPU。它们可以同时为128名游戏用户提供服务,为Android-in-Cloud服务提供流媒体服务,这种服务受到中国越来越多的5G智能手机用户的欢迎。
此外,NVIDIA工程师不断在向Arm移植代码,并开发新的工具来优化Arm服务器和用户之间的云游戏编码、渲染和串流传输方式。这些工具被技嘉科技、浪潮和纬颖等Arm服务器OEM合作伙伴所广泛使用。
除游戏外,云服务供应商还支持用于GPU加速的机器学习、存储和其他应用的Arm服务器。因此,NVIDIA为Arm服务器提供一系列GPU管理和监控工具,包括可以在内置Kubernetes的Arm上运行Docker容器的NVIDIA容器工具集。
高性能计算的新方向
去年由日本理研所和富士通联合开发的基于Arm架构的超级计算机 “富岳(Fugaku)”连续第二次登上Top500榜首。“富岳”(Fugaku)是世界上第一台Arm架构处理器驱动的TOP500高性能计算集群,认证算力超过51.3亿亿次每秒。
这足以看出Arm在HPC领域的巨大潜力,而在近日Armv9的推出更是Arm处理器将不再局限于移动/嵌入式市场,现已经扩展到PC、HPC高性能计算、深度学习等新市场。例如Armv9支持SVE2指令集,SVE最早是ARM与富士通合作的浮点性能扩展,TOP500超算富岳就使用SVE指令集,SVE2就是第二代SVE浮点指令。
与SVE的128位矢量相比,SVE2可以支持128为倍数、最多2048位运算。因此SVE2可以增强ML机器学习、DSP信号处理能力,提升未来5G、虚拟现实、增强现实以及CPU本地运行ML的性能,同时Arm未来还会继续提升AI人工智能性能。
在本次GTC大会上,NVIDIA发布了NVIDIA Arm HPC开发者套件,为科学计算提供支持。该套件包含1个Ampere Altra CPU,它拥有80个运行频率高达3.3GHz 的Arm Neoverse核;双NVIDIA A100 GPU,每个GPU可提供312 teraflops 的FP16深度学习性能;以及两个用于加速网络、存储和安全的NVIDIA BlueField-2 DPU。
该开发者套件可运行NVIDIA HPC SDK,这是一套编译器、库和工具,将助力工程师、科学家和开发者创建HPC和AI应用,并将其迁移到GPU加速的Arm计算系统中。开发者和ISV合作伙伴可使用开发者套件,轻松地对其软件进行迁移和确认,并进行性能分析。
该开发者套件将于2021年第三季度上市。此外,NVIDIA正在与实验室负责人、科学家和合作伙伴展开合作,帮助他们将软件移植到Arm CPU和NVIDIA GPU上运行。
在HPC和数据科学方面,NVIDIA正在与富士通和SiPearl等其他合作伙伴共同致力于扩展Arm生态系统。其中,SiPearl正在设计并向市场推出欧洲的高性能、高能效处理器Rhea,它将为欧洲的exascale(百亿亿次级)超级计算机提供支持。NVIDIA的新工具和SDK将帮助开发者为Arm构建加速HPC应用,为超级计算中心提供丰富的Arm生态系统。
总之,得到NVIDIA大量工具支持的Arm处理器IP产品组合等先进技术让各种新的平台成为可能。用于Arm的CUDA工具包将NVIDIA GPU加速计算和AI功能引入Arm生态系统。通过CUDA,开发者可以访问TensorRT进行深度学习推理、访问DeepStream进行视频分析等。
边缘计算与终端
除了云端数据中心和HPC等领域,NVIDIA正在扩大与Marvell的合作,将OCTEON DPU与GPU相结合,以加速云、企业、运营商和边缘应用。两者的结合将加速AI工作负载,例如从边缘到云端的网络优化和安全,以提升系统性能并降低延迟。
企业网络的边缘是下一个重要的计算领域。NVIDIA EGX边缘AI平台将支持包括Arm在内的所有主要处理器架构。由于认识到边缘对高能效计算的需求,NVIDIA将Arm作为其各垂直市场加速计算和AI平台的核心。通常,这些平台将GPU与像Jetson等嵌入式模块中的多核Arm CPU配对。NVIDIA将这些模块的定制版本与专用于医疗(Clara)、机器人(Isaac)、自动驾驶汽车(DRIVE)等行业的开发者套件配对,为Arm软件合作伙伴和SoC供应商提供了大量实现企业AI的机会。
在PC领域,目前多家供应商的Windows PC和Chromebook已在Arm处理器上运行,并且更多消费级平台正在加入其中,此举推动了未来个人系统的发展。NVIDIA长期以来使用GPU支持各种形状和尺寸的PC,包括基于Arm的系统。最近的一项调查显示,超过70%的游戏PC使用NVIDIA GPU。
在GTC大会上,NVIDIA与全球最大的基于Arm的SoC供应商之一联发科合作,致力于共同打造一个支持Chromium、Linux和NVIDIA SDK的参考平台。NVIDIA RTX GPU与高性能、高能效的Arm Cortex处理器相结合,将为新款笔记本电脑带来逼真的光线追踪图形技术和顶尖的AI技术。
未来,具有丰富图形和连接性、性能与当今PC一样强大且更加节能的AI加速的个人系统将迎来机遇。Arm生态系统可以在个人系统等各个市场中使用NVIDIA 参考设计,就像当前在医疗市场中使用的那样。
总结
NVIDIA与Arm的协同效应正在持续发酵。在记者写作本文的同时,我获悉NVIDIA也推出了自己的首款数据中心CPU——Grace,而这款服务器就是基于Arm数据中心架构。我们看到NVIDIA除了GPU之外,CPU与DPU都与Arm有着巨大的关系,这样未来NVIDIA未来将会同时具备GPU、CPU和DPU三种芯片,这意味后续NVIDIA的发展提供了巨大巨大的想象空间。
好文章,需要你的鼓励
阿里云CEO吴泳铭在财报电话会议上表示,AI需求增长如此迅猛,以至于服务器部署速度无法跟上客户需求。公司正在对GPU进行配给制,优先满足使用全套阿里云服务的客户需求。过去12个月,阿里巴巴在AI相关基础设施上投入1200亿元人民币,预计三年预算可能超过当前的3800亿元。阿里云智能集团季度营收达56亿美元,同比增长34%。
新加坡南洋理工大学团队开发的NEO模型颠覆了传统视觉语言AI的设计思路,从模块化拼接转向原生统一架构。仅用3.9亿图文配对数据就实现了与大型模块化系统相媲美的性能,证明了端到端训练的有效性,为AI系统设计开辟了新路径。
OpenAI为ChatGPT推出"购物研究"新功能,恰逢假期购物季。该功能面向免费和付费用户开放,支持移动端和网页版。用户询问购物问题时,ChatGPT会提供个性化购物助手服务,通过一系列问题帮助用户筛选价格、用途和功能偏好。该功能基于专为购物任务优化的GPT-5 mini版本,从优质网络资源获取产品信息。OpenAI计划推出即时结账功能,允许用户直接在ChatGPT内购买商品。
谷歌联合德克萨斯大学等机构开发出LATTICE框架,这是一种革命性的信息检索系统,能像智能图书管理员一样工作。它将文档组织成语义树结构,用AI推理能力进行智能导航搜索,在复杂查询任务上比传统方法准确率提高9%以上。该系统无需训练即可适应新领域,为未来智能搜索指明了方向。