英伟达大举发力,公布全新Ampere架构、机器人与无人驾驶汽车技术

英伟达公司CEO黄仁勋邀请10万名GTC 2020参会者莅临他的厨房。

英伟达公司CEO黄仁勋邀请10万名GTC 2020参会者莅临他的厨房。

英伟达大举发力,公布全新Ampere架构、机器人与无人驾驶汽车技术

作为分析师,我每年要参加数百场会议。至于这些会议孰高孰低,我会从其中发布公告的数量与行业影响角度进行分析。而在这次观看了英伟达的GTC 2020在线大会之后,我发现GPU巨头在这两个方面都带来了出色表现。作为平台供应商,架构是决定一切的基础,而英伟达在全球大部分市场上全面推出其新型架构Ampere。虽然此次大会没有讨论太多游戏话题,但可以肯定的是,英伟达的下次大会上游戏绝对不会制度。

英伟达的本次大会共分为九个章节,其中八个章节都曝出了令我兴致满满的猛料。下面一起来看。

更新Clara医疗保健平台并推出“数据中心级加速计算”技术

在4K分辨率拍摄下的自家厨房中,英伟达公司CEO黄仁勋对奋战在COVID-19抗疫一线的工作人员表示谢意,并列举了GPU加速计算在这场斗争中发挥的积极作用。其中令我印象最深的当数Oxford Nanopore技术公司与橡树岭国家实验室(ORNL)以及斯克里普斯研究所,他们分别在7个小时之内对新冠病毒进行了测序,并在一天之内筛选出十亿种潜在的治疗药物组合。最近一段时间,各大重量级主题演讲都以COVID-19作为开场白,我觉得这对鼓舞群众、坚持抗疫确实很有帮助。

英伟达还介绍了旗下医疗保健平台Clara的更新信息。该平台将引入名为Guardian的全新AI模型,用于推动COVID-19研究并改善病例检测效率,甚至创造了20分钟之内完成人类基因组分析的新世界纪录——这一切,都将给未来的智能医院带来强劲助力。相信大家也已经感受到,着眼于当下以及未来可能出现的各类流行疾病,超级计算已经成为人类保护自身的有力武器。

黄仁勋接下来介绍了英伟达的数据中心架构,即“数据中心级加速计算”。他解释道,未来的数据中心将成为新的计算单元。这样的表述确实比较激进,但我们确实可以将数据中心理解成包含CPU、GPU、网络(DPU)以及综合软件堆栈的融合型解决方案。从这个角度来看,我们似乎更能理解英伟达为什么选择收购Mellnox公司,这又将给客户带来怎样的助益。

Omniverse项目:英伟达RTX、DLSS 2.0以及光线追踪技术的完全结合

英伟达公司利用AI技术(DLSS)打造的光线追踪与采样技术已经获得市场的广泛认可,而Omniverse项目亦由此诞生。在我看来,英伟达已经凭借光线追踪与AI加速等独门绝技在游戏与工作站行业占据领先地位。RTX最初公布于SIGGRAPH 2018大会,现在看来光线追踪已经成为一项主流功能。

Jensen当时带来了不少精彩的演示,包括虚拟引擎如何将540P场景提升至1080P。而后,他展示了光线追踪与AI技术如何在《我的世界》中发挥作用,让画面表现上升至新的层次。

黄仁勋随后宣布,用于图形及模拟工作流的协作平台“Omniverse”目前已经面向早期客户开放。黄仁勋展示了AEC(架构、工程、构建)场景下,不同开发人员如何通过云环境利用不同工具(Rhino、Max、Revit、AR)处理同一个项目。

对我来说,Omniverse的最大意义在于证明了英伟达有能力开发出基于云端的协作平台,并能够与AEC这类微垂直生态顺畅对接。

Apache Spark 3.0推动大数据加速

黄仁勋随后又谈到了GPU加速,特别是如何在英伟达一直擅长的高性能计算(HPC)与科学计算等领域处理规模更大的数据集。英伟达的软件库目前已经支持超过700种CUDA加速应用,而Spark 3.0加速项目的推出更标志着一座新的里程碑。

不少数据科学家都在日常工作中使用Apache Spark。Adobe公司是最早在Databricks上运行Spark 3.0预览版的企业之一,他们表示在初步测试当中,数据处理性能提高了7倍,成本节约达90%。

黄仁勋还提到他的经典语录:“买得越多,省得越多。”由于时间仓促,我还没有对新项目进行全面的成本分析;但结合以往的经验,黄老的结论应该比较靠谱。

黄仁勋在演讲结语中表示,Databricks与Google Cloud Dataproc将很快推出配合GPU加速机制的Spark服务。考虑到ETL(提取、转换、加载)流程中庞大的市场空间,我觉得这项说明值得关注。再结合Google Cloud AI及AWS Sagemaker双双宣布支持英伟达RAPIDS,这也许意味着英伟达方案将开始向数据工程的上游移动。

Merlin推荐应用框架

接下来,黄仁勋又谈到“Merlin”,一款用于推荐系统的新型应用框架。大家应该都用过Amazon(「买过本商品的客户还购买了……」)或者Netflix(推荐视频),这意味着您已经使用过上千种推荐系统。他介绍道,“Merlin将1 TB数据集推荐系统的构建时长从几天缩短到了几分钟。”

我肯定会继续跟进这个议题,因为目前大部分实时或者近实时推荐系统仍然在使用CPU。当下的推荐框架要比以往任何时候都更加复杂,我认为加速技术必须及时跟上。

Jarvis对话式AI应用程序框架

相信很多朋友都用过Alexa、Siri、Cortana或者Assistant等智能代理。但是,开发人员要如何将这些AI语音助手引入自己的应用程序?现在答案简单了,英伟达Jarvis。

Jarvis是英伟达打造的多模(语音与视觉)对话式AI应用程序框架。该公司表示,Jarvis能够识别视觉与声音元素,进而建立起实时翻译、个人隐藏字幕、实时视频通话录音等功能,并为智能扬声器、呼叫服务中心、互动机器人以及汽车与零售服务提供支持。

我发现这个项目非常有趣,因为英伟达之前刚刚进军聊天机器人市场。目前,最新的对话应用程序开始广泛将个性化特征引入AI智能与语音处理,我们很难想象没有GPU的支持、这些系统要如何运行。Jarvis的出现无疑为各家企业打开了设计自有用例、训练基于自然语言型应用程序的大门。

英伟达A100数据中心GPU与DGX A100集成系统

虽然之前的发布内容也很有趣,但黄仁勋到这里才放出真正的一处,即A100数据中心GPU。

黄仁勋表示,目前A100 GPU已经全面投入生产,并开始向全球客户发货。根据AI分析师Karl Freund发表的评论文章,英伟达“已经获得业界各大主要参与者的支持,包括谷歌、AWS、微软、阿里巴巴、戴尔、联想以及HPE等。”在观看相关内容后,我将英伟达A100的特征总结如下:

希望将训练与推理流程统一在同一芯片之上。

与使用FP32的V100相比,新的TF32将性能提升达20倍。

MIG(多实例GPU)帮助程序员以管理单一GPU的方式管理多个GPU。

对于密切关注这方面趋势的朋友们来说,其中最具份量的无疑是利用同一芯片完成训练与推理任务。尽管业界已经在广泛使用英伟达GPU处理训练任务,但目前的推理类任务仍然缺少统一的解决思路。现在英伟达出手了,不知道多少风投在心疼自己匆匆做出的投资决定。

当然,制造芯片是一回事,根据芯片建立起完整系统又是另一回事。黄仁勋又进一步公布了“整合型基础设施”,将CPU、GPU、网络、内存以及存储全面囊括在内。英伟达表示,这套名为DGX A100的新平台是首个可在单一“节点”上提供每秒5千万亿次浮点运算的系统。我确认了一下,确实是“首个”。

单一DGX A100能够包含8个A100、6个NVSitches、9块Mellanox网卡、1块基于AMD Rome的双核Epyc处理器以及15 TB NVMe SSD。没错,这是一头性能猛兽,足以掀起全球范围的配置升级。

这才是开启全新生态系统的正确方式。

采用Ampere架构的EGX A100边缘计算,以及专为宝马工厂开发的机器人

在A100与DGX A100掀起的高潮之后,黄仁勋还不打算就此罢手。既然聊过了数据中心,当然不能不提边缘计算,对吧?

黄仁勋公布了面向大型边缘服务器的英伟达EGX A100,以及用于“微边缘服务器”的小型EGX Jetson Xavier NX。这两款产品将根据开发人员不同的性能需求、预算额度与尺寸要求提供对应的解决方案。

其中EGX A100包含1个英伟达Ampere GPU以及Mellanox ConnectX-6 DX SMartNIC,能够支持“成百上千个摄像头”;而EGX Jetson Xavier NX则能同时支持两个摄像头。

另外值得一提的是,英伟达公司的出色设计得到了宝马公司的肯定,其Issac机器人平台被引入宝马制造工厂以支持各类机器人装置。黄仁勋解释称,目前这些机器人已经开始对各类原材料及装配半成品进行拆解、挑选、放置、运输以及分类。

从更宏观的角度看,英伟达实际上是在根据不同价位提供不同的性能选项,并利用统一的软件平台将这些产品集中起来——这无疑提高了整个行业的方案设计标准。虽然并没有公布具体机器人部署数量或者确切营收数字,但可以肯定的是,英伟达目前的财务状况相当不错。宝马是一家态度非常严苛的制造商,可以想象获得他们的认可有多么艰难。

Ampere加Orin——瞄准汽车市场

关于英伟达CES展览的朋友肯定清楚,这是一家非常重视汽车市场的公司。CEO黄仁勋曾在CES主题演讲中用90分钟时长讨论无人驾驶方面的议题。

“对数据中心有益的自然对边缘有益”,而对边缘有益的当然也对汽车有益。凭借Orin,英伟达将Apmere架构正式引入汽车领域。英伟达目前提供的产品包括ADAS(10TOPS/5 W)、L2+无人驾驶装置(200 TOPS/45W)以及完整的L5机器出租车(2000 TOPS/800W)等等。

与EGX家族类似,拥有可扩展架构的优势在于,汽车制造商(T1)可以跨越多种硬件与软件进行资源规划。以往,原始设备制造商与T1汽车必须部署两套独立的平台,其一用于ADAS、其二用于无人驾驶。但现在,一套平台足以搞定所有。

总结

尽管今年的GTC 2020大会只能在网上举办,但这丝毫没有影响到会议公告的数量与质量。我先后参加过九次GTC,这次绝对是让我印象最深刻的一届。

凭借结合了Ampere架构与Mellanox网卡的英伟达芯片,GPU巨头能够在基本不影响功率的前提下将AI性能提升20倍。在A100方面,单一芯片实现训练与推理绝对非同小可。考虑到目前市场上的竞争性方案至少有50种,英伟达的加入必然在整个行业内掀起滔天巨浪。

此次大会还明确了Mellanox的价值以及英伟达雄心勃勃的整合计划。黄仁勋将计划描述为“数据中心级加速计算”。随着Mellanox入主数据中心,由Mellanox连接的节点与GPU将塑造数据中心的新面貌。很大胆,但我喜欢!

总体而言,这是一届让人难忘的GTC大会。现在我个人最期待的,就是英伟达会如何将Ampere架构集成到其GeForce游戏解决方案当中。  

来源:Forbes

0赞

好文章,需要你的鼓励

2020

05/15

17:30

分享

点赞

邮件订阅