英伟达CEO黄仁勋在中国: AI推理方案的巨大推动力 原创

这周,英伟达公司的首席执行官黄仁勋(Jensen Huang)抵达北京并出席该公司的GPU技术大会(GTC),将英伟达全新AI推理平台“TensorRT3”作为此次会议的前沿与中心。

至顶网服务器频道 09月27日 新闻消息:这周,英伟达公司的首席执行官黄仁勋(Jensen Huang)抵达北京并出席该公司的GPU技术大会(GTC),将英伟达全新AI推理平台“TensorRT3”作为此次会议的前沿与中心。

英伟达公司解释称,如今互联网巨头可谓无处不在,且均致力于让AI支持型服务生成的数据量得到里程碑式发展,而这些服务具体包括图像与语音识别、自然语言处理、视觉搜索以及个性化建议等等。另外,每家服务供应商都正在寻求快速、准确的AI推理方案,并试图大幅度削减数据中心与云服务基础设施的实现成本。

英伟达公司正在推出TensorRT3与英伟达GPU的全新组合。据称,该组合能够“在一切架构中为AI支持型服务提供超快速与高效的推理解决方案。”

在本次GTC会议上,黄先生表示,目前中国顶尖的互联网公司——阿里巴巴云、百度以及腾讯——都在使用Tesla V100 GPU以升级自身数据中心与云服务基础设施。

 英伟达首席执行官在中国: AI推理方案的巨大推动力

英伟达公司首席执行官黄仁勋(图片来源:英伟达)

英伟达公司补充称,包括浪潮、联想与华为等在内的中国领先OEM厂商也正在使用英伟达HGX参考架构为超大型数据中心提供基于Volta的加速系统。

然而,正如英伟达公司所发现,硬件本身并不足以帮助基于AI的服务供应商应对人工智能推理中数据量的爆炸性增长。因此,目前英伟达公司正在推动其客户采用TensorRT平台。

在本届于北京召开的大会上,英伟达方面宣称,目前阿里巴巴、百度、腾讯、京东与海康威视公司已经开始利用Nvidia TensorRT进行编程推理加速。

然而,根据运行英伟达公司加速计算的集团产品营销经理Paresh Kharya的说法,迄今为止,京东是目前唯一已经使用TensorRT的公司。

为什么选择TensorRT?

Kharya表示,到目前为止,在众多AI驱动型服务公司在选取经过训练的神经网络架构(如TensorFlow与Caffee)时,还不得不通过“手动优化”进行调整并将其运行于特定GPU。Kharya在接受采访时则强调称:“TensorRT能够填补其中的缺口。”

 英伟达首席执行官在中国: AI推理方案的巨大推动力

(来源:英伟达)

Kharya将TensorRT描述为“类似于编译器”。 TensorRT允许服务供应商选取任何已经过训练的深度学习架构,并选择其希望使用的特定GPU。

英伟达公司认为,当今没有任何一家公司能够为AI应用程序的生产部署提供现成的“高性能优化的编译器与运行时引擎”。

英伟达官方表示,由于TensorRT能够从神经网络中获取描述文件并将其编译为可以在目标GPU上运行的格式, 故而TensorRT能够快速“优化、验证与部署受训神经网络,借此被引入超大型数据中心、嵌入式或车载GPU平台。”

鉴于这种情况,数据中心能否实现推理解决方案?或者,该推理过程应在边缘位置进行?对此,英伟达方面回应称,TensorRT在这两种情况下都能使用。

TensorRT适用于多种目标GPU,从Jetson TX2(用于嵌入式应用,例如无人机)与Tesla V100(用于数据中心)到Tesla P4、Drive PX2(用于自动驾驶汽车)以及用于开源设计的英伟达深度学习加速器(DLA)等等皆受到支持。此外,芯片设计者还可以使用DLA的RTL,并在其SoC中放置张量处理单元,以便设计者进一步提升AI覆盖范围。

事实上,Kharya代表英伟达公司表示:“我们已经从自动驾驶汽车的研发经验中积累到了丰富的推理过程运作相关资料”。简而言是,为了避免延迟效应,推理过程必须于车内而非在数据中心内进行。

 英伟达首席执行官在中国: AI推理方案的巨大推动力

英伟达TensorRT 3 AI推理平台(来源:英伟达公司)

Kharya解释称, 采用TensorRT将确保GPU以多层及跨流方式执行,这意味着数据中心能够有效并行处理多种请求。除此之外,TensorRT还具备其它功能,具体包括权重与活化精度校准、层与张量融合以及内核自动调节等。

在此次公告中,京东公司AI与大数据高级总监Andy Chen表示:“京东公司在数据中心的推理进程方面依赖于英伟达公司的GPU及其软件。” Andy Chen进一步解释称:“在Tesla GPU上运行英伟达的TensorRT,我们可以同时对1000条高清视频流进行实时推理,并且服务器数量需求仅为原先的二十分之一。”

AI驱动型服务成本依旧高昂

Kharya表示,随着机器学习“越来越接近人类的级别”,更多的消费者选择使用基于AI的服务,具体包括自然语言处理、视觉搜索与个性化建议等。

然而,由于AI需求的萌发对服务提供商在其数据中心内处理大量推理进程的能力要求愈发严格,所以新的危机也同样不容忽视。

Kharya表示,中国讯飞公司占有国内AI语音识别市场70%的总体份额,其所提供服务的应用范围从智能玩具到移动通信皆有涵盖。每天都有5亿用户在使用讯飞公司提供的服务。Kharya解释道:“假设每个用户每天投入15分钟用于语音交流,那么如此庞大的数据将要求讯飞花费10亿美元以构建数据中心。”

然后,凭借TensorRT提供的精确8位整数数据(INT8)与16位浮点数据(FP16)网络执行方案,英伟达声称该方案可以“为数据中心运营商节省数千万美元的采购费用与年能源消耗成本。”开发人员通过采用TensorRT以获取“经过训练的神经网络,并且在短短一天的时间内,就可以创建出一套比原有训练架构快3-5倍的推理解决方案。”

来源:EETimes

0赞

好文章,需要你的鼓励

2017

09/27

17:49

分享

点赞

邮件订阅
白皮书