全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处?

近日,国际权威AI基准测试MLPerf公布最新一期训练(Training)榜单V1.1,参与厂商各显神通取得了不俗的成绩。其中,Graphcore通过已有的硬件平台,在主流AI应用中实现了上佳的表现。

当需要计算出你的机器学习平台有多快,或者考虑投资的机器学习平台有多快时,你会怎么做呢?

一般大家都会参考业界比较权威通行的测试成绩报告,而MLPerf及其组织机构MLCommons作为第三方验证机构,在帮助客户独立评估人工智能计算系统的能力和不同公司提供的软件栈的成熟度方面发挥着重要作用。

近日,国际权威AI基准测试MLPerf公布最新一期训练(Training)榜单V1.1,参与厂商各显神通取得了不俗的成绩。其中,Graphcore通过已有的硬件平台,在主流AI应用中实现了上佳的表现。

全面优化取得佳绩

与首次提交的MLPerf训练结果相比,对于ResNet-50模型,Graphcore通过软件优化,在IPU-POD16上实现了24%的性能提升,在IPU-POD64上实现了41%的性能提升;自然语言处理模型BERT在IPU-POD16上实现了5%的性能提升,在IPU-POD64上实现了12%的性能提升。此次MLPerf测试结果证明了Graphcore的IPU系统越发强大、高效,软件日益成熟且更快、更易使用。

Graphcore中国工程总负责人、AI算法科学家金琛告诉记者,测试成绩的提升来自Graphcore针对应用程序、系统软件框架、算法模型、底层编译器和函数等软件的优化。

全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处?

Graphcore中国工程总负责人、AI算法科学家金琛

对于Graphcore的集群系统,Graphcore最近发布的IPU-POD128和IPU-POD256横向扩展系统也得出了结果,在IPU-POD128上训练ResNet-50的时间为5.67分钟,在IPU-POD256上为3.79分钟。

对于自然语言处理模型BERT,Graphcore在开放和封闭类别分别提交了IPU-POD16、IPU-POD64和IPU-POD128的结果。在开放类别,BERT在IPU-POD128上的训练时间不到6分钟。

除了IPU-POD16和IPU-POD64上的时间优势外,Graphcore的IPU-POD128和IPU-POD256也能够取得很好的成绩,主要归功于其软件的可扩展性。例如系统级的软件优化设备通信,BERT-Large训练中的5%和12%的性能提升,很大程度上归功于Graphcore通信库(GCL,Graphcore Communication Library)的改进。

金琛指出,Graphcore的系统软件设计非常适用于新模型及新架构,IPU系统的扩展性也可以非常平滑地从16个IPU一直扩展到256个IPU。

IPU的独到之处

相比CPU、GPU,IPU是在指令级、架构层面更加通用的处理器,能够进行各种各样的AI业务。而且随着AI的发展,IPU在框架、应用、生态、落地场景方面不断延展,市场对IPU的认知日趋成熟。

例如,MLPerf对比了市面上的Graphcore与NVIDIA产品,在GPU占据优势的模型ResNet-50上进行测试后,发现Graphcore的IPU-POD16在ResNet-50上的表现优于DGX A100。ResNet-50在DGX A100上训练需要29.1分钟,而IPU-POD16仅耗时28.3分钟,这是自Graphcore首次提交MLPerf以来仅通过软件实现的性能提升。其中,IPU-POD16对ResNet-50的软件驱动性能提高了24%;IPU-POD64对ResNet-50的软件驱动性能提升更高,达到41%,对于Graphcore具有里程碑式的意义。

Graphcore大中华区总裁兼全球首席营收官卢涛表示,Graphcore能够在GPU最主流的模型上拥有更加表现,这非常令人自豪,而且未来还有进一步的性能提升空间。

全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处?

Graphcore大中华区总裁兼全球首席营收官卢涛

在本轮或任何一轮MLPerf的原始数据中,每个制造商系统的主机处理器数量都十分惊人,一些参与者甚至指定要求每两个人工智能处理器配有一个CPU。而Graphcore的主机处理器与IPU的比率始终是最低的。与其他产品不同,IPU仅使用主机服务器进行数据移动,无需主机服务器在运行时分派代码。因此,IPU系统需要的主机服务器更少,从而实现了更灵活、更高效的横向扩展系统。

对于BERT-Large这一类自然语言处理模型,IPU-POD64只需要一个双CPU的主机服务器。ResNet-50需要更多的主机处理器来支持图像预处理,因此Graphcore为每个IPU-POD64指定了四个双核CPU。虽然1比8的比例仍然低于其他MLPerf参与厂商,但在本轮MLPerf 1.1训练中,Graphcore为BERT提供了最快的单服务器训练时间,为10.6分钟。

据卢涛解释,搭建一个AI计算机集群需要非常多的CPU,但Graphcore设计了解耦架构,能够根据应用特点优化整个CPU和AI计算的配比。此外,Graphcore IPU代码的执行机制减少了CPU的工作量,使得CPU更多扮演调度器和任务分发器的角色,很多工作实际上是由IPU执行,以此减轻CPU的负荷。

Graphcore的IPU产品能够通过基于以太网的IPU over Fabric(IPUoF)的总线技术,支持任何品牌的服务器及任何CPU产品,包括x86和Arm,在相同功耗、体积内实现更大的算力供给。

除了硬件,IPU对于主流AI框架——如TensorFlow、PyTorch、Keras、百度飞桨、阿里巴巴HALO都实现了支持,还支持多种Transformer的语言模型、BERT、GPT等。Docker、VMware等厂商也宣布支持IPU,从而实现软硬件协同优化。

得益于广泛的生态系统,Graphcore获得了来自金融、保险、电信、科学计算等行业客户的认可。举例而言,牛津-英仕曼量化金融研究院利用IPU进行更快、更准确的股票预测;Tractable使用IPU提高汽车和财产损失评估的准确性和效率;欧洲中期天气预报中心和安捷中科使用IPU进行精确天气预测;韩国电信发布了基于IPU的云。

临近岁末,谈及未来AI发展趋势,卢涛坦言,Transformer、多模态、AI场景向传统的科学计算方向发展,这些是明确的技术趋势,Graphcore也会加大此方面的投入,例如组建面向深度学习与科学计算的AI团队。“我们会脚踏实地,认真务实,相信Graphcore‘拟未’会有更美好的未来。”

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2021

12/31

13:09

分享

点赞

邮件订阅
白皮书