全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处？

近日，国际权威AI基准测试MLPerf公布最新一期训练（Training）榜单V1.1，参与厂商各显神通取得了不俗的成绩。其中，Graphcore通过已有的硬件平台，在主流AI应用中实现了上佳的表现。

当需要计算出你的机器学习平台有多快，或者考虑投资的机器学习平台有多快时，你会怎么做呢？

一般大家都会参考业界比较权威通行的测试成绩报告，而MLPerf及其组织机构MLCommons作为第三方验证机构，在帮助客户独立评估人工智能计算系统的能力和不同公司提供的软件栈的成熟度方面发挥着重要作用。

全面优化取得佳绩

与首次提交的MLPerf训练结果相比，对于ResNet-50模型，Graphcore通过软件优化，在IPU-POD₁₆上实现了24%的性能提升，在IPU-POD₆₄上实现了41%的性能提升；自然语言处理模型BERT在IPU-POD₁₆上实现了5%的性能提升，在IPU-POD₆₄上实现了12%的性能提升。此次MLPerf测试结果证明了Graphcore的IPU系统越发强大、高效，软件日益成熟且更快、更易使用。

Graphcore中国工程总负责人、AI算法科学家金琛告诉记者，测试成绩的提升来自Graphcore针对应用程序、系统软件框架、算法模型、底层编译器和函数等软件的优化。

全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处？

Graphcore中国工程总负责人、AI算法科学家金琛

对于Graphcore的集群系统，Graphcore最近发布的IPU-POD₁₂₈和IPU-POD₂₅₆横向扩展系统也得出了结果，在IPU-POD₁₂₈上训练ResNet-50的时间为5.67分钟，在IPU-POD₂₅₆上为3.79分钟。

对于自然语言处理模型BERT，Graphcore在开放和封闭类别分别提交了IPU-POD₁₆、IPU-POD₆₄和IPU-POD₁₂₈的结果。在开放类别，BERT在IPU-POD₁₂₈上的训练时间不到6分钟。

除了IPU-POD₁₆和IPU-POD₆₄上的时间优势外，Graphcore的IPU-POD₁₂₈和IPU-POD₂₅₆也能够取得很好的成绩，主要归功于其软件的可扩展性。例如系统级的软件优化设备通信，BERT-Large训练中的5%和12%的性能提升，很大程度上归功于Graphcore通信库（GCL，Graphcore Communication Library）的改进。

金琛指出，Graphcore的系统软件设计非常适用于新模型及新架构，IPU系统的扩展性也可以非常平滑地从16个IPU一直扩展到256个IPU。

IPU的独到之处

相比CPU、GPU，IPU是在指令级、架构层面更加通用的处理器，能够进行各种各样的AI业务。而且随着AI的发展，IPU在框架、应用、生态、落地场景方面不断延展，市场对IPU的认知日趋成熟。

例如，MLPerf对比了市面上的Graphcore与NVIDIA产品，在GPU占据优势的模型ResNet-50上进行测试后，发现Graphcore的IPU-POD₁₆在ResNet-50上的表现优于DGX A100。ResNet-50在DGX A100上训练需要29.1分钟，而IPU-POD₁₆仅耗时28.3分钟，这是自Graphcore首次提交MLPerf以来仅通过软件实现的性能提升。其中，IPU-POD₁₆对ResNet-50的软件驱动性能提高了24%；IPU-POD₆₄对ResNet-50的软件驱动性能提升更高，达到41%，对于Graphcore具有里程碑式的意义。

Graphcore大中华区总裁兼全球首席营收官卢涛表示，Graphcore能够在GPU最主流的模型上拥有更加表现，这非常令人自豪，而且未来还有进一步的性能提升空间。

全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处？

Graphcore大中华区总裁兼全球首席营收官卢涛

在本轮或任何一轮MLPerf的原始数据中，每个制造商系统的主机处理器数量都十分惊人，一些参与者甚至指定要求每两个人工智能处理器配有一个CPU。而Graphcore的主机处理器与IPU的比率始终是最低的。与其他产品不同，IPU仅使用主机服务器进行数据移动，无需主机服务器在运行时分派代码。因此，IPU系统需要的主机服务器更少，从而实现了更灵活、更高效的横向扩展系统。

对于BERT-Large这一类自然语言处理模型，IPU-POD₆₄只需要一个双CPU的主机服务器。ResNet-50需要更多的主机处理器来支持图像预处理，因此Graphcore为每个IPU-POD₆₄指定了四个双核CPU。虽然1比8的比例仍然低于其他MLPerf参与厂商，但在本轮MLPerf 1.1训练中，Graphcore为BERT提供了最快的单服务器训练时间，为10.6分钟。

据卢涛解释，搭建一个AI计算机集群需要非常多的CPU，但Graphcore设计了解耦架构，能够根据应用特点优化整个CPU和AI计算的配比。此外，Graphcore IPU代码的执行机制减少了CPU的工作量，使得CPU更多扮演调度器和任务分发器的角色，很多工作实际上是由IPU执行，以此减轻CPU的负荷。

Graphcore的IPU产品能够通过基于以太网的IPU over Fabric（IPUoF）的总线技术，支持任何品牌的服务器及任何CPU产品，包括x86和Arm，在相同功耗、体积内实现更大的算力供给。

除了硬件，IPU对于主流AI框架——如TensorFlow、PyTorch、Keras、百度飞桨、阿里巴巴HALO都实现了支持，还支持多种Transformer的语言模型、BERT、GPT等。Docker、VMware等厂商也宣布支持IPU，从而实现软硬件协同优化。

得益于广泛的生态系统，Graphcore获得了来自金融、保险、电信、科学计算等行业客户的认可。举例而言，牛津-英仕曼量化金融研究院利用IPU进行更快、更准确的股票预测；Tractable使用IPU提高汽车和财产损失评估的准确性和效率；欧洲中期天气预报中心和安捷中科使用IPU进行精确天气预测；韩国电信发布了基于IPU的云。

临近岁末，谈及未来AI发展趋势，卢涛坦言，Transformer、多模态、AI场景向传统的科学计算方向发展，这些是明确的技术趋势，Graphcore也会加大此方面的投入，例如组建面向深度学习与科学计算的AI团队。“我们会脚踏实地，认真务实，相信Graphcore‘拟未’会有更美好的未来。”

来源：至顶网计算频道

Graphcore

0赞

好文章，需要你的鼓励

全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处？

来源：至顶网计算频道

2021

12/31

13:09

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

Graphcore加入PyTorch基金会，推动AI研究和应用突破

Graphcore与百度飞桨联手闪耀MLPerf，AI性能再创佳绩

Graphcore携手百度飞桨 共建全球软硬AI生态

腾讯云上的IPU预览正式推出，Graphcore公有云大批量部署进行中

Graphcore与鑫联大签订代理合约，以满足中国客户大规模部署需求

Graphcore发布全球首款3D WoW处理器产品并公布超未来智能计算路线图

全面优化取得MLPerf测试佳绩 Graphcore IPU有何独到之处？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Graphcore携手百度飞桨共建全球软硬AI生态