CPU、GPU之外，IPU能否撑起AI芯片市场的第三极？原创

作者：邹大斌

在AI处理器市场，除了主流的CPU和GPU之外，还有正在崛起的新兴力量——以IPU为代表的专用AI芯片。

人工智能（AI）的兴起带动市场对AI芯片的需求，NVIDIA的GPU真正借着这股“东风”迅速成为AI市场的主流产品之一，其势头甚至盖过了CPU。不过，GPU还不能算是真正的AI芯片，现在一大波新兴的AI专用芯片正在路上，而IPU（智能处理器）在这之中相对比较成熟。目前，来自Graphcore的IPU芯片已真正量产，应用效果非常好，由此也被不少人看好。

专为机器智能设计

Graphcore是IPU的扛旗人。Graphcore是一家来自英国的明星初创公司，到目前为止，公司总共融资超过4.5亿美金，其中包括一些非常知名的金融投资者、战略投资者，比如，微软、三星、博世、宝马、戴尔等。IPU是一种专为机器智能设计的全新芯片类型，采用的是完全不同于CPU、GPU的全新处理器架构，专门适用于AI负载。

Graphcore高级副总裁兼中国区总经理卢涛告诉记者，机器智能是一类全新的计算负载，有自己的特点。比如，AI算法通常涉及大规模的并行计算；数据结构通常是非常稀疏的矩阵；和传统的科学计算或者高性能计算（HPC）相比，智能计算普遍都是低精度计算。另外，AI应用经常会有数据参数复用、静态图结构。由于这些特点的存在，使得传统CPU、GPU在处理这类工作负载的效果并不理想，而IPU则有明显优势。

Graphcore高级副总裁兼中国区总经理卢涛

“CPU是面向应用和网络设计的处理器，是一个标量处理器；GPU是面向图形和高性能计算、以向量处理为核心的处理器。AI是一个全新的负载、是以计算图作为表征，因此需要一种全新的处理器架构，而Graphcore开创的IPU就是针对计算图的处理来设计的专用处理器。”卢涛说。

据卢涛介绍，Graphcore的IPU在架构上做了大量创新。其中一大创新是，IPU内核采用了大规模并行MIMD，有一个非常大的分布式片上SRAM，这个SRAM高达300 MB。因此，相比CPU+DDR2或者GPU+GDDR/HBM，IPU能够实现10到320倍的性能提升。

“近些年，芯片的计算能力提升很快，但内存的性能提升却相对缓慢。IPU的一个创新设计就是采用了大规模并行MIMD和庞大的分布式片上SRAM。”卢涛说。

Graphcore IPU的另一大架构创新是采用了构建大规模数据中心集群的BSP技术（Bulk Synchronous Parallel），这种技术目前在谷歌、Facebook、百度这样的大规模数据中心都在使用。IPU也是目前世界上首款BSP处理器，通过硬件来支持BSP协议，并通过BSP协议把整个计算逻辑分为计算、同步、交换三方面。

据悉，Graphcore IPU已经量产的GC2处理器拥有236亿个晶体管的芯片，在120瓦的功耗下有125 TFlops的混合精度、1216个独立的处理器核心（Tile），300 M的SRAM能够把完整的计算模型放在片内。另外，内存的带宽有45 TB/s、片上的交换是8 TB/s、片间的IPU-Links是2.5 TB/s。Graphcore IPU的这些硬件条件为其最后高性能地完成AI应用奠定了非常强大的基础。

一款全新架构的处理器要想真正落地，配套的软件自然必不可少，其中就包括编译器、开发平台以及其他相关的各种配套软件和工具。对此，Graphcore推出了IPU配套的开发平台——Poplar SDK。Poplar是架构在机器学习的框架软件（比如TensorFlow、ONNX、PyTorch和PaddlePaddle）和硬件之间的一个基于计算图的工具和库，目前提供750个高性能计算元素的50多种优化功能，可以支持各种标准的机器学习框架，包括TensorFlow 1/2、ONNX和PyTorch，很快也会支持百度飞桨。在部署方面，Poplar目前可以支持容器化部署，能够快速启动并运行。今年5月，Graphcore还推出了一款名为PopVision Graph Analyser的分析工具。开发人员在使用IPU进行编程的时候，可以通过PopVision这个可视化的图形展示工具来分析软件的运行情况、调试效率。

优势初步展现

硬件架构的创新加上配套软件使得IPU在人工智能的应用上表现优异。比如，在BERT训练方面，采用NVLink-enabled的GPU平台通常需要50多个小时才能达到一定精度，而IPU平台只需36.3小时。在BERT推理方面，IPU目前在 BERT 上训练的时间能够比 GPU 缩短 25%以上。

微软的一位机器学习专家在5月27日举行的Intelligent Health峰会上分享了如何使用IPU训练CXR（胸部X光射线样片）。在微软自己专门创新的SONIC CV 模型里，IPU只要30分钟就能够完成传统的GPU需要5个小时才能完成训练的工作量。

卢涛介绍，目前基于IPU的应用已经覆盖了机器学习的各个应用领域，包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型，广泛应用于医疗、金融、制造以及5G等多个行业，极大降低了开发者和用户的决策与开发成本。

卢涛表示，目前中国企业使用IPU分为两个渠道，其一是购买IPU服务器，戴尔已提供此类服务器；另一渠道是通过云服务商购买基于IPU的云服务。为了进一步配合IPU在中国的落地，Graphcore在中国已建立起两支技术服务团队——一支是以定制开发为主要任务的工程技术团队，另一支是以客户技术服务为主的现场应用团队。

“AI应用需要专门的处理器，而IPU正是这样的处理器。目前，AI在各行各业均得到广泛应用，IPU可以基于自身优势为世界的智能化进程增添不竭动力。”卢涛最后总结道。

来源：至顶网计算频道

AI
处理器

0赞

好文章，需要你的鼓励

CPU、GPU之外，IPU能否撑起AI芯片市场的第三极？ 原创

来源：至顶网计算频道

2020

06/17

11:12

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CPU、GPU之外，IPU能否撑起AI芯片市场的第三极？原创