Graphcore加速拓展市场,迎接IPU市场快速扩张 原创

日前,Graphcore与神州数码集团签订合作协议,神州数码正式成为Graphcore中国区总代理。双方将在中国范围内发展销售渠道网络进行合作,使得中国的商业客户与广大创新者能够更便捷和快速地获取IPU系统,以及配套的本地AI专家服务和工程支持。

日前,Graphcore与神州数码集团签订合作协议,神州数码正式成为Graphcore中国区总代理。双方将在中国范围内发展销售渠道网络进行合作,使得中国的商业客户与广大创新者能够更便捷和快速地获取IPU系统,以及配套的本地AI专家服务和工程支持。此举对于Graphcore开拓在中国的市场以及未来IPU在中国市场的普及、推动中国AI市场的持续走高无疑具有积极意义。

专门为AI应用设计的IPU

如今,围绕AI市场英特尔和英伟达激斗正酣,虽然GPU在AI芯片赛跑中占据了主动,但这场赛跑还远未结束。赛场上除了英特尔、英伟达外还有众多参赛选手,很多新兴的AI芯片公司在成本、效率、性能以及应对深度学习和机器学习等负载的灵活性等方面各有优势。根据市场研究公司Global Market Insights的一份研究报告,AI芯片的全球市场规模预计每年增长速度为35%,将从2019年的80亿美元增长到2026年的700亿美元,这也说明AI芯片市场充满了各种机会。

Graphcore也是参赛的选手之一。Graphcore来自英国,成立于2016年,有着芯片独角兽之称,成立以来备受投资者青睐,到目前为止已经成功融资超过7亿美元。其推出的IPU(Intelligence Processing Unit,智能处理器)属于AI芯片,Arm联合创始人Hermann Hauser将IPU定义为计算机发展史上继CPU、GPU之后的第三次革命。

IPU采用的是完全不同于CPU和GPU的芯片架构。在Graphcore高级副总裁兼中国区总经理卢涛看来,CPU和GPU都不是专门为AI而设计。虽然GPU现在应用非常广泛,但当初是为图形渲染而不是为AI所设计,只是这种架构正好契合了部分AI应用。而IPU是专门为AI设计的,其强大的并行处理能力确保了快速训练模型的实现,并能进行实时操控。

“CPU主要面向标量计算设计,长于控制和应用;GPU主要面向向量计算设计,长于图形计算;而IPU主要面向计算图设计,尤其是稀疏矩阵下计算效率最高。”卢涛表示。

Graphcore高级副总裁兼中国区总经理 卢涛

IPU在架构上的一大创新是采用了MIMD(多指令流多数据流)众核架构,同时,IPU架构中具有大容量的分布式片上SRAM,片内高达900MB的SRAM相对于GPU的GDDR、HBM来说,可以做到数十倍的性能提升。为了解决片内众核之间的通信,IPU还采用了高效的通信技术BSP(Bulk Synchronous Parallel)。IPU是目前世界上第一款采用BSP通信的处理器。

去年6月,Graphcore发布了第二代IPU——GC200(Colossus MK2 IPU)和相对应的IPU-M2000系统。GC200采用了7纳米制程,每个芯片在一个823平方毫米的裸片上包含高达594亿个晶体管,使其成为有史以来最精密的处理器。IPU-M2000系统配备了4个MK2 IPU。根据Graphcore的资料,8个IPU-M2000系统在运行FP32计算任务的时候性能要比8个Nvidia DGX A100系统高出12倍,而AI计算则要高出3倍,总成本却仅高出30%多。

推动IPU在行业落地

作为一种专门为AI应用设计的芯片,IPU在很多GPU典型应用场景上表现得非常优秀。根据Graphcore提供的资料,IPU在自然语言处理、图像识别、时序分析等很多GPU主要应用领域,都有至少两倍以上的性能优势,相比GPU构成明显的竞争优势。不过,卢涛表示,Graphcore并不认为IPU要替代GPU,他认为未来CPU、GPU、IPU会三分天下,各自有自己的优势领域。

目前,IPU与CPU、CPU相比还非常年轻,要把IPU的技术优势变成企业的竞争优势,还有很多工作要做。目前Graphcore正在积极努力,完善IPU的产业生态。

在开发者方面,Graphcore推出了IPU配套的开发平台——Poplar SDK。Poplar是架构在机器学习的框架软件(比如TensorFlow、ONNX、PyTorch和PaddlePaddle)和硬件之间的一个基于计算图的工具和库。目前已经提供750个高性能计算元素的50多种优化功能,可以支持各种标准的机器学习框架,包括TensorFlow 1/2、ONNX和PyTorch,很快也会支持百度的Paddle。

在销售渠道上,签约神州数码就是非常重要的一步。神州数码将作为Graphcore在中国的产品总代理。目前Graphcore的主打产品就是基于GC200构建的可扩展至超大规模的IPU系统,每个IPU系统以IPU-M2000为单元模块进行堆叠,可扩展至超大规模计算级别。每个IPU-M2000在1U的纤薄尺寸内提供了1 petaFLOPS的AI计算和高达450GB的Exchange-Memory,可满足最苛刻的机器智能工作负载。目前主要的IPU系统具体包括:

  1. IPU-POD4 DA(Direct Attach,直连):由主机服务器支持的1个IPU-M2000在价格合理的紧凑型2U系统中提供强大的1 petaFLOPS AI计算,可用于训练和推理工作负载。
  2. IPU-POD16 DA:由主机服务器支持的4个IPU-M2000在价格合理的紧凑型5U系统中提供强大的4 petaFLOPS AI计算,可同时用于训练和推理。
  3. IPU-POD64:IPU-POD64是Graphcore的独特解决方案,可进行大规模、分散的横向扩展,从而将高性能的机器智能计算扩展到超级计算规模。它可无缝扩展多达64,000个IPU。

卢涛表示,今年是Graphcore正式进入中国的第三年。中国是全球领先的AI市场,也是Graphcore的重要市场之一。在中国市场,Graphcore与领先的本地商业用户展开紧密的早期合作,基于IPU的开发者云已于去年7月正式上线,其IPU-POD产品技术已在IPU开发者云上供用户访问。他相信,有神州数码的助力,中国这一火爆的AI市场有望率先成为IPU落地实现爆炸性增长的区域之一。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2021

05/14

11:24

分享

点赞

邮件订阅
白皮书