人工智能(AI)的兴起带动市场对AI芯片的需求,NVIDIA的GPU真正借着这股“东风”迅速成为AI市场的主流产品之一,其势头甚至盖过了CPU。不过,GPU还不能算是真正的AI芯片,现在一大波新兴的AI专用芯片正在路上,而IPU(智能处理器)在这之中相对比较成熟。目前,来自Graphcore的IPU芯片已真正量产,应用效果非常好,由此也被不少人看好。
专为机器智能设计
Graphcore是IPU的扛旗人。Graphcore是一家来自英国的明星初创公司,到目前为止,公司总共融资超过4.5亿美金,其中包括一些非常知名的金融投资者、战略投资者,比如,微软、三星、博世、宝马、戴尔等。IPU是一种专为机器智能设计的全新芯片类型,采用的是完全不同于CPU、GPU的全新处理器架构,专门适用于AI负载。
Graphcore高级副总裁兼中国区总经理卢涛告诉记者,机器智能是一类全新的计算负载,有自己的特点。比如,AI算法通常涉及大规模的并行计算;数据结构通常是非常稀疏的矩阵;和传统的科学计算或者高性能计算(HPC)相比,智能计算普遍都是低精度计算。另外,AI应用经常会有数据参数复用、静态图结构。由于这些特点的存在,使得传统CPU、GPU在处理这类工作负载的效果并不理想,而IPU则有明显优势。

Graphcore高级副总裁兼中国区总经理卢涛
“CPU是面向应用和网络设计的处理器,是一个标量处理器;GPU是面向图形和高性能计算、以向量处理为核心的处理器。AI是一个全新的负载、是以计算图作为表征,因此需要一种全新的处理器架构,而Graphcore开创的IPU就是针对计算图的处理来设计的专用处理器。”卢涛说。
据卢涛介绍,Graphcore的IPU在架构上做了大量创新。其中一大创新是,IPU内核采用了大规模并行MIMD,有一个非常大的分布式片上SRAM,这个SRAM高达300 MB。因此,相比CPU+DDR2或者GPU+GDDR/HBM,IPU能够实现10到320倍的性能提升。
“近些年,芯片的计算能力提升很快,但内存的性能提升却相对缓慢。IPU的一个创新设计就是采用了大规模并行MIMD和庞大的分布式片上SRAM。”卢涛说。
Graphcore IPU的另一大架构创新是采用了构建大规模数据中心集群的BSP技术(Bulk Synchronous Parallel),这种技术目前在谷歌、Facebook、百度这样的大规模数据中心都在使用。IPU也是目前世界上首款BSP处理器,通过硬件来支持BSP协议,并通过BSP协议把整个计算逻辑分为计算、同步、交换三方面。
据悉,Graphcore IPU已经量产的GC2处理器拥有236亿个晶体管的芯片,在120瓦的功耗下有125 TFlops的混合精度、1216个独立的处理器核心(Tile),300 M的SRAM能够把完整的计算模型放在片内。另外,内存的带宽有45 TB/s、片上的交换是8 TB/s、片间的IPU-Links是2.5 TB/s。Graphcore IPU的这些硬件条件为其最后高性能地完成AI应用奠定了非常强大的基础。
一款全新架构的处理器要想真正落地,配套的软件自然必不可少,其中就包括编译器、开发平台以及其他相关的各种配套软件和工具。对此,Graphcore推出了IPU配套的开发平台——Poplar SDK。Poplar是架构在机器学习的框架软件(比如TensorFlow、ONNX、PyTorch和PaddlePaddle)和硬件之间的一个基于计算图的工具和库,目前提供750个高性能计算元素的50多种优化功能,可以支持各种标准的机器学习框架,包括TensorFlow 1/2、ONNX和PyTorch,很快也会支持百度飞桨。在部署方面,Poplar目前可以支持容器化部署,能够快速启动并运行。今年5月,Graphcore还推出了一款名为PopVision Graph Analyser的分析工具。开发人员在使用IPU进行编程的时候,可以通过PopVision这个可视化的图形展示工具来分析软件的运行情况、调试效率。
优势初步展现
硬件架构的创新加上配套软件使得IPU在人工智能的应用上表现优异。比如,在BERT训练方面,采用NVLink-enabled的GPU平台通常需要50多个小时才能达到一定精度,而IPU平台只需36.3小时。在BERT推理方面,IPU目前在 BERT 上训练的时间能够比 GPU 缩短 25%以上。
微软的一位机器学习专家在5月27日举行的Intelligent Health峰会上分享了如何使用IPU训练CXR(胸部X光射线样片)。在微软自己专门创新的SONIC CV 模型里,IPU只要30分钟就能够完成传统的GPU需要5个小时才能完成训练的工作量。
卢涛介绍,目前基于IPU的应用已经覆盖了机器学习的各个应用领域,包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型,广泛应用于医疗、金融、制造以及5G等多个行业,极大降低了开发者和用户的决策与开发成本。
卢涛表示,目前中国企业使用IPU分为两个渠道,其一是购买IPU服务器,戴尔已提供此类服务器;另一渠道是通过云服务商购买基于IPU的云服务。为了进一步配合IPU在中国的落地,Graphcore在中国已建立起两支技术服务团队——一支是以定制开发为主要任务的工程技术团队,另一支是以客户技术服务为主的现场应用团队。
“AI应用需要专门的处理器,而IPU正是这样的处理器。目前,AI在各行各业均得到广泛应用,IPU可以基于自身优势为世界的智能化进程增添不竭动力。”卢涛最后总结道。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。