在斯坦福大学前任校长、Alphbet公司董事长John L. Hennessy的大力支持下,英特尔开始全面转向“域特定架构”策略,并由此构建起属于自己的CPU、GPU、ASIC与FPGA等多个产品家族。从本质上讲,这项策略很可能正是异构计算的重要缩影,但同时也给软件开发人员带来沉重的负担。为了破解困局,英特尔开始着力开发其OneAPI软件工具集。
目前,英特尔主要依靠至强产品线进行AI推理,领先Movidius实现嵌入式AI,并通过MobileEye支持汽车图像处理。在数据中心方面,英特尔于2016年收购Nervana Labs,随后于2019年12月收购了Habana Labs。上个季度,英特尔在AWS上一举拿下模型训练设计大奖。AWS方面宣称,与其他领先GPU平台(很可能是指英伟达A100)相比,Habana Labs平台在价格/性能方面保持着40%的优势。不过AWS也强调,这一结果来自一揽子AI工作负载,可代表AWS上约八成AI运行负载的一般情况。
Gaudi芯片通过8 x 100Gb裸片搭载的标准以太网架构,借助“模型并发性”机制提高存储容量处理能力。这套架构能够扩展至数千个节点,拥有广阔的负载容纳范围。随着DNN模型的规模扩张与复杂性增长(每3.5个月翻一番),这种横向扩展能力将变得愈发重要。Gaudi架构能够支持基于融合以太网的RDMA(ROCE)。ROCE的重要意义在于,能够将其引入芯片,英特尔能够获得8个超高速(100 Gb)互连端口且无需昂贵的网络接口卡(NIC,价格可能远高于1000美元)或者机架交换机(价格通常高于10000美元)。而且与需要消耗大量CPU周期的共享内存管理软件相比,RDMA能够显著简化程序员在整体架构中访问共享内在的挑战并借此提高性能表现。
但在Habana之外,也有不少用户更倾向于使用英特尔至强处理器执行某些推理甚至是训练作业。Facebook就分享了其AI基础设施设计心得,表示正在推荐、多层级感知器以及整体推理等作业中大量使用至强CPU。
目前无法断言Facebook的态度到底有多坚定,毕竟社交巨头对其他芯片也表现出了极大兴趣,包括高通的A1100以及Facebook内部自研的推理处理器Kings Canyon。Facebook目前每天处理超200万亿项预测与超过60亿项语言翻译操作,因此高效推理处理器将成为提升Facebook运营效率的关键所在。
Facebook AI每天需要处理数万亿次查询。该公司在使用GPU的同时,也在广泛使用CPU(很可能来自英特尔)。
作为英特尔的合作伙伴,Datatonic公司也分享了使用至强处理器提升AI推理性能并降低处理成本的心得。请注意,这部分数据的比较对象是上代英伟达GPU,而非最新的英伟达A100。但无论如何,Datatonic给出的结果仍然令人意外、甚至可以说是震惊。
英特尔客户Datatonic最近分享了测试结果,英特尔至强处理器确实有能力成为速度更快、成本更低的AI实现途径。
预计在AWS的强大设计之下,Habana Gaudi训练芯片将在2021年上半年迎来更多辉煌的战果。Gaudi在大规模处理方面拥有独特优势,我们也将其视为训练类工作负载的重要竞争选项。另外,Gaudi同样拥有出色的可扩展性,这也成为英特尔阵营的核心优势。
借助ROCE带来的100 Gb以太网端口,英特尔的Gaudi平台能够提供出色的可扩展性。
至于Habana Goya推理处理器,考虑到其短短两年的发展历程,我们对其设计水平还无法抱有太高的信心。事实上,英特尔方面甚至有可能暂时搁置Goya发展计划,专注于推动至强处理器在数据中心领域的推理处理探索。这一方面是因为至强已经在AI加速方面取得了不错的成绩,此外新任CEO Pat Gelsinger也需要尽可能减少低利润产品带来的成本压力。当然,目前关于Goya项目的消息还太少,尚未公开的大客户部署以及可能公布的下一代芯片方案都有可能帮助Goya迅速成为人们的关注焦点。
优势:英特尔拥有全面的产品组合,只要能够克服域特定架构带来的固有软件开发挑战,夺取市场份额将只是时间问题。总之,英特尔研究院在AI方面拥有相当强劲的潜在优势。
劣势:英特尔必须解决生产问题。Habana Gaudi的上市速度太慢,给竞争对手下留下了跟进甚至超越英特尔的机会。另外,我们还没有听说有任何大型客户使用Habana Goya处理推理类工作负载。
声明:本文内容仅代表作者观点,不应作为任何购买或投资建议。本文作者来自Cambrian AI Research,与英伟达、英特尔、IBM、高通、Blaize Graphcore、Synopsys以及Tenstorrent等多家企业保持合作关系。Cambrian AI Research与本文提及的任何企业均无投资关系。
好文章,需要你的鼓励
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
OpenAI推出新AI模型GPT-5-Codex,能够在无用户协助下完成数小时的编程任务。该模型是GPT-5的改进版本,使用额外编码数据训练。测试显示,GPT-5-Codex可独立工作超过7小时,能自动发现并修复编码错误。在重构基准测试中得分51.3%,比GPT高出17%以上。模型可根据任务难度调整处理时间,简单请求处理速度显著提升。目前已在ChatGPT付费计划中提供。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。