走进芯时代:AI算力GPU芯片分析
尽管AI芯片种类繁多,GPU因其适应性和强大的并行计算能力,仍是AI模型训练的主流硬件。英伟达在GPU领域的技术积累和生态建设使其处于领先地位,而国内GPU厂商虽在追赶,但仍存在差距。AI应用向云、边、端全维度发展,模型小型化技术成熟,数据传输需求增加,Chiplet技术降低设计复杂度和成本。
虽然Al芯片目前看有SPU、ASIC、CPU、FPSA等几大类,但是基于几点原因我们判断GPU仍将是训练模型的主流硬件:
1、Transformer架构是最近几年的主流,该架构最大的特点之一就是能够利用分布式BPU进行并行训练,提升模型训练效率;
2、ASIC的算力与功耗虽然看似有优势,但考虑到AI算法还是处于一个不断发展演进的过程,用专用芯片部署会面临着未来算法更迭导致芯片不适配的巨大风险;
模型小型化技术逐步成熟,从训练走向推理。云、边、端全维度发展。
1、GPU方面, 在英伟达的推动下,其从最初的显卡发展到如今的高性能并行计算,海外大厂已经具备了超过20年的技术、资本、生态、人才等储备,形成了大量的核心技术专利,而且也能充分享有全球半导体产业链的支撑,这都或是目前国内厂商所缺失的。
近几年在资本的推动下,国内涌现出数十家GPU厂商,各自或都具备一定的发展基础,但整体经营时间较短,无论从技术积淀、产品料号布局、高端料号件能夹说,与国外大厂仍具备较大差距。但国产化势在必行,国内相关产业链重点环节也积极对上游芯片原厂进行扶持,国产算力芯片需要不断迭代以实现性能的向上提升,后续持续关注相关厂商料号升级、生态建设和客户突破:
2、 Al在端侧设备应用普及是大势所趋,目前,知识蒸馏、剪枝、量化等模型小型化技术在逐步成熟,Al在云、边、端全方位发展的时代已至。除了更加广泛的应用带来需求量的提升外,更复杂算法带来更大算力的需求也将从另一个维度推动市场扩容;
3、数据的高吞吐量需要大带宽的传输支持,光通信技术作为算力产业发展的支撑底座,具备长期投资价值;
4、 Chiplet技术可以突破单一芯片的性能和良率等瓶颈,降低芯片设计的复杂度和成本。


























0赞好文章,需要你的鼓励
推荐文章
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。