作者:华邦电子
AI智驭未来,2024迈入存储元年
“AI 一天,人间一年”,一句市场流行语完美阐释了如今AI大模型的高速发展和广泛应用。以人们日常使用的智能手机为例,众多知名厂商在AI浪潮席卷之下,紧跟AI前沿趋势,纷纷推出搭载端侧大模型或采用“端云协同”部署方案的AI手机,促使手机的智慧化、智能化达到全新高度,根据市场调研机构 IDC预测,2024年全球新一代AI手机出货量将达到1.7亿部,占智能手机总出货量的15%[1],体现了AI手机在电子消费市场的广阔前景。
除手机领域外,AI在各类边缘应用落地的趋势也愈发显著。自ChatGPT横空出世以来,短短一年多的时间,生成式AI已悄然渗透至电脑、智能家居乃至汽车等多个领域,与千行百业持续深入融合,迸发出前所未有的创新活力与应用潜力。
释放边缘AI潜力,“存力”成关键引擎
生成式AI,尤其是在处理大语言模型和高精度图像生成任务时,往往需要庞大的存储和计算资源作为支撑。比如在图像生成方面,创建高分辨率图像往往伴随密集的卷积运算和反卷积运算,而这些运算需要高带宽、高容量的内存来支持数据的快速传输。
因此,庞大的市场机遇与发展所带来的挑战总是紧密相依,边缘设备在导入生成式AI方面仍面临着容量、带宽、能耗和散热等方面的瓶颈,这些因素深刻影响并制约着边缘AI的发展。
具体而言,边缘设备导入生成式AI时通常会面临以下瓶颈:
CUBE:小号“HBM”,完美填补市场空缺
目前,AI技术的深度拓展应用在很大程度上仍需要借助云端,这意味着用户的每次请求指令均需穿越网络抵达云端,才能进行复杂的处理,随后再将处理结果反馈至用户,因此云端通常涉及传输延迟、数据隐私和效益成本方面的挑战,这大大限制了AI技术和应用的普及广度。
与云计算侧重大规模数据处理不同,边缘计算的数据处理发生在数据源或端点处,因此拥有实时处理、分析和决策的快速能力,可大幅降低传输延迟性,契合复杂多变的环境和任务处理。因此边缘AI市场也催生了对中低容量、超高带宽及低功耗内存解决方案的需求,并且生成式AI的出现也让存储行业催生了新的发展机遇——定制化的存储需求应用而生,这主要基于两大原因:
为满足日益增长的边缘AI市场需求,助推其高效创新发展,华邦专门推出CUBE(半定制化超高带宽元件)产品,大幅优化内存技术,可实现在混合云与边缘云应用中运行生成式 AI 的性能,为边缘AI量身定制完美的内存解决方案。与市面上现有方案相比,CUBE 的中小容量超高带宽的特点极具差异化,适用于机器人、可穿戴设备、边缘服务器等多种高级应用。
CUBE在功耗、性能、尺寸设计以及带宽等领域拥有卓越特性,全方位满足边缘AI的发展需求。在带宽方面,CUBE能够达到 256GB/s – 1TB/s,相当于 HBM2或 4-32 个 LPDDR4x 4266Mbps x16 IO;并且,CUBE的功耗低于 1pJ/bit,在提供超高带宽的同时还可极大减少能源消耗。此外,通过创新性TSV 技术以及 uBump/ 混合键合,CUBE可降低功耗并节省 SoC 设计面积,从而实现高效且极具成本效益的解决方案。
整体而言,CUBE 凭借更高的带宽、更高的能效、更快的响应时间、可定制化特性以及紧凑外形,在释放 AI应用潜力方面发挥重要作用,能够让强大的 AI 从云落地至边缘设备和混合云应用中。
随着生成式AI不断向边缘端演化,不同应用场景下的边缘端产品数据传输量攀升,并催生出对低功耗、高带宽存储产品的迫切需求,这一系列新趋势为存储市场开辟了广阔的发展空间。作为深耕存储行业的领导厂商之一,华邦秉持不懈创新、精益求精的发展理念,持续开发用于终端产品特定应用的DDR4/LPDDR4,此外,华邦还致力于研发定制化超高带宽内存解决方案,携手OSAT(半导体封装测试)伙伴为边缘设备SoC带来理想的中小容量超高带宽内存,共同探索内存技术的创新前沿,推动边缘AI实现更高效、更蓬勃的发展。
[1] IDC 咨询:分析师观点: 四年内,中国新一代AI手机将占据半壁江山——机遇稍纵即逝 https://mp.weixin.qq.com/s/bNzl_Nbg01QUKQOyRuxQsg
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。