单颗 SoC 支持 1 至 340 亿参数的多模态大模型(Multi-Modal LLM)推理,实现前端低功耗生成式 AI。
美国加利福尼亚州圣克拉拉市,2024年1月8日- Ambarella (下称“安霸”,专注 AI 视觉感知的半导体公司,纳斯达克股票代码:AMBA)于当天宣布,在 2024 国际消费电子展(CES)期间,展出在其新款 N1 系列 SoC 上运行多模态大模型(Multi-Modal LLM),其每次推理的功耗显著低于当前市场的通用 GPU 解决方案。生成式 AI 是为了处理大规模数据集而最早应用于服务器上的变革性技术,而安霸的目标是将生成式 AI 部署于终端设备和本地硬件上,从而将其广泛应用于视频安防分析、机器人以及众多工业领域。
安霸将在中高端 SoC 上提供已优化的生成式 AI 处理。这些 AI SoC 包含了功耗低于 5 瓦的 CV72 芯片,以及最新的可应用于服务器端,功耗低于 50 瓦的 N1 芯片。与 GPU 及其他 AI 加速器相比,安霸提供了完整的 SoC 解决方案,每生成一个 token 的能效比最高可提高 3 倍,并可快捷、低成本地部署在终端产品中。
安霸首席技术官兼联合创始人Les Kohn 表示:“生成式 AI 在我们的目标市场上实现了突破,之前无法想象的功能得以实现。使用我们的 N1 系列 SoC 来进行多模态大模型推理,将使所有的前端设备变得更智能,更低功耗,和更低成本。”
市场研究公司 Omdia 高级计算首席分析师 Alexander Harrowell 表示:“在未来 18 个月内,几乎所有设备前端应用都将被生成式 AI 增强。把生成式 AI 的计算转移到设备前端的要点,就在于每瓦的 AI 性能,以及它与前端生态系统其余部分的集成,而不仅仅是原始数据的吞吐量。”
所有安霸的 AI SoC 均可搭配全新的 Cooper™ 开发平台。此外,为了缩短客户新产品上市的时间,安霸已预先移植和优化了 Llama-2 等流行的大语言模型。其在 N1 芯片上运行的大语言和视觉助手 LLava 模型,可对多达 32 个摄像头同时进行多模态视觉分析。这些经过预训练和调优的模型可从 Cooper Model Garden 下载。
在现实世界的众多应用里,除了语言,视觉输入也是一种关键模式。安霸 SoC 的特有架构非常适合以超低功耗同时运行视频处理和 AI 计算。安霸的 AI SoC 并不是单一的 AI 加速器,它不仅能够高效处理多模态大模型,还能同时执行各种系统功能。
生成式 AI 将成为计算机视觉处理中跨越式的新技术,它可将上下文学习和场景理解应用于各种设备,从而涵盖安防设施、自主机器人以及众多工业应用。基于安霸 AI 芯片的设备端通过运行大语言模型和多模态处理可实现以下功能:安防视频的上下文智能搜索、通过自然语言命令控制的机器人、以及多才多艺的AI助手,比如代码、文本和图像的生成等。
这些依赖摄像头和自然语言理解的系统,大部分将受益于设备前端的生成式 AI 处理,其处理速度得以提高,隐私保护得到加强,并且总成本也会降低。安霸解决方案支持的本地处理也非常适合垂直领域大语言模型,这些大语言模型通常需要针对每个具体应用场景进行调整;而传统的集中式服务器方案则是使用更大、功耗更高的大语言模型来满足不同用例的要求。
基于安霸最初为自动驾驶开发的 CV3-HD 架构,N1 系列 SoC 对总算力资源进行了针对性的优化,从而以超极低功耗运行多模态大模型。例如,N1 SoC 在单流模式下以低于 50 瓦的功耗运行 Llama2-13B,每秒可推理 25 个 token。N1 解决方案自带移植好的大模型,使系统整合更容易,因此它可快速帮助 OEM 厂商部署生成式 AI,特别是要求低功耗的各种应用,比如自带本地应用的 AI 智能盒子、送货机器人等,不一而足。
本周,安霸将在 CES 展会期间持续演示 N1 SoC 及其多模态大模型功能。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。