哪些系统设计要求SoC复杂性进行飞跃式发展?正确答案绝不仅仅是大家首先想到的大数据中心人工智能(AI)芯片,同时还包括无人驾驶汽车等场景,例如汽车、卡车以及无人机。此外,能够自主着陆的可重复利用火箭,以及可以进行远程诊断的医疗设备,也都是这类芯片的需求主力。
目前,很多片上系统(SoC)的设计复杂性已经令人难以想象。例如,今年HotChips研讨会上展示的针对边缘与数据中心等场景的各类全新SoC设计,就令人大开眼界,甚至进一步拓展了我们对于“大”芯片的定义范围。那么,到底哪些系统设计要求SoC复杂性进行飞跃式发展?正确答案绝不仅仅是大家首先想到的大数据中心人工智能(AI)芯片,同时还包括无人驾驶汽车等场景,例如汽车、卡车以及无人机。此外,能够自主着陆的可重复利用火箭,可以进行远程诊断的医疗设备,以及用于支持智能制造的联网机床控制器,也都是这类芯片的需求主力。
凭借着夸张的尺寸与复杂性,这些芯片开始被人们称为“怪兽级芯片”。在今天的文章中,我们将共同了解这些怪异芯片设计方案兴起背后的驱动因素。简而言之,此类特殊设计主要是为了实现互联网连接,这种连接能力不仅可以带来大数据信息,同时还能实现有助于决策的分布式处理机制。这些与互联网连接的系统,往往需要通过每秒处理超过万亿次运算的方式自行做出一部分甚至所有决策,而这也进一步推动了又一轮硬件与软件创新热潮,并最终令芯片的复杂度迈向前所未有的高度。
图一:无人驾驶、机器学习以及区块链处理等场景对复杂性的严苛要求,带来了新一代SoC设计方案。
没错,也有一部分应用仅负责信息报告,但这类应用通常数量非常有限,而且代表着低价值市场上只能产生较低利润率的产品门类。为了真正实现价值,联网系统必须有能力自主做出决策,而这就带来了独特的软件与硬件开发挑战。
首先,为了能够做出决策,这些系统需要建立起一整套包含多种类型传感器,以及由复杂软件算法驱动的高性能数据处理体系。可以肯定的是,硬件由软件需求进行驱动,而设备本身也需要支持能够使系统与现实世界进行交互的其它算法。
没错,大家可以在软件与硬件之间旋转几个中间件层,但这会牺牲性能表现,并给多种关键任务应用带来额外的执行成本。
怪兽级芯片的时代,要求系统能够基于复杂的硬件与软件构建单元实现自主决策。此外,新时代还推动着IP核与EDA设计工具技术的进一步发展,用以确保对这类复杂项目进行妥善管理,同时又不会破坏设计人员在合理时间与成本范围之内拿出最终方案的可行性。
以怪兽级芯片中的多处理器缓存一致性问题为例,它属于计算机上的一套子系统,已被应用于部分SoC当中,旨在简化辅助处理子系统(例如视觉加速器以及其他图像处理器)的编程流程。
除了主CPU子系统之外,这些怪兽级芯片还具备用于处理特殊数据以及实现有效控制的处理器层级结构。再有,为了进一步增加处理能力,其中包含的处理器数量也在不断增加,这就要求芯片本身支持数十个缓存一致性端口,并在这些端口上运行异构缓存一致性协议。
图二:大型SoC设计中的缓存一致性工作原理示意图。
由于使用多级片上缓存,导致片上调整缓存存储器多达四级。调整缓存的这套层级结构负责改善内存带宽,并最大程度减少因片外内存访问带来的延迟。事实证明,随着设计人员不断寻求对内存性能的提升,高带宽内存接口的应用也变得越来越普遍。
由于各个处理子系统会不断生成大量数据,这些数据当然需要在整个SoC设备当中进行传输。以高级驾驶辅助系统(ADAS)应用中的现有汽车SoC为例,其每天可生成超过20GB数据。因此,在怪兽级芯片当中,多节点网格部分将用于实现片上深度学习处理,旨在将数据转换为可以操作的对象。
如今,边缘设备子系统中通常包含20个网格节点,而未来这一数字可能会在高端AI应用当中进一步增长至上百个。举例来说,用于机器学习的卷积神经网络(CNN)中的网格节点数量正在快速增加,以便更好地支持训练与推理任务。此外,芯片设计中的挑战不仅在于如何实现CNN节点内部的数据转换,同时也要求我们想办法在节点之间实现数据移动。
图三:关于在汽车SoC中实现机器学习与神经网络架构的示例。
再有,功率与频域数字也在增加,用以管理这些怪兽级芯片的功耗水平。接下来,怪兽级芯片极高的复杂性也给设计生产率带来压力。而且,这种复杂性要求引入IP核与EDA工具,它们负责将手动优化能力与为用户管理非增值复杂性因素的自动化方案结合起来。
用于ADAS与无人驾驶汽车的SoC正是怪兽级芯片中的经典范例。无人驾驶汽车是一种由软件驱动的应用方案,可能需要多达1亿行代码才能与真实的交通世界顺畅交互。因此,能够支持这种庞大软件的硬件(即汽车SoC)必须具有高性能、低功耗、经济高效且功能安全等特点。
因此可以想见,相关的处理与存储子系统必然在复杂度方面日益提升,并要求利用新一代互连IP以实现巨大的数据传输带宽、低延迟以及更高的能源利用率。换句话说,怪兽级芯片正在给互连技术施加压力,敦促其尽快发展成合格的SoC神经系统。
是的,处理器是系统当中最核心的IP,而内存带宽则是决定一切的基础;但现在,如何利用高级互连IP将SoC中的各个部件组装起来,则直接决定着SoC设计方案的整体可行性。总结来讲,互连IP对于SoC的性能、成本以及发展进度,都将产生极为重大的影响。
好文章,需要你的鼓励
微软推出 Copilot+ PC 标准,要求配备高性能 NPU,引发 AI PC 市场格局变化。英伟达虽在数据中心 AI 领域占主导,但在 PC 端面临挑战。文章分析了英伟达的 AI PC 策略、NPU 与 GPU 的竞争关系,以及未来 GPU 可能在 Copilot+ 功能中发挥作用的前景。
专家预测,随着人工智能技术的迅速发展和广泛应用,2025 年可能成为 AI 泡沫破裂的关键一年。尽管 AI 仍有望在多模态模型和自动机器学习等领域取得突破,但技术瓶颈、投资回报率下降、监管趋严以及环境和伦理问题等因素可能导致 AI 热潮降温。未来 AI 发展将更注重平衡和可持续性。
Google 推出名为 Titans 的新型 AI 架构,是 Transformer 的直接进化版。Titans 引入了神经长期记忆、短期记忆和基于惊喜的学习系统,使 AI 更接近人类思维方式。这一突破性技术有望彻底改变 AI 范式,推动机器智能向人类认知迈进一大步。
主动型 AI 是人工智能的下一次进化,它不仅能生成内容,还能自主决策和追求目标。这种 AI 可以设定自己的目标,制定策略并根据情况调整方法,实现真正的自主性。它将彻底改变机器与世界的互动方式,为人机协作开启新的可能性,但也带来了透明度和伦理等挑战。