每隔一段时间,就会有半导体初创公司声称已经解决了业界巨头几十年来一直在努力解决的问题。大多数公司会悄然消失,但偶尔会有一家公司作为行业的潜在颠覆者而引起关注。NextSilicon是一家总部位于以色列的计算架构公司,由首席执行官Elad Raz于2017年创立,看起来就是这样一个罕见的案例。
凭借其新的Maverick-2加速器,该公司基于所谓的智能计算架构构建,NextSilicon押注于一种长期追求但很少实现的方法来加速高性能计算和数据中心工作负载,这种方法被称为数据流计算。数据流架构的设计使得数据本身而不是指令序列来驱动计算。该公司相信它终于解决了阻止数据流架构走出研究实验室的两个障碍:可编程性和实用性。
传统计算的局限性和NextSilicon的解决方案
现代计算在很大程度上仍然由一个称为冯·诺依曼模型的概念所定义,这种设计已经忠实服务了80多年。CPU和GPU都花费大量的硅片面积来处理指令、管理分支预测和处理缓存一致性,在工作负载所需的实际数学运算和开发者最关心的内容之外做了大量的工作。CPU仍然因其灵活性而占主导地位,但它们相对低效。GPU提供了显著的并行处理能力,但需要专门的编程和严格的生态系统依赖。ASIC通常提供非凡的效率,但却以巨大的成本影响将客户锁定在单一用途的硬件上。
NextSilicon的主张很简单但可能很大胆:如果有第四种方式——一个像ASIC一样高效、像GPU一样并行、像CPU一样灵活的计算引擎会怎样?至少这是该公司的目标,它声称在其Maverick-2加速器方面已经取得了重大里程碑。
NextSilicon Maverick-2内部:当数据而非指令占主导
NextSilicon新Maverick-2加速器的核心是数据流执行结构。处理器的算术逻辑网格(这是专有的定制逻辑)不是依赖程序计数器逐步执行指令,而是在输入数据可用时就激活。想象一个自动化工厂,每个工作站在材料到达的那一刻就开始工作,而不是等待中央管理器发出命令。在非常基本的层面上,这就是数据流计算的模型。
这种模型允许硬件将更多的硅片面积用于计算资源而不是控制功能——这是对传统CPU设计的颠覆,在传统设计中,绝大多数晶体管必须专门用于指令处理。理论上,数据流处理器架构应该转化为显著更高的硅资源利用率用于计算和更好的功耗效率。
NextSilicon声称其Maverick-2可以实现比顶级GPU高达10倍的性能,同时功耗降低多达60%,同时运行未修改的C++、Python、Fortran或其他框架代码。开发者和软件工程师习惯于为每个新平台进行数月的移植工作,但NextSilicon的解决方案并非如此。该公司还强调,基于英伟达CUDA编程语言的GPU AI加速器代码也可以在Maverick-2上高效运行,同样完全无需修改。
通常,工作负载的90%以上只由几个特定的计算处理,这是NextSilicon技术据报告表现出色的另一个领域。NextSilicon声称Maverick-2的软件层实时分析现有代码,识别计算热点,并动态重新配置计算资源——有效地将静态芯片转变为自优化引擎。
优化器持续监控应用程序的运行情况,哪些代码部分运行最频繁,以及出现了什么数据模式。使用这些实时遥测数据,它自动构建和编译称为"Mill Cores"的专门硬件配置,并将它们作为即用型镜像保存在芯片内存中。这些优化在后台无缝进行,不会减慢工作负载。当应用程序的性能关键部分出现时,硬件使用这些预构建的镜像在纳秒内瞬间重新配置自己。
与在编译时做出假设的传统系统不同,Maverick-2根据运行时行为优化自己,为每个工作负载重塑自己。一时它可以针对大规模并行性进行调优,下一刻又可以针对深度流水线进行调优。因此,你可以获得接近ASIC的效率,同时具有随着应用程序或系统用例演变而动态适应的灵活性。这种动态适应性对于从高性能计算模拟到数据分析、AI训练和AI推理等工作负载可能是颠覆性的。
另外,NextSilicon详细说明Maverick-2还提供单个或双100千兆以太网连接(双模Maverick-2加速器提供双100GbE)以实现可扩展性。
NextSilicon当前的现实证明点
与大多数早期芯片架构不同,Maverick-2不仅仅是幻灯片展示。该芯片已经部署在桑迪亚国家实验室的Spectra超级计算机等系统中,目前正在进行生产规模测试。
根据NextSilicon分享的内部基准测试:
在GUPS工作负载(每秒千兆更新次数)中,Maverick-2据报告比CPU快22倍,比GPU快近6倍。
在高性能共轭梯度基准测试中,它提供与顶级GPU相当的性能,同时功耗约为一半。
在PageRank(用于网页权威排名的图形分析测试)中,它完成了领先GPU无法完成的大型(25GB+)图形。
这些数据是在公司控制的环境中获得的,当然需要独立的第三方验证。然而,桑迪亚承诺验证Maverick-2平台表明NextSilicon的解决方案值得重大投资。
RISC-V在NextSilicon Maverick-2中的作用
NextSilicon还宣布了一个新的RISC-V核心CPU核心,它诞生于Maverick-2架构的一个组成部分。Maverick-2有一个RISC-V控制处理器,处理串行逻辑和编排,以保持芯片的大规模数据流网格高效运行。本质上,它充当系统的空中交通管制员,协调数据移动,使其并行计算结构保持充分利用。NextSilicon为在其Maverick-2加速器中实现而开发了它,效果非常好,他们决定单独销售。
这个被称为Arbel的处理器,为了能够独立运行甚至主机CPU应用程序而进行了一些扩展,NextSilicon声称其RISC-V核心测试芯片可能是市场上性能最高的RISC-V CPU核心设计。该公司指出了一些特性,如10路发射流水线、深度重排序缓冲区,以及基于台积电5纳米节点构建的集成向量单元。
如果属实,这意味着Maverick-2的控制平面不仅与其数据流端保持同步,它还在推动RISC-V性能的边界。不过,这一声明还有待独立验证。目前,关键要点是NextSilicon正在实现高速标量控制与自适应数据流计算的紧密集成,以实现传统加速器所缺乏的利用效率。
优势、挑战和竞争环境
如果Maverick-2能够提供其声称的性能功耗比优势,它可能是十年来最重要的计算架构突破之一。仅能源节约就对受成本、功耗和碳足迹限制的数据中心来说是巨大的。
然而,架构只是故事的一半。半导体市场奖励生态系统成熟度,而不仅仅是原始性能。英伟达的主导地位和AMD在AI领域的崛起不仅仅是关于硅片,它们是关于具有CUDA等编程库、开发者熟悉度、完整机架级解决方案和多年优化的完整平台。
NextSilicon说Maverick-2运行完全未修改的代码,但其长期成功将取决于真正集成到现有的高性能计算和AI框架中。分析器、调试工具和运行时调度器需要无缝支持该架构。对于一家较小的公司来说,挑战拥有数百万开发者软件生态系统的巨头,这是一个不小的任务。
还有制造规模和供应链的问题。Maverick-2是在台积电的先进5纳米节点之一上制造的,这使NextSilicon与影响每个主要半导体公司的同一代工厂产能紧缩排队等候。该公司如何平衡产量、成本和交付将与其性能指标一样重要。
NextSilicon的市场影响和我的最终看法
话虽如此,我很清楚,如果NextSilicon的技术在独立验证下站得住脚,它可以在高性能计算、仿真和AI驱动的科学研究中开辟一个利基市场,这些客户最重视吞吐量和效率。该公司"即插即用可编程性"的声明——如果得到证明——可能还会在超大规模数据中心加速和大数据分析方面打开机会之门。
从长远来看,Maverick-2的成功可能会推动竞争对手重新审视传统芯片架构假设。例如,英伟达已经在通过其Grace-Blackwell架构追求紧密耦合的CPU-GPU设计。如果Maverick-2证明数据流可以与标准代码共存并高效运行,它可能会迫使其他人重新思考如何平衡并行性和可编程性。
NextSilicon的Maverick-2可能代表了使数据流计算商业化可行的最可信尝试之一。通过融合自适应、软件定义硬件与嵌入式RISC-V控制逻辑,它避开了几十年来约束计算架构的性能、灵活性和成本之间的历史权衡。
但高性能处理器的真正颠覆不是发生在基准测试中,而是发生在生态系统中。该公司的下一个挑战不是证明其芯片有效,而是证明开发者和客户可以轻松且有利可图地采用它。如果它能跨越这道门槛,NextSilicon不仅仅是构建了一个更快更高效的加速器,它将重新点燃行业在AI、高性能计算和百亿亿次计算时代对更高效计算的方法。
Q&A
Q1:NextSilicon的数据流计算技术是什么?它与传统处理器有什么不同?
A:NextSilicon的数据流计算技术是一种让数据本身而非指令序列驱动计算的架构。与传统的冯·诺依曼模型不同,这种架构在输入数据可用时就激活处理器的算术逻辑网格,就像自动化工厂中每个工作站在材料到达时立即开始工作,而不需要等待中央管理器发出命令。
Q2:Maverick-2加速器的性能表现如何?有哪些实际应用案例?
A:根据NextSilicon的内部基准测试,Maverick-2在GUPS工作负载中比CPU快22倍,比GPU快近6倍;在高性能共轭梯度基准测试中,性能与顶级GPU相当但功耗约为一半。该芯片已部署在桑迪亚国家实验室的Spectra超级计算机中进行生产规模测试。
Q3:NextSilicon如何解决数据流架构的编程复杂性问题?
A:NextSilicon声称Maverick-2可以运行完全未修改的C++、Python、Fortran等代码,甚至英伟达CUDA代码也能直接运行。其软件层能实时分析代码,识别计算热点,并动态重新配置计算资源,自动构建名为"Mill Cores"的专门硬件配置,实现近似ASIC的效率和动态适应能力。
好文章,需要你的鼓励
Anchor Browser获得600万美元种子轮融资,专注解决AI代理安全可靠地使用网络的挑战。该公司重新设计浏览器作为云端执行层,为每个AI代理提供独立安全的浏览器环境。与传统浏览器不同,Anchor的b0.dev系统让代理能够规划工作流程并可靠重复执行,将混乱的自动化转变为企业级软件工程。
清华大学研究团队开发的SLA技术通过将AI视频生成中的注意力权重智能分类,对不同重要程度的权重采用差异化计算策略,成功实现了95%的计算量减少和20倍的速度提升,同时保持视频质量不变,为AI视频生成效率优化开辟了新思路。
英国竞争与市场管理局经过九个月调查,将谷歌和苹果的移动平台指定为具有战略市场地位。监管机构表示,两家公司在移动平台领域拥有根深蒂固的市场主导地位,其平台规则可能限制创新和竞争。这一指定使监管机构能够考虑采取针对性干预措施,确保英国应用开发者能够创新和发展业务,但目前尚未引入任何直接要求。
斯坦福大学等机构联合提出多人Nash偏好优化(MNPO),突破传统双人训练局限,让AI在多人游戏环境中学习处理复杂非传递性偏好。该方法通过时间依赖设计,让AI与历史版本对话练习,在所有主要测试中显著超越现有方法,在Arena-Hard中甚至超过GPT-5,为AI对话系统训练提供了更贴近真实世界复杂性的新范式。