AI(人工智能)芯片初创公司BrainChip产品开发负责人Anil Mankar周二在著名的Linley Fall Processor会议上介绍了BrainChip公司技术的详细信息。会议组织者Linley Gwennap提出,整个行业需要更多的软件功能才能赶上在AI领域遥遥领先的Nvidia。(图:BrainChip)
半导体行业目前处于芯片设计和性能改进的复兴时期,但要赶上图形芯片巨头Nvidia(英伟达)却还需要更多的软件。业界会议Linley Fall Processor Conference(Linley秋季处理器会议)星期二提出了此观点。
Linley Fall Processor Conference本周和下周以虚拟形式举行。Linley Fall Processor Conference每年举行一次,为年轻的芯片公司提供交流机会。
该会议的主持人Linley Gwennap是个有二十年经验的半导体分析师。他在周二上午的大会开幕式上发表主题演讲表示,对于那些想挑战英伟达在人工智能方面领先优势的公司而言,软件仍然是绊脚石。
Gwennap表示,“一些芯片供应商和云服务供应商为AI加速开发出了令人印象深刻的硬件,但下一个障碍是软件。”
他在提到英伟达竞争对手遇到的困难时风趣地表示,“软件是个极难的单词。”
他称有些公司或是不支持流行AI框架(例如TensorFlow)的某些功能,或是某些用于竞争芯片的AI应用程序甚至都可能没法正确地编译。
他表示,“这些供应商要与Nvidia和英特尔等公司的深度软件堆栈竞争就必须支持广泛的框架和开发环境,提供相应的驱动程序、编译器和调试工具,为各种客户工作负载提供全面的加速和最佳性能。”
Nvidia在构建神经网络的训练操作方面领先十几年。Nvidia的CUDA是个软件系统。一些曾与Nvidia芯片合作构建神经网络的AI领域明星级人物曾一再提出,AI领域需要竞争才能打破Nvidia对AI科学领域的控制。
Global Foundries总经理Hiren Majmudar在会上详细介绍了Global Foundries公司在物理设备方面的各种创新, AI初创公司可以利用这些创新取得性能优势。(图:Global Foundries)
AI的开发传统上是用在汽车和基础架构的嵌入式设备上,现在已经扩展到云计算数据中心。英国的Imagination and Think Silicon是芯片设备巨头Applied Materials的一个部门。Imagination and Think Silicon开发了一些临界低功耗设备,可以应用于功耗受限的设备,例如由电池供电的微控制器产品。
英伟达上个月宣布打算以400亿美元收购Arm Plc。这样一来,要缩小与巨头的差距就更难了。芯片行业所有挑战者生产的芯片知识产权的核心属于Arm制造。因此,英伟达软件就会占更大的上风。
Gwennap表示,那些希望从Nvidia手里挖走市场份额的公司只得构建自己的软件及复制Nvidia的某些功能,但还没有产品能消除差距。
他表示,“目前存在一些开源努力,但并没有很大的吸引力。大多数公司要开发自己的替代方案,这就是为什么花了这么长时间。”
尽管受到BrainChip和其他公司激增的竞争挑战,Nvidia芯片(例如A100)仍继续在市场份额和整体性能方面处于领先地位。(图:英伟达)
这次会议吸引了许多新公司和已有所建树的公司,每个公司都有一些在某些AI任务的原始性能方面优于Nvidia的创新。创业公司包括Tenstorrent、Brainchip和SiFive等。包括英特尔和谷歌在内的一些知名公司也参与了该次会议。
合同芯片制造商Global Foundries为大批芯片公司生产处理器。Global Foundries在会上展示了创新的广度和深度。Global Foundries公司描述了如何改善底层芯片的物理性能进而创建更好的晶体管,晶体管是所有芯片的基本组成部分。
尽管各方面的发展,英伟达新的和旧的部件的性能仍然令人印象深刻,MLPerf行业组织周三发布的最新AI基准测试结果证明了这一点(https://www.zdnet.com/article/nvidia-makes-a-clean-sweep-of-mlperf-predictions-benchmark-for-artificial-intelligence/)。
Gwennap表示,软件仍然是缩小差距的症结所在。
记者问Gwennap要采取哪些措施才能与Nvidia进行实质性竞争,他表示,“英特尔和高通拥有良好的软件堆栈,他们在软件上进行了大量投资并拥有大量的资源,我们看到一些资金雄厚的初创公司取得了一些进展,一些不错的进展,但一切都仍然需要时间。”
会议的组织者Linley Gwennap表示,软件仍然是那些想与Nvidia竞争公司的最大弱点。(图:Linley集团)
他表示,“取决于团队的规模和专业知识,开发此软件可能要花费数月甚至数年。”
诸如Cerebras Systems和Graphcore的公司出售自己的计算系统,这些公司打造了全新的软件程序,用在自己芯片上神经网络处理方式的优化。但这些个别的努力可能会使新芯片的使用趋向分化。
相比之下,英伟达的CUDA为人工智能设计人员提供了一致的平台,设计人员可以在这样的平台上集中精力工作。
Gwennap建议,可能需要组合各种不同的努力才能形成对Nvidia有一定的挑战。
Gwennap在谈到一些初创公司各种不同的软件开发工作时表示:“我认为需要在某个时进行整合,帮助其中一些公司增加软件投资。”
Gwennap表示,无论要花费多少,软件都是必不可少的。如果没有一套完整的软件程序、软件堆栈,那么“AI加速器的客户前景将受到限制”。
Gwennap告诉记者,该大会已举办15年了,今年有1,000多名与会者,是前几年在硅谷酒店宴会厅举行的会议会者的三倍多。
会议周三周四继续,下周二、周三和周四进行第二轮演讲,包括周二谷歌的主题演讲。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。