Nvidia本周一晚在洛杉矶举行的世界移动通信大会(Mobile World Congress)上宣布最新的EGX Edge超级计算平台全面上市,该平台完全是针对人工智能处理所谓“边缘数据”而打造的。
Nvidia公司创始人兼首席执行官黄仁勋表示,EGX将使企业能够利用工厂车间或者城市街道的快速流数据来大规模且更低延迟地交付“下一代AI、物联网和基于5G的服务”。
他在一份声明中表示:“我们进入了一个新的时代,在这个时代数十亿个永远在线的物联网传感器将通过5G连接并由AI处理。这就需要新型且高度安全、可以在远程轻松操作的联网计算机作为基础。因此,我们打造了Nvidia EGX Edge超级计算平台,让计算超越了个人、超越了云,可以在全球范围内运行。”
使AI能够在智能手机、传感器和工厂机器等边缘设备上运行,这是技术发展的下一个阶段。这在以前是不可能的,由于最早的AI算法非常复杂,只能在运行于云数据中心的强大计算机以进行处理,这就需要通过网络发送大量信息。但这是很麻烦的,因为它需要大量的带宽并会导致更高的延迟,所以很难实现“实时” AI。
企业真正想要的是在生成数据的地方执行AI,无论是在制造设施、零售商店还是在仓库,而这正是Nvidia EGX所瞄准的。它将Nvidia的AI技术与数据中心厂商Mellanox的安全、存储和网络技术进行了结合。Nvidia此前曾表示,计划在年底前以69亿美元的价格收购Mellanox。
EGX平台运行Nvidia Edge Stack,这是针对实时AI服务(例如分析,语音和视觉)进行了优化的软件堆栈。该平台还结合了Nvidia的CUDA-X软件、一系列针对AI的库、工具和技术,以及Nvidia认证的GPU服务器。此外,它还支持用于构建智能城市和智能视频分析应用的框架Nvidia Metropolis。
作为已经在充分使用Nvidia EGX的企业客户之一,德国汽车制造商宝马公司使用EGX从位于南卡罗来纳州制造工厂检测线的多个摄像头和传感器收集数据,以实现所谓的“智能视频分析”。
洛杉矶市也是Nvidia平台的另一个早期采用者,该市利用EGX捕获车辆数据和行人数据,自动管理街道信号计时。
EGX平台的另一个关键,是今天宣布推出的Nvidia Aerial软件开发套件。黄仁勋在主题演讲中表示,Nvidia Aerial对于5G提供商来说至关重要,因为它让5G提供商可以使用EGX来构建和交付“软件定义的高性能5G无线无线电接入网络”,包括从Mellanox网络接口卡到GPU内存的低延迟数据路径,以及5G物理层信号处理引擎,以确保所有数据都保存在GPU内存中。
他表示,电信企业借助Nvidia Aero能够构建完全虚拟化的5G RAN,以支持增强现实、虚拟现实、云游戏和智能工厂等用例。
Nvidia目前已经与瑞典网络公司Telefonaktiebolaget展开合作,建立了全球首个软件定义的5G RAN,而且两家企业正在致力于该技术商业化。
爱立信公司执行副总裁、网络业务负责人Fredrik Jejdling表示:“作为技术领导者,我们拥抱开放性和新平台,在这些平台上我们可以继续创新并突破界限,为客户提供最佳解决方案。我们将与Nvidia共同研究如何将替代解决方案推向市场,以虚拟化完整的无线电接入网络。”
Nvidia还宣布扩大与Red Hat和微软的合作伙伴关系。
首先,Nvidia将向电信企业提供运行在Red Hat OpenShift平台上的高性能、软件定义5G无线基础设施。黄仁勋表示,此举旨在让用户更容易在电信边缘访问AI应用。
同时Nvidia表示,EGX平台正在与微软Azure云紧密集成,以提供更高级的“边缘到云AI计算能力”。两家厂商将专注于智能边缘计算,帮助各个行业的企业组织更好地管理诸如零售商店、仓库、制造厂、联网建筑物和城市基础设施生成的数据,并从中获取洞察。
黄仁勋表示:“全球最大型的那些行业希望将AI计算放在边缘,从连续的数据流中提取洞察,并在行动时感知、推理并采取行动。”
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。