在本文中,我们将共同了解DPU是什么、DPU的工作原理、DPU的优势、如何选择合适的DPU供应商,以及更多常见问题解答。
数据处理单元,简称DPU,已经成为持续发展的现代计算领域的又一支柱,领先于中央处理器(CPU)和图形处理单元(GPU)。
DPU能够与CPU和GPU协同工作,负责增强计算能力并处理日益复杂的现代数据工作负载。随着全社会对AI、机器学习、深度学习、物联网、5G及复杂云架构需求的增加,DPU市场也在稳步增长。如果您的团队参与到高级计算项目当中,那么将DPU引入数据中心架构也许会为您带来新的收益。
在本文中,我们将共同了解DPU是什么、DPU的工作原理、DPU的优势、如何选择合适的DPU供应商,以及更多常见问题解答。
所谓DPU,或者说数据处理单元,是一种可编程处理器,旨在高效处理数据中心内的大规模数据工作负载,包括数据传输、规约、保护、压缩、分析和加密等。
DPU正迅速成为现代计算中的重要组成部分,能够帮助CPU分担数据相关工作负载以提升数据中心的整体效率和性能。
DPU通过以下主要功能为现代数据中心带来了诸多收益:
DPU有如下几大特点:
DPU供应商可根据企业客户的需求在产品当中应用不同的技术和材质。DPU主要分为三种类型:基于SOC型,基于ASIC型和基于FPGA型。每一种都是针对特定用例或客户系统所量身定制,因此您应根据实际需求选择适当的DPU供应商。
目前,DPU市场上的主要供应商包括英伟达、Marvell、Fungible(已被微软收购)、博通、英特尔、Resnics以及AMD Pensando。随着更多新厂商的加入,预计这份专为数据类高级工作负载提供解决方案的名单还会继续延伸。未来几年,DPU领域很可能成为各大科技巨头和芯片制造商所激烈争夺的战场。
要根据需求选择合适的DPU供应商,您需要综合考虑多方面因素:
名称 |
CPU |
GPU |
DPU |
含义 |
中央处理单元 |
图形处理单元 |
数据处理单元 |
功能 |
主处理器负责计算机系统的整体运行,是计算机的“大脑” |
图形计算任务专用处理器,负责执行3D图像渲染或视频处理等专项任务 |
专门处理以数据为中心的工作负载,例如数据中心的网络、存储及安全操作 |
架构 |
包含大量针对串行处理优化的强大处理核心,长于按顺序逐个执行任务 |
包含大量针对并行处理优化的较简单核心,长于同时处理大量任务 |
由处理核心、硬件加速器元件和高性能网络接口组合而成,负责处理以数据为中心的大规模任务 |
相关用例 |
存在于几乎一切计算设备当中,包括智能手机、计算机、服务器等 |
常被用于游戏PC设备 |
主要用于数据中心 |
DPU可以为CPU分担数据相关的工作负载,借此帮助数据中心基础设施提高效率、加快数据处理速率并减少CPU负担,从而实现更快、更可靠的数据处理能力。
要使用DPU,您的服务器或网络设备必须具备可兼容DPU卡的PCIe插槽。硬件还应具有兼容的操作系统和驱动程序、可供DPU正常运行的充足内存,以及稳定可靠的电源和冷却系统。
凭借强大的规模化数据处理能力,DPU可以替CPU分担网络和通信类工作负载。这种以数据为中心的工作负载包括数据分析、传输、规约、安全、压缩、分析和加密等。DPU也是存储网络的理想选择。其实际应用可能包括AI与机器学习、大数据分析和处理、视频转码与流媒体、网络流量处理与安全,以及存储I/O加速。
可用于DPU的数据加速引擎包括加密/解密、压缩/解压缩、数据规约、AI/机器学习推理与网络等。这些数据加速引擎能够替CPU分担特定类型的工作负载,从而提高效率、性能和安全性。
随着市场对数据密集型应用需求的不断增加,相应的计算架构也将持续发展,并对数据处理的速度、效率和安全性提出更多要求。根据Allied Market Research的一份报告,到2031年,全球数据处理单元市场总值预计将达到55亿美元,从2022年至2031年期间的年均复合增长率为26.9%。因此,DPU也许会从如今的可选组件逐步发展成下一代计算架构中的标准组成部分。
好文章,需要你的鼓励
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。
这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。
腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。
这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。