随着数据规模的指数增长,存储数据的载体,数据的处理技术,数据的使用的方式方法都在不断演进。企业用户对数据价值的预期也不断增加,期望通过数据能快速带来商业价值。

近日,Cloudera推出使用NVIDIA GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP),帮助企业用户在完成基本的数据摄取、数据整合批处理以及数据仓库的功能的基础上,还能面向业务人员提供即时互动的分析工具,以及提供建模、数据科学、机器学习,甚至是一些深度训练的平台工具。
GPU加速数据价值实现
Cloudera Data Platform(CDP)是Cloudera推出的端到端的数据平台,通过集成整个数据生命周期及跨公有云和私有云分析功能的独特混合数据架构,CDP可以在数据生命周期的任何阶段,充分利用几乎无限数量和种类的数据支持企业做出更好的决策。
通常提取/转换/加载(ETL)常常成为数据科学家在获取AI预测和建议时的瓶颈。ETL预计会占用数据科学家70%至90%的时间,当数据科学家在等待ETL时,他们不能重新训练模型来获取更好的商业洞见。
传统的CPU基础设施无法通过有效的扩展适应这些工作任务,如果继续采用CPU,则必须牺牲速度或增加成本才能跟上由此产生的处理需求。
而GPU并行处理已成为加速海量数据分析和ETL管道,进而驱动这些工作负载的关键。数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目。

NVIDIA与Cloudera联合工作让GPU加速的Apache Spark 3能够在CDP上无缝运行,从而支持企业机构可以通过安全且可扩展的开源机器学习平台,满足从研发到生产的高性能计算(HPC)、AI和数据科学需求。
美国国家税务局的故事
我们知道Spark大数据分析软件更多是运行在CPU上面,但是随着数据类型的多样化以及数据量的激增,通过引入GPU能够加速数据分析进程。
作为一名数据科学家,Deborah Tylor的任务是整理美国国家税务局超过300TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。
后来通过Cloudera工程师的介绍,美国国税局团队对CDP软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。
后来Cloudera工程师请来了NVIDIA数据科学家团队检查代码的核心内容。他们很快发现一些非常糟糕的数据结构任务仍在CPU上运行。于是他们编写了代码处理这些任务并将其插入Spark的RAPIDS软件接口中。
RAPIDS是一个在GPU上运行数据分析的开放资源库。NVIDIA和Cloudera通过深入合作,使数据团队能够使用RAPIDS AI无需更改任何代码即可大大加快数据工程和数据科学工作负载的计算流程。Cloudera Data Platform上的RAPIDS预先配置了所有必需的库和依赖项,以将RAPIDS的功能带到相关项目中。
结果,Tylor又进行了一次测试,发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。
最终,Cloudera和NVIDIA的技术整合使得美国国税局的数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。
接下来,该团队计划把其成功经验运用在数据准备,也就是数据分析中的ETL方面的工作上面,下一步重大计划是加速各类AI推理工作。
结语
面对数据洪流,企业在数据处理方面的需求激增,而这离不开坚实的数据处理基础设施的支撑。传统的CPU架构在数据处理方面面临瓶颈,而GPU提供了解决路径。NVIDIA与Cloudera的联合创新让企业在应对数据挑战方面更加从容。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。