GPU加速CDH NVIDIA与Cloudera联手让数据价值触手可及原创

作者：李祥敬

面对数据洪流，企业在数据处理方面的需求激增，而这离不开坚实的数据处理基础设施的支撑。传统的CPU架构在数据处理方面面临瓶颈，而GPU提供了解决路径。NVIDIA与Cloudera的联合创新让企业在应对数据挑战方面更加从容。

随着数据规模的指数增长，存储数据的载体，数据的处理技术，数据的使用的方式方法都在不断演进。企业用户对数据价值的预期也不断增加，期望通过数据能快速带来商业价值。

GPU加速CDH NVIDIA与Cloudera联手让数据价值触手可及

近日，Cloudera推出使用NVIDIA GPU加速Apache Spark 3.0软件的Cloudera Data Platform（CDP），帮助企业用户在完成基本的数据摄取、数据整合批处理以及数据仓库的功能的基础上，还能面向业务人员提供即时互动的分析工具，以及提供建模、数据科学、机器学习，甚至是一些深度训练的平台工具。

GPU加速数据价值实现

Cloudera Data Platform（CDP）是Cloudera推出的端到端的数据平台，通过集成整个数据生命周期及跨公有云和私有云分析功能的独特混合数据架构，CDP可以在数据生命周期的任何阶段，充分利用几乎无限数量和种类的数据支持企业做出更好的决策。

通常提取/转换/加载（ETL）常常成为数据科学家在获取AI预测和建议时的瓶颈。ETL预计会占用数据科学家70％至90％的时间，当数据科学家在等待ETL时，他们不能重新训练模型来获取更好的商业洞见。

传统的CPU基础设施无法通过有效的扩展适应这些工作任务，如果继续采用CPU，则必须牺牲速度或增加成本才能跟上由此产生的处理需求。

而GPU并行处理已成为加速海量数据分析和ETL管道，进而驱动这些工作负载的关键。数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目。

GPU加速CDH NVIDIA与Cloudera联手让数据价值触手可及

NVIDIA与Cloudera联合工作让GPU加速的Apache Spark 3能够在CDP上无缝运行，从而支持企业机构可以通过安全且可扩展的开源机器学习平台，满足从研发到生产的高性能计算（HPC）、AI和数据科学需求。

美国国家税务局的故事

我们知道Spark大数据分析软件更多是运行在CPU上面，但是随着数据类型的多样化以及数据量的激增，通过引入GPU能够加速数据分析进程。

作为一名数据科学家，Deborah Tylor的任务是整理美国国家税务局超过300TB的数据库，寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜，也无法完成这项数据整理工作。

后来通过Cloudera工程师的介绍，美国国税局团队对CDP软件进行快速测试后，在没有修改任何代码的情况下，Tylor在这项工作中的许多步骤就立即加快了5倍，但有几个部分仍然滞后。

后来Cloudera工程师请来了NVIDIA数据科学家团队检查代码的核心内容。他们很快发现一些非常糟糕的数据结构任务仍在CPU上运行。于是他们编写了代码处理这些任务并将其插入Spark的RAPIDS软件接口中。

RAPIDS是一个在GPU上运行数据分析的开放资源库。NVIDIA和Cloudera通过深入合作，使数据团队能够使用RAPIDS AI无需更改任何代码即可大大加快数据工程和数据科学工作负载的计算流程。Cloudera Data Platform上的RAPIDS预先配置了所有必需的库和依赖项，以将RAPIDS的功能带到相关项目中。

结果，Tylor又进行了一次测试，发现一切都能在分布式Spark集群的GPU上顺利运行，而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。

最终，Cloudera和NVIDIA的技术整合使得美国国税局的数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。

接下来，该团队计划把其成功经验运用在数据准备，也就是数据分析中的ETL方面的工作上面，下一步重大计划是加速各类AI推理工作。

结语

来源：至顶网计算频道

0赞

好文章，需要你的鼓励

GPU加速CDH NVIDIA与Cloudera联手让数据价值触手可及 原创

来源：至顶网计算频道

2021

08/05

16:06

分享

点赞

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Cloudera：构建数据驱动平台，推动税收管理智能化

Cloudera：AI智能体的兴起让数据隐私的重要性日益凸显

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

GPU加速CDH NVIDIA与Cloudera联手让数据价值触手可及原创