随着数据规模的指数增长,存储数据的载体,数据的处理技术,数据的使用的方式方法都在不断演进。企业用户对数据价值的预期也不断增加,期望通过数据能快速带来商业价值。
近日,Cloudera推出使用NVIDIA GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP),帮助企业用户在完成基本的数据摄取、数据整合批处理以及数据仓库的功能的基础上,还能面向业务人员提供即时互动的分析工具,以及提供建模、数据科学、机器学习,甚至是一些深度训练的平台工具。
GPU加速数据价值实现
Cloudera Data Platform(CDP)是Cloudera推出的端到端的数据平台,通过集成整个数据生命周期及跨公有云和私有云分析功能的独特混合数据架构,CDP可以在数据生命周期的任何阶段,充分利用几乎无限数量和种类的数据支持企业做出更好的决策。
通常提取/转换/加载(ETL)常常成为数据科学家在获取AI预测和建议时的瓶颈。ETL预计会占用数据科学家70%至90%的时间,当数据科学家在等待ETL时,他们不能重新训练模型来获取更好的商业洞见。
传统的CPU基础设施无法通过有效的扩展适应这些工作任务,如果继续采用CPU,则必须牺牲速度或增加成本才能跟上由此产生的处理需求。
而GPU并行处理已成为加速海量数据分析和ETL管道,进而驱动这些工作负载的关键。数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目。
NVIDIA与Cloudera联合工作让GPU加速的Apache Spark 3能够在CDP上无缝运行,从而支持企业机构可以通过安全且可扩展的开源机器学习平台,满足从研发到生产的高性能计算(HPC)、AI和数据科学需求。
美国国家税务局的故事
我们知道Spark大数据分析软件更多是运行在CPU上面,但是随着数据类型的多样化以及数据量的激增,通过引入GPU能够加速数据分析进程。
作为一名数据科学家,Deborah Tylor的任务是整理美国国家税务局超过300TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。
后来通过Cloudera工程师的介绍,美国国税局团队对CDP软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。
后来Cloudera工程师请来了NVIDIA数据科学家团队检查代码的核心内容。他们很快发现一些非常糟糕的数据结构任务仍在CPU上运行。于是他们编写了代码处理这些任务并将其插入Spark的RAPIDS软件接口中。
RAPIDS是一个在GPU上运行数据分析的开放资源库。NVIDIA和Cloudera通过深入合作,使数据团队能够使用RAPIDS AI无需更改任何代码即可大大加快数据工程和数据科学工作负载的计算流程。Cloudera Data Platform上的RAPIDS预先配置了所有必需的库和依赖项,以将RAPIDS的功能带到相关项目中。
结果,Tylor又进行了一次测试,发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。
最终,Cloudera和NVIDIA的技术整合使得美国国税局的数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。
接下来,该团队计划把其成功经验运用在数据准备,也就是数据分析中的ETL方面的工作上面,下一步重大计划是加速各类AI推理工作。
结语
面对数据洪流,企业在数据处理方面的需求激增,而这离不开坚实的数据处理基础设施的支撑。传统的CPU架构在数据处理方面面临瓶颈,而GPU提供了解决路径。NVIDIA与Cloudera的联合创新让企业在应对数据挑战方面更加从容。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。