NVIDIA为全球最受欢迎的数据分析平台Spark提速

Apache Spark作为全球最流行的数据分析应用，现已通过此前发布的Spark 3.0版本为超过50万用户提供革命性的GPU加速。

NVIDIA GPU为Apache Spark 3.0提速

Apache Spark作为全球最流行的数据分析应用，现已通过此前发布的Spark 3.0版本为超过50万用户提供革命性的GPU加速。

Databricks为用户提供了先进的企业云平台Spark，每天有超过100万台虚拟机运行该平台。在6月25日的Spark＋AI Summit峰会上，Databricks宣布其用于机器学习的Databricks Runtime 7.0将配备内置Spark 3.0的GPU加速器感知调度功能。该功能由Databricks与NVIDIA和其他社区成员合作开发。

Google Cloud近期宣布在Dataproc image 2.0版本上提供Spark 3.0预览版，同时指出在开源社区的协作下，现在已获得强大的NVIDIA GPU加速。NVIDIA将于7月16日与Google Cloud共同举办一场网络研讨会，深入探讨这些令数据科学家感到兴奋的新功能。

此外，用于Apache Spark的新开源RAPIDS 加速器现在可以加速ETL（提取、转换、加载）和数据传输，在无需更改任何代码的情况下提高端到端分析性能。
Spark性能的加速不仅意味着能够更快获得洞见，而且由于企业可以使用更少的基础设施来完成工作负载，因此还可以帮助企业降低成本。

加速数据分析：科学计算赋予AI更强大的力量

Spark有充分的理由成为新闻媒体报导的焦点。

数据对于帮助企业机构应对不断变化的机遇和潜在威胁至关重要。为此，他们需要破译隐藏在数据中的关键线索。

每当客户点击网站、拨打客户服务电话或生成每日销售报告时，就会给企业机构贡献大量的信息。随着AI的兴起，数据分析对于帮助公司发现趋势并保持市场领先地位所起到的作用日益重要。

前不久，数据分析还依靠小型数据集来收集历史数据和洞见，通过ETL对存储在传统数据仓库中的高度结构化数据进行分析。

ETL常常成为数据科学家在获取AI预测和建议时的瓶颈。ETL预计会占用数据科学家70％至90％的时间，这会减慢工作流程并将炙手可热的人才束缚在最普通的工作上。

当数据科学家在等待ETL时，他们无法重新训练模型来获取更好的商业洞见。传统的CPU基础设施无法通过有效的扩展来适应这些工作任务，这通常会大幅增加成本。

凭借GPU加速的Spark，ETL就不会再产生这样的麻烦。医疗、娱乐、能源、金融、零售等行业现在可以经济、高效地为其数据分析提速，更快地获取洞见。

并行处理助力数据分析

GPU并行处理使计算机可以一次执行多项操作。数据中心通过大规模横向扩展这些功能来支持复杂的数据分析项目。随着运用AI和机器学习工具的企业机构日益增加，并行处理已成为加速海量数据分析和ETL管道，进而驱动这些工作负载的关键。

比如有一家零售商希望预测下一个季节的库存。该零售商需要检查近期的销售量以及去年的数据。数据科学家还可可以此分析中添加天气模型，从而了解雨季或旱季对结果产生的影响。零售商还可以整合情绪分析数据，评估今年最流行的趋势。

由于需要分析的数据源太多，因此在对不同变量可能对销售量产生的影响进行建模时，速度就显得尤为重要。这就需要将分析加入到机器学习中，而且GPU也因此变得十分重要。

RAPIDS加速器为Apache Spark 3.0提速

随着数据科学家从使用传统的分析转而采用可以更好地对复杂市场需求进行建模的AI应用，如果继续采用CPU，则必须牺牲速度或增加成本才能跟上由此产生的处理需求。而随着AI在分析中的应用日益增加，需要有新的框架来通过GPU快速、经济高效地处理数据。

用于Apache Spark的全新RAPIDS加速器将Spark分布式计算框架与功能强大的RAPIDS cuDF库相连接，实现了GPU对Spark DataFrame和Spark SQL的运行提速。RAPIDS加速器还通过搜索在Spark节点之间移动数据的最快路径来加快Spark Shuffle的运行速度。

来源：业界供稿

Spark
NVIDIA

0赞

好文章，需要你的鼓励

NVIDIA为全球最受欢迎的数据分析平台Spark提速

加速数据分析：科学计算赋予AI更强大的力量

并行处理助力数据分析

RAPIDS加速器为Apache Spark 3.0提速

来源：业界供稿

2020

06/28

10:12

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

NVIDIA 初创加速计划 | 2024 NVIDIA 创业企业展示完美收官!

老黄掏出“迷你版AI超算”，每秒67万亿次运算，仅售2070元人民币

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: