面向数据科学 NVIDIA借助RAPIDS拓展GPU新的应用场景原创

作者：李祥敬

以分析、深度学习、机器学习为代表的数据科学市场迎来了快速发展发展的机遇期。为了抓住这样的商业机会，NVIDIA针对大规模数据分析和机器学习推出了RAPIDS开源GPU加速平台。

至顶网服务器频道 10月29日新闻消息（文/李祥敬）：毋庸置疑，我们处于一个数据大爆炸的时代，企业也在数据驱动的策略进行更多业务创新。于是，以分析、深度学习、机器学习为代表的数据科学市场迎来了快速发展发展的机遇期。为了抓住这样的商业机会，NVIDIA针对大规模数据分析和机器学习推出了RAPIDS开源GPU加速平台。

GPU瞄准新的市场

如今，虽然业界对于算力的需求不断加大，凭借其强大的并行计算能力，GPU在高性能计算市场表现出色。目前，包括美国Summit、Sierra；日本ABCI；欧洲的Piz Daint在内的诸多全球顶级超级计算机都采用了NVIDIA GPU作为其算力核心。而且，目前已有70%的通用HPC程序已经实现GPU加速。

同时，当前以人工智能为代表的新技术席卷各行各业，而GPU在深度学习方面具有独特的优势，NVIDIA在人工智能市场得到迅猛发展，GPU计算加速了深度学习革命。

NVIDIA亚太区解决方案架构高级总监赵立威告诉记者，整个市场还在持续快速发展，面向数据科学和机器学习的服务器市场每年价值约为200亿美元，加上科学分析和深度学习市场，高性能计算市场总价值大约为360亿美元。

除了数据科学市场，现在零售、金融、医疗等行业也在努力从数据中获得更多价值，也就是我们常说的大数据分析。“其实几乎每一家企业都在用数据驱动来增强自己的核心竞争力，而这离不开所谓的大数据决策支持系统。”赵立威说。

面对广阔的市场机会，NVIDIA GPU将目标瞄准了数据科学和机器学习市场。于是，我们看到了RAPIDS的问世。RAPIDS为GPU加速分析和机器学习提供了一整套开源库，为数据科学家提供了他们需要用来在GPU上运行整个数据科学管线的工具。

RAPIDS加速数据价值实现

赵立威表示，大数据分析一般经过三个步骤，一个是数据准备，这个过程数据特征的提取、数据合并、数据降维等等；第二步，训练。这是一个不断的循环过程，我们要不断优化，进行参数的调整，训练过程精度会更高，可预测的结果会更准确；第三步，推理，上线运营。

在这三个步骤中，业界产生了很多相应的工具，可以加速相应的过程实现。但是这些工具大多是依托处理器的计算，并没有有效利用加速器。于是，NVIDIA通过与开源社区合作，实现了GPU加速数据分析。“GPU可以给数据科学家的机器学习项目提供更多的加速支持。”赵立威说。

最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2系统上进行训练，结果表明，与仅有CPU的系统相比，其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时，或者从数小时减少到数分钟，具体取决于其数据集的规模。

赵立威总结说，在方兴未艾的数据科学领域，RAPIDS具有显著的特点：无缝整合，数据科学家只需要进行非常少的代码修改就可以带来显著的性能加速；可以直接运行在NVIDIA近几年的GPU产品上面；减少数据处理等待时间，数据科学家可以将精力用在模型训练和优化；开源，更好地融入社区，获得更多人的智慧，丰富基础特性，服务更多场景。

据悉，为了推动RAPIDS的广泛应用，NVIDIA正努力将RAPIDS与Apache Spark进行整合，数据可视化将是下一个目标。

广泛的生态系统支持及应用

目前，RAPIDS已经被HPE、IBM、Oracle、Databricks等采用。在Databricks公司，开展的多个项目都在将Spark更好地与本地加速器进行整合，其中包括借助Project Hydrogen实现的Apache Arrow的支持以及GPU调度。

RAPIDS构建于Apache Arrow等流行的开源项目之上，为最流行的Python数据科学工具链带来了GPU提速。得益于CUDA及其全球生态系统以及与开源社区紧密合作，RAPIDS GPU加速平台已与全球最流行的数据科学库及工作流无缝整合，可加速机器学习。如同深度学习一样，GPU正在不断地为端到端的数据科学和机器学习流程提速。

全套RAPIDS开源库现在即可官网上获得，代码经Apache许可公布。容器化RAPIDS版本也可在NVIDIA GPU Cloud container registry上获取。

来源：至顶网服务器频道

0赞

好文章，需要你的鼓励

面向数据科学 NVIDIA借助RAPIDS拓展GPU新的应用场景 原创

GPU瞄准新的市场

RAPIDS加速数据价值实现

广泛的生态系统支持及应用

来源：至顶网服务器频道

2018

10/29

10:00

分享

点赞

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

戴尔集成Elasticsearch与英伟达Blackwell GPU升级AI数据平台

Confluent Cloud为智能体提供实时数据流处理能力

数字化转型失败的6个警示信号

OpenAI CEO阿尔特曼承认当前处于AI泡沫期

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

NVIDIA Blackwell 现已在云端全面可用

为“代理式AI”装上“护栏” NVIDIA打造“三重防线”

黄仁勋现身北京致辞：60年后，计算机正被重新定义

该需要多少 NVIDIA CUDA Cores ？

CES 2025 | NVIDIA Isaac GR00T Blueprint 让人形机器人“加速进化”

未来，就在我们手中

CES 2025 | 代理式AI崛起：NVIDIA定义下一代“代理式 AI Blueprint”

RTX5090震撼发布，一文带你看懂英伟达CES2025发布会。

深度学习最佳 GPU，知多少？

NVIDIA推出用于多语言生成式人工智能的NeMo Retriever微服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

面向数据科学 NVIDIA借助RAPIDS拓展GPU新的应用场景原创