Alluxio 提升 AI 模型训练性能

Alluxio 发布新版本，专注优化 AI 模型训练性能。主要改进包括加快数据访问、增强 Python 集成、优化 S3 存储访问等。这些更新旨在加速模型训练过程，提高 GPU 利用率，帮助企业更快地将 AI 模型推向市场。

Alluxio Inc.（一家销售开源分布式文件系统和缓存商业版本的公司）今天宣布推出新功能，加快人工智能模型训练速度并增强与 Python 软件开发工具包的集成。

该公司表示，这些更新能够让组织更快地训练模型、更高效地处理大型数据集，并简化复杂的 AI 基础设施。

Alluxio 表示，这些增强功能旨在支持对重要训练数据的快速、优先访问，并与常用的 AI 框架集成。该公司已经转向解决可能需要数月时间的 AI 模型训练问题，承诺带来显著的性能提升。"我们将 DeepSeek 视为一个机会，"创始人兼首席执行官 Haoyuan Li 表示，他提到的这家中国初创公司本周因其低成本模型训练方法导致科技股下跌。"这为我们创造了更容易的销售机会。"

去年 7 月，该公司宣布其增强功能可以将昂贵的图形处理单元利用率提高到 97%。市场和产品营销副总裁 Bill Hodak 表示："每个人都在快速行动以利用 AI，所以我们帮助他们更快创新，加速训练工作负载，更快地将模型推向市场，了解它们的使用情况，并将这些信息反馈到模型训练过程中。他们做这些事情越快，他们的模型就会越先进、越准确。"

快速缓存

Alluxio Enterprise AI 3.5 版本包含一个实验性的 CACHE_ONLY 写入模式，据称该模式显著提升了写入操作的性能。启用时，该模式将数据仅写入 Alluxio 缓存而不是底层文件系统，从而消除了存储系统相关的瓶颈。

Hodak 表示，该功能对检查点文件特别有用。检查点文件是模型在特定时间点的状态快照，可用于从保存点恢复，而不是从头重新开始。Hodak 说，这些文件可能很大，在加载过程中会导致训练过程出现长时间延迟。"如果之前需要一个小时，现在可能只需要 20 分钟。"

高级缓存清除允许管理员对缓存数据强制执行生存时间设置，该设置定义了缓存数据在自动过期和删除之前保持有效的时间。管理员现在可以为特定数据定义缓存优先级，覆盖 Alluxio 的默认"最近最少使用"算法，以保留原本会被清除的数据。

"目标是尽可能减少开销，"Hodak 说。"这提高了缓存命中率，具体取决于工作负载。"

另一个实验性功能是增强了 Alluxio 的 Python SDK 与流行 AI 框架（如 PyTorch、PyArrow 和 Ray）之间的集成。这些集成提供了统一的 Python 文件系统接口，使应用程序能够与本地和远程存储系统无缝交互。

更快的 S3 访问

此版本还对 Alluxio 访问 S3 对象存储的应用程序编程接口进行了多项增强。

HTTP 持久连接支持为多个请求维护单个 TCP 连接。这减少了为每个请求打开新连接的开销，并将 4KB S3 ReadObject 请求的延迟降低了约 40%。

Alluxio S3 API 与 Alluxio worker 之间的通信现在支持 TLS 加密和分段上传。后者将文件分成多个部分以实现更快的并行上传。

Hodak 表示，新的缓存服务提高了超大目录列表的性能，通过从缓存提供目录列表元数据，使结果的传递速度提高了五倍。

管理员现在可以设置速率限制，以控制单个 Alluxio Worker 从底层文件系统（Alluxio 用于存储缓存访问数据的底层存储系统）读取的最大带宽。

集群现在可以具有具有异构 CPU、内存、磁盘和网络配置的工作节点，从而增强了灵活性。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Alluxio 提升 AI 模型训练性能

来源：SiliconANGLE

2025

02/06

09:49

分享

点赞

Qorvo推出宽带高效功率放大器QPA9510，助力简化Sub-1GHz射频设计

关于现代化，我们真正需要讨论的是什么？

微软质量控制问题愈演愈烈

开源 AI 及其在当今世界中的重要作用

OpenAI Sora与谷歌Veo 3 AI视频生成对比测试结果出炉

iPhone卫星连接技术五大升级方向曝光

AI助力阿尔茨海默病治疗突破

测试智算性能！新一期国际排行榜AIPerf发布

ChinaSC 2025：产学研聚力，解锁智能算力经济新未来！

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程 斩获多奖！联想多元算力布局引领产业新征程

Gartner：趋势不是终点，而是通往下一个时代的坐标

异构CPU时代来临：多架构协同成为计算新趋势

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想再登中国HPC TOP100第一，多元算力加速超智融合新进程斩获多奖！联想多元算力布局引领产业新征程