专访|Cloudera致力于打造AI时代的企业级“数据操作系统” 原创

在开源的基石上,Cloudera为企业构建一个稳定、安全、开放的“数据操作系统”。

“AI一天,人间一年”。在AI的浪潮以前所未有的速度重塑产业格局的今天,市场的目光大多聚焦于大模型的参数规模、推理速度与应用场景的创新。

然而,应用层之下,企业AI基础设施的深刻变革正在悄然发生。对于绝大多数企业而言,AI不是可以即插即用的“应用软件”,而是需要深度整合到底层数据架构的“系统级工程”。

Cloudera大中华区技术总监刘隶放描绘出Cloudera的愿景:在开源的基石上,为企业构建一个稳定、安全、开放的“数据操作系统”。

专访|Cloudera致力于打造AI时代的企业级“数据操作系统”

Cloudera大中华区技术总监 刘隶放

而这个“OS”的使命,就是在AI时代的复杂性与不确定性中,为企业提供统一、可靠的数据环境,将混乱的数据和AI组件,整合为可控的生产要素。

01  “内核”之治:以SDX为核心,终结开源“丛林法则”

操作系统的核心是内核(Kernel),它负责管理系统中的所有硬件资源,并为上层应用提供统一接口。在Cloudera构建的“数据操作系统”蓝图中,承担这一“内核”角色的,正是其多年潜心打造的 SDX(Shared Data Experience)平台。

坦白地说,企业在拥抱开源时面临的最大困境之一,是“整合的代价”。许多企业乐于采用开源组件,但当系统中集成了四五十个来自不同社区、拥有独立开发体系与安全流程的组件后,问题便随之而来——它们各自为政,难以协同。

这就像一台没有统一内核的计算机,各个程序都在争抢资源、各行其是,但结果是效率低下、漏洞频出。为了打通这些组件,企业往往不得不依赖复杂的流程和大量“人肉运维”,导致后期成本飙升,甚至不得不在安全策略上做出妥协。

SDX的出现,正是为了解决这种“丛林法则”,让不同的数据组件能够在同一框架下协同工作、共享安全与治理标准。具体而言,其在底层建立出统一的“交通法规”:

其一是统一的安全管控。 无论是数据仓库、数据湖还是流式计算引擎,所有的数据访问都遵循同一套权限策略,能够实现细粒度到行列级别的数据控制。

其二是统一的元数据治理。 SDX作为所有数据的“户籍中心”,可记录每一份数据的来源、定义和血缘关系(Lineage)。这使得数据从产生到消费的全链路可追溯,不仅是技术上的需求,更是满足《数据安全法》、GDPR等国内外法规的刚需。

其三是统一的AI模型治理。随着AI深入企业运营,治理的范畴从数据扩展到了模型。Cloudera的Model Registry功能,将模型的版本、训练参数、迭代历史都纳入SDX的治理体系,实现了“模型有源”,为解决AI伦理和可解释性问题提供技术基础。

从商业视角看,SDX这一“内核”的价值在于,其将企业从管理几十个开源组件的复杂性中解放出来,用确定性的机制替代了高昂且不可靠的“原始信任机制”,在数据和AI应用呈爆炸式增长的背景下,确保整个平台的安全与合规。

02  “系统”之变:从HDFS到Iceberg,为AI备好通用“粮仓”

如果说SDX是内核,那么数据存储层就是这个操作系统的“文件系统”。这一“文件系统”也经历了深刻的革命。在Hadoop时代,其解决了海量非结构化数据的存储问题,但读写模式单一,难以支持多样化的分析需求。

自CDP 7.1.9 起,Cloudera平台的核心存储底座正全面拥抱以Apache Iceberg为代表的开放表格式,构建真正的数据湖仓一体架构。这场技术演进,对企业AI战略意义重大:

一方面,其打破了数据湖(存储非结构化数据)和数据仓库(存储结构化数据)之间的壁垒,为AI模型提供了统一的数据入口。正如刘隶放所强调的那样:“AI时代,我们需要更大程度地兼容非结构化数据。”

具体到场景中,无论是用于RAG(检索增强生成)的文本、文档,还是未来的视觉大模型需要的图片、视频,都能与传统的结构化业务数据存储在同一个“粮仓”中,并被统一管理和调用。

另一方面,Iceberg等开放格式的特性(Iceberg、Delta Lake、Hudi均支持计算与存储分离),确保了计算与存储的彻底分离。这意味着,上层的计算引擎(如Spark、Trino)可以自由选择和迭代,而无需改动底层数据。这种灵活性,使得企业可以随时引入最新的AI框架或分析工具,而数据本身保持稳定和独立。

整体来看,这种“系统”的进化,为企业构建“单一可信的数据源”(Single Source of Truth,SSOT)。其从根本上解决了数据孤岛问题,保证了AI模型训练数据的质量和一致性。更重要的是,其开放性避免了被单一框架锁定,企业的数据资产可以真正掌握在自己手中,灵活地对接任何上层应用生态。

03  “生态”之策:开放包容,做AI创新的“使能者”

一个操作系统的生命力,最终取决于其上运行的应用生态是否繁荣。Cloudera深谙此道。刘隶放强调,Cloudera的价值在于提供“开放式的平台”。

这一战略在技术层面的体现,正是其面向AI开发与运维(AIOps)的核心产品——Cloudera AI。Cloudera AI可以被视作企业的“AI操作空间”,其既是数据科学家与工程师协同创新的“集成开发环境(IDE)”,也是企业内部可持续扩展的“应用商店”,让不同角色在统一的数据与治理体系下开展工作。具体来看:

第一,可接纳主流框架。Cloudera AI支持 PyTorch、TensorFlow、Hugging Face、NVIDIA RAPIDS ,所以无论是市场上的开源大模型,还是NVIDIA、DELL等硬件厂商的算力加速方案,平台都能通过适配器快速集成。

第二,覆盖开发生命周期。从为数据科学家设计的Notebook工作台,到低代码/零代码的RAG开发工具,再到模型的部署、推理和监控,Cloudera AI提供了生命周期的工具支撑。

第三,容器化底座。全面拥抱Kubernetes等云原生技术,使得AI工作负载可以弹性伸缩,资源调度更加高效,这对于动辄需要海量算力的模型训练至关重要。

如今,Cloudera实质上为“数据操作系统”补上了“AI的一环”——在底层以SDX 构建统一的数据秩序,在上层以Cloudera AI打通智能应用的开发与运维闭环。两者共同形成了一个从“数据治理”到“智能创新”的完整操作体系。

反观这一策略,也凸显出Cloudera向客户传递的核心价值:无论未来AI技术如何演变,“数据操作系统”都能提供稳定的支持,保护投资,让企业专注于业务创新,而非疲于应对底层技术的更迭。

此外,毋庸置疑的是,“数据操作系统”的商业模式是订阅制。

刘隶放坦言,订阅制“让软件企业有长期的规划”。如果采用一次性买断的资产销售方式,软件公司的收入与市场波动强相关,研发投入难以持续,最终损害产品质量和客户利益。

对于企业而言,订阅制意味着他们购买的不再是一个静态的软件版本,而是整个平台持续的进化能力、安全保障和专家服务。这与操作系统的理念不谋而合——用户期待的是Windows或macOS的不断更新,而不是永远停留在某个旧版本。在AI技术日新月异的今天,这种持续进化的价值尤为突出。

04  写在最后

从内核(SDX)到系统,再到开放的应用生态和订阅制的商业模式,Cloudera致力于寻求的是,在纷繁复杂的开源世界和企业对安全、稳定、高效的苛刻要求之间,找到最佳平衡点,打造属于AI时代的企业级“数据操作系统”。

在这一“操作系统”之上,企业可以回归“道”的本源。古人云,“大道至简,衍化至繁”,Cloudera正是勘破海量数据与开源工具的“繁”,为企业构建起一个至简至强的数字基座。于此之上,企业方能实现真正的“无为而治”——不必再为底层基础而烦恼,从而“无不为”,将全副心力专注于利用AI解决实际的业务问题,最终将宝贵的数据资产,真正转化为驱动增长的“先进生产力”,实现从数据到智能的良性循环。

来源:至顶网计算频道

0赞

好文章,需要你的鼓励

2025

11/07

13:56

分享

点赞