Spark创始人Matei Zaharia凭借大数据开源贡献荣获ACM计算奖

Apache Spark创始人Matei Zaharia荣获美国计算机协会(ACM)年度计算奖,奖金25万美元。他在加州大学伯克利分校攻读博士期间开发了Spark,解决了大数据处理门槛高的问题,支持Python、SQL等多种语言,大幅降低使用难度。他还联合创立了估值1300亿美元的Databricks,并参与开发Delta Lake、MLflow等开源项目,对数据分析与AI领域产生了深远影响。

计算机协会(ACM)将其年度计算奖授予了Matei Zaharia,以表彰他在开发开源数据与分析软件方面的突出贡献,其中包括被广泛使用的Apache Spark分析引擎。

ACM计算奖旨在表彰那些在职业生涯早中期、其研究成果已产生广泛而深远影响的计算机科学家。该奖项附有25万美元的奖金,资金由科技服务与咨询公司Infosys设立的专项基金提供。

不过,Zaharia目前可能并不急需这笔奖金。他在加州大学伯克利分校攻读博士期间开发了Apache Spark,此后联合创立了Databricks公司。该公司以Spark及其他技术为基础,提供数据分析与机器学习平台,目前估值约为1300亿美元。

Zaharia还参与开发了多个其他开源项目,包括由Linux基金会管理的开源存储框架Delta Lake,以及用于机器学习全生命周期管理的开源平台MLflow。

然而,他最广为人知的成就仍是Apache Spark。这一框架在机器学习和数据分析社区中得到了广泛采用,目前已可通过各大主流云服务商以及Snowflake、Cloudera等数据平台获取使用。

在接受The Register采访时,Zaharia介绍了他开发这一新型分布式计算方法的初衷:更高效地利用内存、加速计算过程,同时让更广泛的用户群体也能使用"大数据"计算能力。

大约在2010年,Zaharia开始研发Spark时,大数据分析的主流方式是使用MapReduce——一种基于Java的编程模型,运行于Hadoop分布式文件系统之上,且需要相当深厚的软件工程能力。

Zaharia从那些利用大数据进行机器学习研究、或用于发现新型病毒的科学家身上获得了灵感。他表示:"这些用户有着非常有价值的使用需求,但他们不会坐下来专门学Java、花好几周时间去构建一个应用程序。我们希望让他们能尽可能轻松地完成自己的工作。"

为了进一步降低使用门槛、扩大用户基础,Spark引入了多种编程语言支持。除Java之外,用户还可以使用Scala、统计语言R、C#以及Python——这门在机器学习领域广受欢迎的高级通用编程语言。2014年,Spark还增加了对SQL这一数据库事实标准语言的支持。

ACM主席Yannis Ioannidis表示,Zaharia的工作对大规模数据的使用方式产生了深远影响。"他针对早期系统的关键局限性提出了解决方案,所开发的技术迅速成为数据分析、机器学习和人工智能领域的标准工具。Matei对开源的坚守至关重要——他让这些工具向所有人开放。他的贡献持续影响着学术研究与产业实践,我也期待看到他在AI系统方向上的最新探索将带来怎样的突破。"

除在Databricks任职外,Zaharia近年来还参与联合撰写了多项开源研究成果,包括专注于优化提示词与模型、以提升智能体在特定任务中表现质量的DSPy和GEPA项目。他曾先后在麻省理工学院和斯坦福大学担任学术职务,现为加州大学伯克利分校计算机科学副教授。

Q&A

Q1:Apache Spark是什么?它主要解决了什么问题?

A:Apache Spark是由Matei Zaharia在加州大学伯克利分校博士期间开发的开源分布式数据分析引擎。它的核心价值在于通过更高效的内存利用方式加速计算,并大幅降低了大数据处理的技术门槛。相较于此前主流的MapReduce模式,Spark支持Python、R、SQL等多种编程语言,让非专业工程师也能轻松进行大数据分析,广泛应用于机器学习和数据分析场景。

Q2:Databricks公司和Apache Spark是什么关系?

A:Databricks由Apache Spark的创始人Matei Zaharia联合创立,公司以Spark为核心技术基础,提供企业级数据分析与机器学习平台。可以说,Databricks是将Apache Spark商业化落地的主要推手。目前Databricks估值约为1300亿美元,是大数据与AI基础设施领域最具代表性的独角兽企业之一。

Q3:ACM计算奖的评选标准是什么?奖金有多少?

A:ACM计算奖专门面向职业生涯处于早中期阶段的计算机科学家,重点考察其研究成果是否对行业和学术界产生了广泛且持久的影响。该奖项附有25万美元奖金,资金来源于科技服务与咨询公司Infosys设立的专项基金。Matei Zaharia因在Apache Spark等开源数据分析工具上的突出贡献而荣获这一奖项。

来源:The Register

0赞

好文章,需要你的鼓励

2026

04/10

09:48

分享

点赞

邮件订阅