计算机协会(ACM)将其年度计算奖授予了Matei Zaharia,以表彰他在开发开源数据与分析软件方面的突出贡献,其中包括被广泛使用的Apache Spark分析引擎。
ACM计算奖旨在表彰那些在职业生涯早中期、其研究成果已产生广泛而深远影响的计算机科学家。该奖项附有25万美元的奖金,资金由科技服务与咨询公司Infosys设立的专项基金提供。
不过,Zaharia目前可能并不急需这笔奖金。他在加州大学伯克利分校攻读博士期间开发了Apache Spark,此后联合创立了Databricks公司。该公司以Spark及其他技术为基础,提供数据分析与机器学习平台,目前估值约为1300亿美元。
Zaharia还参与开发了多个其他开源项目,包括由Linux基金会管理的开源存储框架Delta Lake,以及用于机器学习全生命周期管理的开源平台MLflow。
然而,他最广为人知的成就仍是Apache Spark。这一框架在机器学习和数据分析社区中得到了广泛采用,目前已可通过各大主流云服务商以及Snowflake、Cloudera等数据平台获取使用。
在接受The Register采访时,Zaharia介绍了他开发这一新型分布式计算方法的初衷:更高效地利用内存、加速计算过程,同时让更广泛的用户群体也能使用"大数据"计算能力。
大约在2010年,Zaharia开始研发Spark时,大数据分析的主流方式是使用MapReduce——一种基于Java的编程模型,运行于Hadoop分布式文件系统之上,且需要相当深厚的软件工程能力。
Zaharia从那些利用大数据进行机器学习研究、或用于发现新型病毒的科学家身上获得了灵感。他表示:"这些用户有着非常有价值的使用需求,但他们不会坐下来专门学Java、花好几周时间去构建一个应用程序。我们希望让他们能尽可能轻松地完成自己的工作。"
为了进一步降低使用门槛、扩大用户基础,Spark引入了多种编程语言支持。除Java之外,用户还可以使用Scala、统计语言R、C#以及Python——这门在机器学习领域广受欢迎的高级通用编程语言。2014年,Spark还增加了对SQL这一数据库事实标准语言的支持。
ACM主席Yannis Ioannidis表示,Zaharia的工作对大规模数据的使用方式产生了深远影响。"他针对早期系统的关键局限性提出了解决方案,所开发的技术迅速成为数据分析、机器学习和人工智能领域的标准工具。Matei对开源的坚守至关重要——他让这些工具向所有人开放。他的贡献持续影响着学术研究与产业实践,我也期待看到他在AI系统方向上的最新探索将带来怎样的突破。"
除在Databricks任职外,Zaharia近年来还参与联合撰写了多项开源研究成果,包括专注于优化提示词与模型、以提升智能体在特定任务中表现质量的DSPy和GEPA项目。他曾先后在麻省理工学院和斯坦福大学担任学术职务,现为加州大学伯克利分校计算机科学副教授。
Q&A
Q1:Apache Spark是什么?它主要解决了什么问题?
A:Apache Spark是由Matei Zaharia在加州大学伯克利分校博士期间开发的开源分布式数据分析引擎。它的核心价值在于通过更高效的内存利用方式加速计算,并大幅降低了大数据处理的技术门槛。相较于此前主流的MapReduce模式,Spark支持Python、R、SQL等多种编程语言,让非专业工程师也能轻松进行大数据分析,广泛应用于机器学习和数据分析场景。
Q2:Databricks公司和Apache Spark是什么关系?
A:Databricks由Apache Spark的创始人Matei Zaharia联合创立,公司以Spark为核心技术基础,提供企业级数据分析与机器学习平台。可以说,Databricks是将Apache Spark商业化落地的主要推手。目前Databricks估值约为1300亿美元,是大数据与AI基础设施领域最具代表性的独角兽企业之一。
Q3:ACM计算奖的评选标准是什么?奖金有多少?
A:ACM计算奖专门面向职业生涯处于早中期阶段的计算机科学家,重点考察其研究成果是否对行业和学术界产生了广泛且持久的影响。该奖项附有25万美元奖金,资金来源于科技服务与咨询公司Infosys设立的专项基金。Matei Zaharia因在Apache Spark等开源数据分析工具上的突出贡献而荣获这一奖项。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。