计算机协会(ACM)将其年度计算奖授予了Matei Zaharia,以表彰他在开发开源数据与分析软件方面的突出贡献,其中包括被广泛使用的Apache Spark分析引擎。
ACM计算奖旨在表彰那些在职业生涯早中期、其研究成果已产生广泛而深远影响的计算机科学家。该奖项附有25万美元的奖金,资金由科技服务与咨询公司Infosys设立的专项基金提供。
不过,Zaharia目前可能并不急需这笔奖金。他在加州大学伯克利分校攻读博士期间开发了Apache Spark,此后联合创立了Databricks公司。该公司以Spark及其他技术为基础,提供数据分析与机器学习平台,目前估值约为1300亿美元。
Zaharia还参与开发了多个其他开源项目,包括由Linux基金会管理的开源存储框架Delta Lake,以及用于机器学习全生命周期管理的开源平台MLflow。
然而,他最广为人知的成就仍是Apache Spark。这一框架在机器学习和数据分析社区中得到了广泛采用,目前已可通过各大主流云服务商以及Snowflake、Cloudera等数据平台获取使用。
在接受The Register采访时,Zaharia介绍了他开发这一新型分布式计算方法的初衷:更高效地利用内存、加速计算过程,同时让更广泛的用户群体也能使用"大数据"计算能力。
大约在2010年,Zaharia开始研发Spark时,大数据分析的主流方式是使用MapReduce——一种基于Java的编程模型,运行于Hadoop分布式文件系统之上,且需要相当深厚的软件工程能力。
Zaharia从那些利用大数据进行机器学习研究、或用于发现新型病毒的科学家身上获得了灵感。他表示:"这些用户有着非常有价值的使用需求,但他们不会坐下来专门学Java、花好几周时间去构建一个应用程序。我们希望让他们能尽可能轻松地完成自己的工作。"
为了进一步降低使用门槛、扩大用户基础,Spark引入了多种编程语言支持。除Java之外,用户还可以使用Scala、统计语言R、C#以及Python——这门在机器学习领域广受欢迎的高级通用编程语言。2014年,Spark还增加了对SQL这一数据库事实标准语言的支持。
ACM主席Yannis Ioannidis表示,Zaharia的工作对大规模数据的使用方式产生了深远影响。"他针对早期系统的关键局限性提出了解决方案,所开发的技术迅速成为数据分析、机器学习和人工智能领域的标准工具。Matei对开源的坚守至关重要——他让这些工具向所有人开放。他的贡献持续影响着学术研究与产业实践,我也期待看到他在AI系统方向上的最新探索将带来怎样的突破。"
除在Databricks任职外,Zaharia近年来还参与联合撰写了多项开源研究成果,包括专注于优化提示词与模型、以提升智能体在特定任务中表现质量的DSPy和GEPA项目。他曾先后在麻省理工学院和斯坦福大学担任学术职务,现为加州大学伯克利分校计算机科学副教授。
Q&A
Q1:Apache Spark是什么?它主要解决了什么问题?
A:Apache Spark是由Matei Zaharia在加州大学伯克利分校博士期间开发的开源分布式数据分析引擎。它的核心价值在于通过更高效的内存利用方式加速计算,并大幅降低了大数据处理的技术门槛。相较于此前主流的MapReduce模式,Spark支持Python、R、SQL等多种编程语言,让非专业工程师也能轻松进行大数据分析,广泛应用于机器学习和数据分析场景。
Q2:Databricks公司和Apache Spark是什么关系?
A:Databricks由Apache Spark的创始人Matei Zaharia联合创立,公司以Spark为核心技术基础,提供企业级数据分析与机器学习平台。可以说,Databricks是将Apache Spark商业化落地的主要推手。目前Databricks估值约为1300亿美元,是大数据与AI基础设施领域最具代表性的独角兽企业之一。
Q3:ACM计算奖的评选标准是什么?奖金有多少?
A:ACM计算奖专门面向职业生涯处于早中期阶段的计算机科学家,重点考察其研究成果是否对行业和学术界产生了广泛且持久的影响。该奖项附有25万美元奖金,资金来源于科技服务与咨询公司Infosys设立的专项基金。Matei Zaharia因在Apache Spark等开源数据分析工具上的突出贡献而荣获这一奖项。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。