扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:仲浩 来源:CSDN 2013年9月6日
关键字: Summingbird Twitter 开源 云计算 大数据
ZDNet至顶网服务器频道 09月06日 : 近日Twitter 发布开源新工具Summingbird,目标无缝整合流处理与批处理,以及原生化编程语言。虽然流处理与批处理是大数据发展的两个极端,流处理更注重于数据的实时分析,代表工具有Storm及S4。而批处理更注重于数据的长期挖掘,典型的工具则是从Google 三大论文上衍生的Hadoop。随着需求的变化,用户需要从二者之间转换获得数据,而Summingbird就旨在减少转换的开销。
开发背景
众所周知,Twitter的系统基本上完成了面向服务的架构转变,而众多服务对数据处理也有着不同的需求,从而无可避免的出现这种情况:类似Trending Topics及搜索服务在开始时有实时处理的需求,而数据的价值却需要经过最终的深度挖掘——批处理。这样减少转换时开销的重要性就显而易见了,Summingbird应运而生。
相关简介
Twitter在9月3日开源了一个名为Summingbird的大数据处理系统,通过整合批处理与流处理来减少它们之间的转换开销。
从Twitter对Summingbird的介绍还得知,开发者可以使用非常接近原生的Scala或者Java 在Summingbird上执行MapReduce作业,下面着眼一个使用纯粹Scala编写的word-counting示例:
而在Summingbird做word-counting则需要这样的代码
不难看出他们有着相同的逻辑和近乎完全相同的代码,然而不同的是,你既可以使用Summingbird项目做“批处理”(Scalding),也可以使用它做“实时处理”(使用Storm);同时,你还可以使用两种模式的混合给应用程序带来无与伦比的容错性。
核心观念
Summingbird作业会产生两种类型的数据:流(stream)和快照(snapshot)。流包含了数据的所有历史,Store则是包含了系统在指定时间的快照。Summingbird核心通过众多组件实现:
详细内容请访问:Summingbird的核心概念
相关项目
Summingbird催生了大量的子项目,其中必须关注的有:
未来计划
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者