扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网 8月27日 评论分析(文/赵效民):天涯社区,是全球最著名的中文社区,一直以论坛形态承载着中国社会的“五彩缤纷”。在当前信息传播无边界的时代,天涯社区无疑是一个强大的舆论阵地,更是一个舆论品牌,有多少个重大的社会事件爆料,有多少次社会爱心的传递,有多少回火热的社会话题讨论,我想已经数不清了,它们从一个侧面让我们清晰的感觉到天涯社区在中国互联网界的地位与影响力。
伴随这种地位和影响力而来的则是巨大的访问量,和长期积累的海量数据,这对于天涯社区的IT系统与整体架构显然是一个巨大的挑战。当前,大数据作为IT领域最为引人瞩目的话题之一,天涯是否也在利用它来应对自身承载的访问压力呢?对此,我近日采访了天涯社区云计算与大数据部总监王庆波,就相关话题进行了深入探讨。
大数据的天涯
天涯社区成立于1999年,是中国最早的一批互联网企业,到现在为止已经发展了13年,目前注册用户7200万,日均UV超过1000万,日均PV达到1亿。王庆波介绍到,现在公司正在朝社交网络、旅游行业,以及无线互联网等领域,加大力度进行发展。
不过,这些新的拓展方向肯定需要一些新的应用开发与技术部署,对于天涯社区的IT,也就意味着更多的需求与挑战。王庆波表示,“天涯社区的整个IT需求,和很多高速发展的互联网公司是类似,应用种类繁多,上线更新频率快。因为需要快速尝试业务创新及产品创新,对我们的IT 提出了更快、更灵活的需求,需要我们底层的IT技术能够更好的来服务于产品以及服务。”而这其中,如何运用好不断积累的大数据是关键之一。
作为一个典型的论坛起家的社区平台,长期以来天涯的数据都是非结构化的,天涯用户很活跃产生的数据量很大,所以一直以来都面临着数据处理、数据挖掘的压力。王庆波表示,“我们真正着手来做这件事情是从2009年开始,公司为了提供更好、更智能的信息导航和用户数据分析,逐渐投入了很大力量来做数据挖掘方面的一些工作。”
在数据量方面,天涯作为老牌互联网企业,拥有过亿的用户覆盖,近百亿的论坛主帖及回复信息。“天涯每天过亿用户的访问行为,是天涯大数据的重要组成部分,也是我们大数据工作的一个最基本的数据来源。”
天涯的大数据主要由三部分组成:第一个是注册用户的数据库,第二个是用户每天生成的数据,如发帖、回帖、上传图片等等,第三个就是用户行为数据,论坛的日志数据等。
王庆波强调,“如果没有数据,谈大数据是比较空的,也就是说它没有一个真正的落脚点,没有大规模的数据各种工作都无法开展,而天涯有着海量的数据。这些海量数据,对于我们来说就是一个聚宝盆,也是尚未充分开采的资源,我们会针对这些数据做大量的分析和挖掘。”
所以,从天涯的角度来看云计算与大数据,王庆波认为它们是符合天涯发展的新技术及新理念,天涯现在的IT设备,目前已经是接近2000台(包括所有的服务器、存储、网络等硬件设备),而到2015年,预计设备数量会增长至5000台,它们将成为承载天涯未来的IT基础设施,这其中会建设云计算架构,也有很大的资源投入大数据。“显然我们对云计算和大数据有着很强烈的需求。”王庆波表示,“因为我们已经拥有海量数据,我们需要把这些数据用好,更好的服务于我们的用户。”
那么通过大数据分析,天涯又将获得多高的价值呢?对此,王庆波解释到,通过对天涯的这些数据的分析,第一我们能够更好的了解到天涯的用户群,就国内社会来说,他们是属于草根精英阶层。第二,我们根据这样的分析,在整个论坛内容的准备和组织上,会有很大的调整,我们在论坛中,会针对用户群特点进行有倾向性的内容投放。另外我们会根据每个用户,或者说根据用户本身的一些行为轨迹,了解他们喜欢哪类内容,从而做精准推荐及筛选。”
不过,对于数据的分析和利用其实并不是在今天提出的,很早以前就有“海量数据”的提法,所以当今IT圈里对于“大数据是一个噱头”的争论不绝于耳。在王庆波看来,“大数据”仍有其新意的地方。
“我觉得本质上是说,是一个量变引起质变的一个演化:以前分析一个千万量级或者百万量级的数据,用一个数据库就可以很好的分析了,尤其是结构化的数据。”王庆波表示,“但是我们现在所看到的大数据,第一是规模特别大,比如天涯论坛数据是上百亿这样的数据量,这样的规模是原来传统数据的两个数量级。这会引起技术的差异,以及分析出来的结果差异。第二是我们要分析的深度,跟原来很不同,我们需要拿到更深入的分析结果。”
天涯社区云计算与大数据部总监王庆波
“目前我们会非常准确的分析出来某个人有什么样的爱好,”王庆波对于分析深度进行着重的解释,“以前我们可能只分析到某一类人的爱好,但现在能更精准的针对到个人,原来我们所做的数据分析更像统计,比如我们天涯的用户平均年龄是28岁,现在我们要更精准的说,这个人他喜欢的是股票、金融、时尚,而且他关注的时尚服装是哪一类型,要给他打一些标签,标注他是一个时尚的领导者还是一个跟随者。这些都需要更精准的数据分析和行为分析,而这样的精准分析,它所需要的技术和原来就会很不同,处理的过程也会有很多不同的地方。”
用Hadoop提供更好的体验
从2009年开始,天涯就开始关注大数据方面的应用,业界有关大数据方面的种种技术也进入了天涯的视野,天涯在2010年就开始开展相应的工作,当时对多种技术路径都进行了尝试,包括企业级解决方案,最终选择了Hadoop
“当时,我们尝试过企业级的数据仓库或者是数据处理这样的一些技术,最后我们发现它们都不能够很好的满足于我们对于数据规模的需求”,王庆波表示,“后来,我们开始试用Hadoop,在2010年的时候,我们就正式开始使用Hadoop。”究其原因,王庆认为认为一是Hadoop本身是一个开放的平台,而且在国外有成功的经验,增加了天涯的信心,而且通过试用测试和分析,我们发现它确实是能够满足天涯的大部分需要的平台。
2010年初,天涯的Hadoop集群诞生,采用的是Apache官方版本,一开始只有不到10台服务器的规模,经过两年多的发展,今天的天涯Hadoop集群已经有几十台服务器的规模。服务器节点的类型是由天涯的业务需求决定,在服务器的选型方面则有明确的标准,王庆波表示,“我们更强调的是计算能力,然后排在第二的才是数据IO能力。”
2010年部署的Hadoop集群采用的是英特尔处理器平台(以4核心的型号为主),每个节点配8-16GB内存,采用2U机型以保证较大的存储扩展空间,每个DataNode配4-8TB的本地存储。在后期的采购中,也都以计算能力为优先选择标准,日后将会陆续加入更多至强E5系列的平台。可以说,出色的计算性能是天涯社区选择英特尔平台服务器搭建Hadoop集群的根本原因。
目前,天涯Hadoop集群的主要应用就是做天涯的用户行为分析和数据分析,并将与前面谈到的云平台相结合,为天涯的业务创新提供坚实的基础。
“实际上,云计算和大数据上都是我们重点布局的技术领域,也是我们正在实践中的领域,我们觉得这两项技术,会给天涯未来的发展,尤其是以技术为驱动的发展,提供一个坚强的后盾,会对我们未来创新型业务的发展,起到很好的帮助。”王庆波表示,“我们未来的IT系统,采用云计算和大数据这样的环境之后,会非常灵活、可靠和高效率,使得我们产品研发周期变短与我们业务创新的结合速度变快。”借助于Hadoop集群,天涯可以更快速、更高效的分析用户行为,从而使为用户提供合理化,甚至是即时的定制化服务,这无疑将大大提升天涯的用户体验。
而当谈到未来云与大数据的结合时,王庆波对当前的虚拟化Hadoop集群的发展趋势表示认同,“云计算如果发生了,那么虚拟化就会被广泛的采纳,如果想提供这种分析与计算的服务,它必然是基于虚拟化的环境”,他表示,“所以随着云计算和大数据的蓬勃发展,两者融合在一起是必然的路径。因为你要做数据分析,你就需要计算资源,其实现的手段通常虚拟化,所以这两者在需求足够强烈的时候,一定会融合在一起。”不过,这也对于系统平台的虚拟化能力有着更高要求。
在采访的最后,王庆波对于那些准备采用Hadoop的朋友谈了谈自己的经验的和建议。
“首先一定是要以业务为导向,不能够因为想追求新技术,而使用这样的一个Hadoop数据处理环境。应该首先评估一下自己的业务量和处理需求,根据业务来决定是否使用Hadoop和怎么使用它。”王庆波强调,“其次,如果你已经选择使用Hadoop,但还不是很熟的话,建议从基本的一些功能开始,把最核心的一些业务做出来,而不要被Hadoop整个生态系统所纠缠,Hadoop整个工具链条还是比较长的,但从最基本的功能用起,就会解决掉80%的业务需求。在有余力的情况下,再去探索一些更加先进的功能。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者