扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
大数据的时代已经来临,这一点无可否认。可以说社会化媒体和移动设备的结合改变了用户的认知习惯,也可以说人们需求的变化促使了社交网络和移动网络 的蓬勃发展。但无论采用哪种说法,有一点我们无法回避,那就是数据总量更加庞大,产生的速度也更快,因此信息正在真正意义上的爆炸。
由于产生信息的方式和信息总量都在飞速增加,因此,从某种意义上讲,对企业来说有价值的信息所占的比重正在下降,如何从海量的信息中找到有用的信息正在变得越来越困难。而很多企业解决这一问题的方法就是建立更多的数据中心,购买更多的服务器以便能够分析更多的数据,得到更多的有价值信息。这一点从全球一波又一波的数据中心建设浪潮中就能略窥一二,但这种方法是最好的么?有没有一条更加科学、更快、更低成本的路可供选择呢?
大数据处理需要新工具
在过去,我们只需要一张表格和一支笔就能将最重要的数据统统记录在纸上。通过这种方式,人类走过了数千年的历史,并诞生了无数伟大的科学、艺术和经济成就。
但随着时间的推移和技术的发展,纸和笔的记录方式越来越跟不上时代的发展,于是人们在60多年前开始用计算机来统计和存储信息。因此,数据存储的效率和规模都得到了极大的提升,企业用户所能够存储的数据量也得到了极大的提高。
随着数据越来越多,越来越复杂,企业想通过这些数据得到有价值的信息也变得越来越困难。因此,各种数据库和 分析软件成为了新兴的产业。我们今天所熟悉的众多IT巨头也大多是从那个时代一步步发展成今天的规模的。通过利用各种数据库软件和分析工具,企业可以得到 更多、更有价值的信息,这也为企业带来更多利润,大幅降低了经营的风险。因此,在过去的几十年中,我们见到了比以往更多的巨型公司和跨国企业。
而到了今天,社交媒体的发展已经进入高速公路,企业能够接触到的数据也进入了一个新的数量级。更多的数据意味着更多的机会,而借助这些机会,企业可以进入到一个更广阔的领域,获得更广阔的利润,将经营风险降的更低。这便是大数据的核心价值所在。
但针对这些现实的需求,我们应当如何满足?
大数据下的IT基础架构隐忧
随着数据量的不断走高,越来越多的新方法被用来处理大数据,包括内存计算、网格计算、云计算等等,从目前的情况来看,这些方法大多可以帮助企业有效的处理海量数据,获得更多有用的信息。
但在谈论大数据分析方法所能带来的好处之外,我们确实应该关注一下这些方法带来的成本,因为成本同样是制约企业发展的一个重要因素。
目前流行的大数据处理方案通常是以普通x86服务器为基础的,通过提升节点数量来弥补单节点计算能力的不足。按照目前普遍的说法,这样做可以在某种程度增强整个基础架构的灵活性。但如果我们仔细分析的话,这种说法其实是个“伪命题”。
何为“大数据”?最简单的解释就是“大量数据”。既然有大量的数据需要迅速的处理和分析,那么其对应的基础架构就必然应该是大型和强力的。所以,包括x86和小型机在内的小型系统所带来的灵活性,在很多大数据环境下其实并不成立。在这时,集群的劣势就凸现出来,那就是效率低下。而效率低下则导致系统过于庞杂和成本高企。
在一次针对证券行业的专访中,某大型证券企业CIO曾 表示:证券企业通常拥有多个数据中心,而每个数据中心都拥有大量的服务器,这些服务器主要是小型机,当然也包括一些x86服务器。但从管理和能效的角度来 看,这些设备非常令人头疼。首先,由于这些小型系统数量众多,且来自不同的供应商,管理很成问题。同样由于型号众多,因此发热量和能耗也不尽相同,想要对 数据中心进行统一的能效和散热管理十分困难。从实际的情况来看,除非整批更换,否则很难达到理想的能效标准。而这也正是很多时间稍长的数据中心在改造过程 中PUE值很难提高的原因所在。而就算PUE值达到一个理想的数值,与其消耗的电能相比,目前小型系统所负担的应用也不够多,真正的绿色也无从谈起。
规模、成本、效率还是绿色?
在很多领域中,规模与效率经常处于反比的状态,即规模越大、效率越低。这一现象在IT架构中同样无法回避。随着整个系统节点数量的不断增加,用 户需要更强大的网络、更多的存储、更复杂的调度与分配机制、更先进的容错机制。而对于用户来说,这些“更多”所带来的最直接表现便是更多的成本。
为了解决信息大爆炸,企业需要更多的服务器、存储和网络,而这些设备都需要占据空间并散发热量。通常的做法是建设更大的数据中心和更高效的散热。
Facebook是 网络社交领域的先锋,其数据中心更是容纳了来自全球9亿活跃用户所产生的海量数据以及众多应用。为了支持这些数据和应用,Facebook在俄勒冈州普赖 恩维尔市建设了超大数据中心,Facebook所拥有的18万台服务器大多安置在此。如此海量的服务器不仅会消耗巨大的电能,就连其散热也成为问题。为了 设计出更加节能的数据中心,Facebook光是在前期的选址、设计和基础建设方面就花费了多达两亿美金。
虽然Facebook最终成为了数据中心建设领域教科书式的能效典范,但耗费如此令人乍舌的资金所形成的典范在实际应用中有多少指导意义却很难 评估。另一方面,虽然其在整体PUE值方面的表现非常出色,但整个业界对其是否需要如此多的电能和服务器来完成任务仍然没有做过任何探究。
换句话说,Facebook完成了一件令人难以置信的艰难任务,这一点令人钦佩。但我们都没注意到Facebook完成任务的手段是否真的科学和高效。
大数据需要“真正的绿色”
就如同造船一样,如果我们只建造一艘几吨重的小型渔船,那么绝大多数造船厂甚至手工作坊都完全可以胜任这项工作,因为这件工作非常简单。但如果 我们把船的体积扩大到十万吨级,那么船上的任何系统都将无比复杂,困难重重,因为他太大了。而这也正是世界上拥有航空母舰的国家如此之少的根本原因。
而大数据就是这个摆在我们面前的“十万吨级”问题。而想要解决这一问题,我们首先需要的是科学的方法。
用普通x86服务器来解决大数据就好比用钢板来从最小的细节着手,一点一点的建造航空母舰。这种方法在50年前也许还行得通,因为那时的航空母舰比现在小很多,而且功能和构造也更加简单。而从目前来看,新的航空母舰早已淘汰了这种看似可行的方法,其原因就是效率太低。
目前,航空母舰通常被分成几个大型的功能模块,分别在不同的地方进行建设,建好之后再拼接起来。这种方法相对于之前那种直接用钢板来制造航空母舰的方法来说更加高效。因为他把任务分成了大小合适的几块,并让每一块都在最合适的船坞来进行建造,最后完成拼接工作。
虽然造船方法与处理大数据的方法并不完全相同,但通过对以往大型任务处理方法的分析,我们同样可以得到处理大数据的有效指导。毕竟人们面对困难任务的历史非常悠久,而面对大数据的历史仅有短短几年。因此,在这里我们也有必要更正一个观念,那就是PUE值并不代表真正的绿色数据中心;真正的绿色数据中心需要做到用最少的电力来完成更多的任务。而在这一点上,我们仍然还有很多思路需要转换,很多忽悠需要看穿。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。