扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
如果你关心目前服务器行 业的发展,会发现许多厂商和用户都在围绕一个重要的概念——大数据。和之前几年谈云计算时的火爆程度一样,如今许多厂商对于大数据也提出了自己的观点和认 识。根据最新的IDC数据显示,截至今年6月,国内电信行业已经拥有3.9亿用户,而国内网民的数量已经增长到了5.3亿。从长远发展来说,预计到 2020年,全球数据增长将达到35.2ZB,这将是一个非常恐怖的数字。而在这些数字背后,则蕴含了太多重要的信息。所谓大数据不仅仅是依赖于这些数 据,还要通过分析了解数据背后的内容,而作为数据的主要存储方式,Hadoop应运而生了。
如今谈到Hadoop,更多的人认为它依然是一款开源的软件,就跟我们使用的Linux一样。正如在Linux中也分为RadHat、SUSE等诸多版 本一样,如今像英特尔、微软等行业巨头厂商也在推广自家的Hadoop。如何正确认识开源软件与收费软件的关系,IDC中国企业级系统与软件研究部高级研 究经理周震刚先生给了我们一个很好的比喻——就好比我们都知道水是免费的,但还是有人会购买矿泉水、纯净水一样。对于收费软件的好处,除了可以减少用户在 最初部署时候遇到的一系列调配难题之外,其售后的支持和服务也是用户所看重的部分。
事实上,任何软件的开发都不能脱离硬件而单独存在, 如何为用户提供更好的硬件也是实现Hadoop应用的前提条件。英特尔作为全球领先的IT公司,在行业规范及新技术普及方面一直引领着时代的潮流。今年3 月发布的至强E5-2600作为至强5600的升级产品,在整体的表现上实现了飞跃,这也正好印证了英特尔一直坚持的摩尔定律,同时也为Hadoop的出 现打下了坚实的物质基础。
在谈到至强E5-2600的时候,核心数量的增加为用户提供了基础的硬件保障,从6核心提升到8核心所带来的性能增加是不言而喻的。而在多核心互联方面也有颇多改进,从CPU沟通内部来说是QPI通道由1条增加到的2条,而在于内存的外部联通方面,无论是4通道DDR3的出现或者是PCI-E 3.0的增加都提供了足够的带宽,再加上整合高级256位 AVX指令集、DDIO等功能使得至强E5-2600相比上一代有了明显的进步。
通过实际用户的现身说法或许是我们了解至强E5-2600品质的最佳途径。中国石油东方地球物理公司研究院处理中心总工程师赖能和先生在谈到新至强E5 处理器的时候曾表示相比上一代的产品提供了5-8倍的性能提升。而同样大规模使用至强E5-2600搭建数据中心的中国传媒大学高性能计算中心主任鲁永泉 老师则表示:新一代的至强E5平台在虚拟桌面通过Hyper-V共享服务器上的GPU时可以实现20%的性能提升,而且在维护方面还可以节约20%的时间和精力,同时至强E5的节能优化也可以大量节省数据中心的冷却成本。
总体说来,至强E5-2600系列处理器的出现对于原有的产品提供了非常大的提升,也为当下的Hadoop应用提供了良好的硬件平台。而在今年7月,英 特尔更是推出了自家的Hadoop发行版,相比目前广泛的开源Hadoop来说,英特尔本次的发行版主要针对有需求但是没有自主研发实力的企业而提供,为 它们实现了更好的易用性,提供了长期稳定性的保障。
正如我们刚才提到的,英特尔Hadoop发行版主要在以下四个方面提供了更好的支持——性能、功能、管理和稳定性。首先我们来说性能:今年英特尔发 布了全新一代的服务器平台Romely,也推出了最新基于SandyBridge-EP架构的至强E5-2600系列处理器,可以进一步帮助企业提升效 率,有效降低运营成本。同时,作为英特尔自家的软件和硬件,在部署及运行的时候可以最大限度的降低兼容风险,提升平台利用率。
同时,对于英特尔Hadoop发行版来说,相比于开源Hadoop最大的不同就是提供了针对HDPS数据节点的高级均衡算法。在以往的Hadoop软件 中,都是采用简单均衡算法,如果服务器的性能不够或者配置较低的话,不但不会达到良好的运行效果,反而适得其反降低服务器的整体运行效率。而应用了英特尔 Hadoop发行版不仅仅提高的任务的扩展性,还可以应用于不同的计算集群,同时它所提供的双机热备和双向复制、容灾功能更为用户提供了有效的数据保障。
说过了性能,我们再来看看功能上的优势。英特尔Hadoop发行版一个重要的内容就是可以提供基于HBase数据大表的建立,同时结合分布式函数计算,使得运算效能得到多倍提升。
这里我们先来解释一下什么叫做HBase。所谓HBase就是Hadoop Database,它是一种高可靠性、高性能、面向列、可伸缩的分布式存储系统,而它的出现则可以帮助用搭建大规模结构化存储集群。
在以往我们的使用中,HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为对应。结合上图来看,Hadoop EcoSystem中的各层系统,其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。
但是在HBase使用的过程中,由于使用数据的用户数量及数据分布的不均衡,经常会出现系统根据服务器Region数量进行负载均衡, 从而增加系统负担,导致系统变慢的问题。但是在英特尔Hadoop发行版当中,则可以智能的根据数据的局部性、分析服务器的Region数量的自动进行均 衡设置,同时还可以实现跨数据中心的应用部署,解决运行速度的问题。从这一点来说,英特尔Hadoop发行版在功能上相比普通的开源软件更为强大,同时也 降低了用户在应用中可以面对的风险和出现的问题,进一步提升了企业的运行效率。
作为英特尔开发的特定收费版本,Hadoop发行版必然 有着完善的管理界面,这也是与开源版本一个比较大的区别。在这里,英特尔特别为用户设置了一个可以通过浏览器进行管理的页面,提供了集群安装和管理,这也 是它的亮点所在。当系统遭遇故障的时候,软件还可以自行报警,将故障邮件发送到预先设定好的管理员邮箱当中,第一时间完成报告。
说了太多Hadoop应用的好处,下面我们可以来看一个具体的应用案例。来自美国国际绿色计算大会的消息,著名的国外社交网站FaceBook目前正在 使用至强处理器组建自己的Hadoop开源服务器集群,这些集群已经在俄勒冈州Prineville的数据中心投入使用,同时当英特尔发布最新架构的至强 E5-2600处理器之后,数据中心也将随之进行大规模的升级。
如今,英特尔已经不再仅仅满足于从硬件层面支持大数据特别是 Hadoop应用的普及,最新推出的Hadoop发行版更是为用户提供了一个最佳的选择。从前期的准备到后期的维护,英特尔提供了完善的技术支持,对于那 些想使用Hadoop又没有能力完成开源软件编译的用户来说提供了最大的方便,同时英特尔Hadoop发行版所完善了HBase的诸多功能,在数据安全和 冗余方面提供了更多的保障,而在应用层面了强化了用户体验,浏览器界面更为友好。
开源软件虽然具备了免费的特质,但是较高的技术 门槛也阻挡了许多切实需要的用户。对于国内的大部分中小企业来说,Hadoop的应用已经是大势所趋,但受限于技术能力和规模限制,很少有企业具备独立研 发的能力。而从实际应用来说,英特尔Hadoop发行版就为这些中小企业提供了一个最佳的解决方案,不仅避免了它们在开发上的难度,更提供了完善的指导和 售后服务,解决了技术应用上的瓶颈。