科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航



ZDNet>服务器频道>X86-zhiding>选择X86平台构筑大数据平台的坚实基础

选择X86平台构筑大数据平台的坚实基础

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

数据,从来不是一个陌生和新鲜的词汇,然而,当我们日常生活中的点滴数据汇成“大数据”海洋时,我们发现,数据已然不仅仅只是数据,而在其中蕴含了 大量的商业价值。今天的企业正驾驭着商业巨轮航行在数据的海洋中,伴随着传统的商业智能向纵深应用的拓展,商业决策已经越来越依赖于数据,只有对数据有效 利用并充分驾驭,才能在未来的商业竞争中游刃有余。

来源:IT168 2012年09月14日

关键字:Hadoop 大数据 web日志 x86平台

数据,从来不是一个陌生和新鲜的词汇,然而,当我们日常生活中的点滴数据汇成“大数据”海洋时,我们发现,数据已然不仅仅只是数据,而在其中蕴含了 大量的商业价值。今天的企业正驾驭着商业巨轮航行在数据的海洋中,伴随着传统的商业智能向纵深应用的拓展,商业决策已经越来越依赖于数据,只有对数据有效 利用并充分驾驭,才能在未来的商业竞争中游刃有余。

挖掘数据宝藏的价值

“百度开始接触hadoop是在2007年间,实际上百度开始数据分析的时间要更早……” 百度资深研发工程师马如悦告诉IT168编辑,而对于百度等搜索引擎或互联网公司来说,最常见的数据分析应用就是Web访问日志分析。

Web日志是用户访问网页后留下的行为足迹,每一条日志都代表着用户的一次访问行为。从Web日志中,我们可以得到大量的用户信息,例如访问者IP、访 问时长、目标网页、来源地址以及访客所使用的客户端的UserAgent信息等,甚至还可以在网页中嵌入js代码,主动发送请求,收集更多用户信息……

毫无疑问,百度的Web日志中包含了大量人们——包括产品分析人员、决策者等感兴趣的信息。简单来说,我们可以获取网站不同页面的PV值 (PageView,页面访问量)、独立IP数(即去重之后的IP数量)等;稍复杂一些的情况,可以计算得出用户所检索的关键词排行榜、用户停留时间最高 的页面等;更为复杂的,我们还可以应用Web日志分析结果构建广告点击模型、分析用户行为特征等等。

用户的访问数据蕴含着重要的价值,并给百度带来了显而易见的回报,但百度的情况并非个案,数据挖掘也决非互联网公司的专利,在越来越多的行业与领域中,“大数据”的商业价值正日益凸显出来。

中国东方航空股份有限公司总经理严振红告诉IT168编辑:通过对数据的挖掘与分析,提高用户体验,正成为东航转型过程中的重要一个环节。东方航空公司 从2010年开始建立统一的旅客数据库,一些旅客的偏好信息都尽可能收集到统一旅客的数据库,目前该数据库的数据增长速度非常快。

“未来,东航的目标是从你旅行计划开始,到旅行计划结束的综合服务商。所以对大数据的挖掘与分析会帮助东航更好的推进转型。”

Hadoop与传统BI的对比

新兴互联网公司百度,以及传统航空企业东航,都在大数据领域进行了深入尝试,同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业 都无一例外的认识到,数据已经成为企业的核心资产,如何充分利用这部分核心资产,并挖掘更多的商业价值,将关乎这些企业能否在大数据时代继续保持基业常 青。

今天,企业对数据价值的认同已经成为共识,然而如何从海量的数据信息中挖掘其中的价值却并不那么容易,幸运的是,百度找到了hadoop数据挖掘与分析工具。

“当时的百度也有自己的几个分布式处理框架,但是在扩展性和容错方面尚有一些问题,并且都较为专用,缺乏较通用的计算模型。那时百度也启动了一系列较底 层的基础框架方面的项目,同时也看到了Google关于MapReduce的论文,于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。

Hadoop是一个开源的分布式系统基础架构,由Apache基金会开发,使得用户可以在不了解分布式底层细节的情况下,开发分布式应用程序,充分利用 集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘,最为常见的应用就是Web数据分析。因为从本质上讲,Hadoop提供了在大规 模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式,且可以支持多种数据源 (结构化、半结构化和非结构化),规模则能够从几十台服务器扩展到上千台服务器。

随着越来越多的传统企业开始关注大数据的价值,Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能 解决方案,Hadoop拥有无以比拟的灵活性优势和成本优势,这一点eBay自动化架构总监Juhan Lee深有体会:

“从海量的非结构化数据中分析数据,并试图找出其中暗藏的规律时,我们往往需要构建一个数据分析的模型,并把这些非结构化数据进行结构化,生成一个分析型的数据库。” Juhan解释说。

“问题在于,你根据某种分析的需要将大批非结构化数据转化成结构化数据之后,一旦分析的需求发生变化,你需要把之前的工作重新做一遍。Hadoop的内 部数据存储能力是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop系统允许你不断的尝试。在传统的数据分析系统中,你必须 明确的知道你希望做什么,需要哪些数据。”

而百度马如悦则告诉IT168编辑:MapReduce现在在百度使用非常广泛,包括分布式网页索引的建立,各种日志的挖掘分析等。集群总机器数在万数量级,日均输入数据处理量在20PB左右。

此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言,我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”

构建hadoop运算坚实的平台

百度构建了超大规模的服务器集群来运行Hadoop,其中日志处理与分析站到了全部hadoop集群的80%,处理数据量从几个G到上P,运行时间从几分钟到几十个小时。

谈到Hadoop集群的硬件基础,马如悦告诉IT168编辑:“百度使用的服务器品牌较多,市面上主流的服务器品牌均有涉及,但绝大多数都基于英特尔X86平台,配置则大体上是8核CPU(主要是英特尔至强7400/7500系列),32GB内存,12TB硬盘。此外我们也在尝试定制自己的服务器。”

“选用什么样的服务器需要根据具体的应用而定。比如使用hadoop做日志存储和挖掘,可以参考百度上面的配置。如果是作为HBase的底层存储,并且有大量的随机查询,那么使用SAS硬盘,甚至SSD都是可以的。不同的业务需要不同类型的配置。即使同一个业务,也可能需要分层考虑。这样才能做到成本最低。”

大 体来说,hadoop应用对系统的要求侧重计算、存储与网络性能的均衡,这一点则正好与英特尔X86平台不谋而合。英特尔至强7400/7500系列 处理器已然为百度Hadoop集群奠定了坚实的硬件平台,今年英特尔发布的至强E5平台则无论在性能、吞吐能力和带宽方面都有均衡的提升。

英特尔最新一代E5处理器相比前代至强5600处理性能提高了80%,同时,英特尔E5芯片中的DDIO技术也大大提高整体IO性能,这一技术能把IO数据包指向处理缓存,跳过内存,从而能够大大减少延迟,增强系统总带宽,还消除了内存的功耗。英特尔集成IO把IO子系统移到了处理器芯片处下,同时得益于PCI-E 3.0的支持,可以把服务器平台的延迟减少多达30%,带宽增加2倍。

英特尔的大数据野心

基 于英特尔处理器的X86平台在构建hadoop集群时拥有得天独厚的优势,然而英特尔在大数据市场中可发挥的空间远远不止于此。前面我们提 到,hadoop对基础架构的要求较为均衡,内存、处理器、吞吐和网络都不能成为瓶颈,如今,英特尔也在万兆以太网、SSD等领域齐头并进。

目前千兆网对于HADOOP这种分布式服务器和存储架构来说已经不够用,很容易成为系统的整体瓶颈。因此在分配大数据时,需要更高的网络带宽。如今,虚拟化和多网融合正驱动万兆以太网发展,英特尔也在积极推动万兆以太网应用与普及。

英 特尔 X540是最新的万兆以太网控制器,也是业界第一块全集成10GBASE-T控制器,把MAC和PHY集成到了一个芯片上。据英特尔表示,X540网络控 制芯片适合搭配不久前正式发布的Sandy Bridge-E架构Xeon E5系列处理器使用。借助Xeon E5系列处理器的I/O连接界面,这个搭配可以发挥出更高的网络效率。

存储方面,英特尔于今年春季IDF大会上发布了基于PCI接口的 910系列闪存加速卡,它是一个半高半长的PCIe gen 2 x8卡,通过25纳米MLC闪存,分别提供400GB和800GB的存储容量,采用英特尔固件达到控制器功能。最高为18万次随机读取IOPS(4K块) 和7.5万次随机写入。对于存在大量随机查询的Hbase底层应用来说,SSD将大幅度提升整体系统性能。

此外,英特尔日前还首次发布 了Hadoop发行版。英特尔亚太研发有限公司总经理,软件与服务事业部中国区总经理何京翔博士介绍,Hadoop发行版的优势包括三点:首先,英特尔基 于开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop,比非英特尔发行版获得性能的成倍增长,其处理能力达到“接近于实 时”的处理效果。同时,英特尔Hadoop manager 2.0简化Hadoop的部署与管理工作;此外,通过和中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版还针对中国市场的行业和应用 特点做了更进一步的优化。

“我们已经认识到,现在互联网、移动应用加物联网时代,要求我们必须更贴近客户,了解客户需求,使我们的产品 和解决方案更加贴近于用户要求。不仅仅和硬件芯片相关,还涉及到软件应用水平、服务的水平,这也是我现在所在的软件及服务部门的宗旨之一,帮助英特尔在实 现未来十年愿景上提高一个层次。” 何京翔博士表示。

后记:潜入大数据的深水区

百度应用hadoop对其访问日志进行了多维度的分析,并以此作为决策依据,造就了中国互联网公司的典型代表。其中,英特尔X86平台为百度hadoop集群奠定了坚实的硬件基础。

在 很多人看来,大数据似乎与传统的半导体巨人英特尔毫无关系,并对英特尔是否有足够的能力抓住快速崛起的“大数据”机遇心生疑虑。然而,英特尔以实际的 步调和行动向我们证明:英特尔不仅牢牢把控着传统的硅晶体世界,也有能力在未来的大数据蓝海中赢得竞争。在这个“大数据”时代,英特尔正在用一个与众不同 的方式寻找自己在大数据生态圈中的位置和未来。英特尔正潜入“大数据”深水区。

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅ZDNet技术邮件将是您的最佳途径之一。