至顶网›服务器频道 ›X86服务器›选择X86平台构筑大数据平台的坚实基础

选择X86平台构筑大数据平台的坚实基础

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

数据，从来不是一个陌生和新鲜的词汇，然而，当我们日常生活中的点滴数据汇成“大数据”海洋时，我们发现，数据已然不仅仅只是数据，而在其中蕴含了大量的商业价值。今天的企业正驾驭着商业巨轮航行在数据的海洋中，伴随着传统的商业智能向纵深应用的拓展，商业决策已经越来越依赖于数据，只有对数据有效利用并充分驾驭，才能在未来的商业竞争中游刃有余。

来源：IT168 2012年9月14日

关键字： Hadoop 大数据 web日志 x86平台

在本页阅读全文(共2页)

挖掘数据宝藏的价值

“百度开始接触hadoop是在2007年间,实际上百度开始数据分析的时间要更早……” 百度资深研发工程师马如悦告诉IT168编辑，而对于百度等搜索引擎或互联网公司来说，最常见的数据分析应用就是Web访问日志分析。

Web日志是用户访问网页后留下的行为足迹，每一条日志都代表着用户的一次访问行为。从Web日志中，我们可以得到大量的用户信息，例如访问者IP、访问时长、目标网页、来源地址以及访客所使用的客户端的UserAgent信息等，甚至还可以在网页中嵌入js代码，主动发送请求，收集更多用户信息……

毫无疑问，百度的Web日志中包含了大量人们——包括产品分析人员、决策者等感兴趣的信息。简单来说，我们可以获取网站不同页面的PV值 (PageView，页面访问量)、独立IP数(即去重之后的IP数量)等;稍复杂一些的情况，可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等;更为复杂的，我们还可以应用Web日志分析结果构建广告点击模型、分析用户行为特征等等。

用户的访问数据蕴含着重要的价值，并给百度带来了显而易见的回报，但百度的情况并非个案，数据挖掘也决非互联网公司的专利，在越来越多的行业与领域中，“大数据”的商业价值正日益凸显出来。

中国东方航空股份有限公司总经理严振红告诉IT168编辑：通过对数据的挖掘与分析，提高用户体验，正成为东航转型过程中的重要一个环节。东方航空公司从2010年开始建立统一的旅客数据库，一些旅客的偏好信息都尽可能收集到统一旅客的数据库，目前该数据库的数据增长速度非常快。

“未来，东航的目标是从你旅行计划开始，到旅行计划结束的综合服务商。所以对大数据的挖掘与分析会帮助东航更好的推进转型。”

Hadoop与传统BI的对比

新兴互联网公司百度，以及传统航空企业东航，都在大数据领域进行了深入尝试，同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业都无一例外的认识到，数据已经成为企业的核心资产，如何充分利用这部分核心资产，并挖掘更多的商业价值，将关乎这些企业能否在大数据时代继续保持基业常青。

今天，企业对数据价值的认同已经成为共识，然而如何从海量的数据信息中挖掘其中的价值却并不那么容易，幸运的是，百度找到了hadoop数据挖掘与分析工具。

“当时的百度也有自己的几个分布式处理框架，但是在扩展性和容错方面尚有一些问题，并且都较为专用，缺乏较通用的计算模型。那时百度也启动了一系列较底层的基础框架方面的项目，同时也看到了Google关于MapReduce的论文，于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。

Hadoop是一个开源的分布式系统基础架构，由Apache基金会开发，使得用户可以在不了解分布式底层细节的情况下，开发分布式应用程序，充分利用集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘，最为常见的应用就是Web数据分析。因为从本质上讲，Hadoop提供了在大规模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式，且可以支持多种数据源 (结构化、半结构化和非结构化)，规模则能够从几十台服务器扩展到上千台服务器。

随着越来越多的传统企业开始关注大数据的价值，Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能解决方案，Hadoop拥有无以比拟的灵活性优势和成本优势，这一点eBay自动化架构总监Juhan Lee深有体会：

“从海量的非结构化数据中分析数据，并试图找出其中暗藏的规律时，我们往往需要构建一个数据分析的模型，并把这些非结构化数据进行结构化，生成一个分析型的数据库。” Juhan解释说。

“问题在于，你根据某种分析的需要将大批非结构化数据转化成结构化数据之后，一旦分析的需求发生变化，你需要把之前的工作重新做一遍。Hadoop的内部数据存储能力是非常重要的，能在你不知道该如何处理数据的时候尽可能多的保存数据，Hadoop系统允许你不断的尝试。在传统的数据分析系统中，你必须明确的知道你希望做什么，需要哪些数据。”

而百度马如悦则告诉IT168编辑：MapReduce现在在百度使用非常广泛，包括分布式网页索引的建立，各种日志的挖掘分析等。集群总机器数在万数量级，日均输入数据处理量在20PB左右。

此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言，我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”

选择X86平台构筑大数据平台的坚实基础

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

选择X86平台构筑大数据平台的坚实基础

业界热点: