扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
数据,从来不是一个陌生和新鲜的词汇,然而,当我们日常生活中的点滴数据汇成“大数据”海洋时,我们发现,数据已然不仅仅只是数据,而在其中蕴含了 大量的商业价值。今天的企业正驾驭着商业巨轮航行在数据的海洋中,伴随着传统的商业智能向纵深应用的拓展,商业决策已经越来越依赖于数据,只有对数据有效 利用并充分驾驭,才能在未来的商业竞争中游刃有余。
挖掘数据宝藏的价值
“百度开始接触hadoop是在2007年间,实际上百度开始数据分析的时间要更早……” 百度资深研发工程师马如悦告诉IT168编辑,而对于百度等搜索引擎或互联网公司来说,最常见的数据分析应用就是Web访问日志分析。
Web日志是用户访问网页后留下的行为足迹,每一条日志都代表着用户的一次访问行为。从Web日志中,我们可以得到大量的用户信息,例如访问者IP、访 问时长、目标网页、来源地址以及访客所使用的客户端的UserAgent信息等,甚至还可以在网页中嵌入js代码,主动发送请求,收集更多用户信息……
毫无疑问,百度的Web日志中包含了大量人们——包括产品分析人员、决策者等感兴趣的信息。简单来说,我们可以获取网站不同页面的PV值 (PageView,页面访问量)、独立IP数(即去重之后的IP数量)等;稍复杂一些的情况,可以计算得出用户所检索的关键词排行榜、用户停留时间最高 的页面等;更为复杂的,我们还可以应用Web日志分析结果构建广告点击模型、分析用户行为特征等等。
用户的访问数据蕴含着重要的价值,并给百度带来了显而易见的回报,但百度的情况并非个案,数据挖掘也决非互联网公司的专利,在越来越多的行业与领域中,“大数据”的商业价值正日益凸显出来。
中国东方航空股份有限公司总经理严振红告诉IT168编辑:通过对数据的挖掘与分析,提高用户体验,正成为东航转型过程中的重要一个环节。东方航空公司 从2010年开始建立统一的旅客数据库,一些旅客的偏好信息都尽可能收集到统一旅客的数据库,目前该数据库的数据增长速度非常快。
“未来,东航的目标是从你旅行计划开始,到旅行计划结束的综合服务商。所以对大数据的挖掘与分析会帮助东航更好的推进转型。”
Hadoop与传统BI的对比
新兴互联网公司百度,以及传统航空企业东航,都在大数据领域进行了深入尝试,同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业 都无一例外的认识到,数据已经成为企业的核心资产,如何充分利用这部分核心资产,并挖掘更多的商业价值,将关乎这些企业能否在大数据时代继续保持基业常 青。
今天,企业对数据价值的认同已经成为共识,然而如何从海量的数据信息中挖掘其中的价值却并不那么容易,幸运的是,百度找到了hadoop数据挖掘与分析工具。
“当时的百度也有自己的几个分布式处理框架,但是在扩展性和容错方面尚有一些问题,并且都较为专用,缺乏较通用的计算模型。那时百度也启动了一系列较底 层的基础框架方面的项目,同时也看到了Google关于MapReduce的论文,于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。
Hadoop是一个开源的分布式系统基础架构,由Apache基金会开发,使得用户可以在不了解分布式底层细节的情况下,开发分布式应用程序,充分利用 集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘,最为常见的应用就是Web数据分析。因为从本质上讲,Hadoop提供了在大规 模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式,且可以支持多种数据源 (结构化、半结构化和非结构化),规模则能够从几十台服务器扩展到上千台服务器。
随着越来越多的传统企业开始关注大数据的价值,Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能 解决方案,Hadoop拥有无以比拟的灵活性优势和成本优势,这一点eBay自动化架构总监Juhan Lee深有体会:
“从海量的非结构化数据中分析数据,并试图找出其中暗藏的规律时,我们往往需要构建一个数据分析的模型,并把这些非结构化数据进行结构化,生成一个分析型的数据库。” Juhan解释说。
“问题在于,你根据某种分析的需要将大批非结构化数据转化成结构化数据之后,一旦分析的需求发生变化,你需要把之前的工作重新做一遍。Hadoop的内 部数据存储能力是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop系统允许你不断的尝试。在传统的数据分析系统中,你必须 明确的知道你希望做什么,需要哪些数据。”
而百度马如悦则告诉IT168编辑:MapReduce现在在百度使用非常广泛,包括分布式网页索引的建立,各种日志的挖掘分析等。集群总机器数在万数量级,日均输入数据处理量在20PB左右。
此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言,我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者