扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
Hadoop标准优化和扩充
以上介绍了业界主流大数据一体机的硬件平台,x86平台成为首选,在大数据处理的软件方面则离不另一个软件框架标准,那就是分布式运算系统Hadoop,它使用简单的编程模型即能支持在计算机集群中分布式处理大数据集。
完 整Hadoop的技术堆栈包括常用设施、分布式文件系统、分析和数据存储平台,以及管理分布式处理、并行计算、工作流程和配置管理的应用层。除了提供高可 用性之外,与传统方法相比,Hadoop是一种更加经济高效的大型非结构化数据集处理方法,同时提供极大的可扩展性和速度。
Hadoop 最早来源于Google的MapReduce和文件系统(GFS),后由Yahoo完成绝大部分初始设计和开发。短短几年时间,Hadoop从互联网行业 开始兴起,如今已经成为重要的并行处理架构标准,并被公认为分析存储大数据的关键平台。但不得不提的是,因为基于普通的英特尔x86架构运行,也是促成 Hadoop快速发展并广泛接受的重要原因。
当然,除了处理器,存储和网络也是Hadoop集群性能的重要保 证。在Hadoop集群中,万兆位以太网(10GbE)带来的带宽增长是导入和复制(在多台服务器之间)大型数据集的关键,英特尔Ethernet 10 Gigabit融合网络适配器提供了高吞吐量连接,同时英特尔SATA固态硬盘为原始存储提供了高性能、高吞吐量存储选择。为提高效率,存储往往需要支持 其它高级能力,如压缩、加密、自动数据分层、重复数据删除、纠删码和自动精简配置,现有的英特尔至强处理器都已经支持这些功能。
众 所周知,Hadoop是一个开源的框架,Apache在2012年1月推出了Apache Hadoop 1.0的首个完整生产版本。但在对开源版本Hadoop的使用过程中,企业通常需要自己去解决系统一致性、安装维护以及管理监控的问题,并且需要自己解决 和修补开源版本的软件缺陷,尽管在Hadoop初期部署中具备成本的优势,但是对后期的技术维护将提出更高的要求,并且从长远的角度来看,企业付出的技术 维护成本将更加高昂。
随着大量IT厂商的加入,Hadoop的商用版本正呈增长趋势,众多厂商都推出了自己的Hadoop版本,并集合了其他Hadoop项目的基本堆栈,可与数据仓库、数据库和其他数据管理产品集成。
针 对企业对Hadoop平台的需要,英特尔已经推出Hadoop发行版,英特尔提供的Hadoop发行版提供了一个稳定高效可管理的Hadoop版本,经过 大量的实际项目在线验证,英特尔将最佳的Hadoop实践提供给企业,包含Hadoop分布式文件系统HDFS、分布式数据库HBase、分布式计算框架 MapReduce、数据仓库Hive、数据处理Pig、机器学习Mahout商业套件。此外,英特尔还提供全面的产品技术支持和顾问服务,使得企业在系 统规划、设计和实施运行中能得到专业及时的专业服务,为企业解除后顾之忧。
英特尔企业版Hadoop发行版堆栈
除了在性能和管理方面有了大幅提升,英特尔Hadoop发行版基于底层的大量优化算法也使应用效率更高,而且计算存储分布更均衡,通过与英特尔硬件技术相结合,全面提升数据处理平台性能。
在Hadoop的大规模分布式架构中,关联系统并发性能往往是一大难题,英特尔Hadoop发行版提供独有的基于浏览器的集群安装和管理界面,解决开源版本管理困难的问题,同时可通过网页、邮件及短信的方式发送系统异常告警。
除了在大数据基础设施和分析处理平台发挥作用,在数据交付和应用层面,英特尔也不断加强基于英特尔架构的客户端与服务器算法开发,提高分析计算的性能和规模,为应用层和可视化层提供最佳应用展示环境,提供决策支持。
综上,在传统的印象中,英特尔是一家为数据中心提供基础设施和技术的供应商,但是随着对Hadoop功能的优化和扩充,在应用层优化可视化环境,英特尔在大数据分析处理领域技术实力可谓更加全面,毫无疑问,英特尔在大数据时代将扮演更加重要的角色。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者