科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道谷歌每天需要处理约20000TB的数据

谷歌每天需要处理约20000TB的数据

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Google 热衷于处理全球的信息,每天,他们花费大量时间探索更好的信息整理技术,他们目前使用的技术为 MapReduce,这是一种可以对数据进行并发处理的软件架构。

来源:cnBeta 2008年11月25日

关键字: TB Google 服务器 MapReduce 谷歌

  • 评论
  • 分享微博
  • 分享邮件

  Google 热衷于处理全球的信息,每天,他们花费大量时间探索更好的信息整理技术,他们目前使用的技术为 MapReduce,这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力,MapReduce 是 Google 日常数据处理的完美技术方案。

Google数据整理图

  谷歌数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣,并获得经验和教训,以改进下一代数据处理技术。

  目前,Google 的每 TB 数据处理能力为,在1000台计算机中处理 1TB 数据的时间为68秒(使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中),以前的表现为 910 台电脑209秒。

  但 谷歌要处理的数据远超过 TB 级,因此,谷歌做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍,或者,形象一点说,1PB 数据相当于 2008 年5月,美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示,Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。

  有一个有趣的问题,就是,如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中(每个只利用了部分空间),每次进行数据整理,至少有一个硬盘坏掉(鉴于处理的时长,硬盘的数目和硬盘本身的寿命,这并不奇怪),因此,为了保证数据安全,Google 将每份数据都在不同的硬盘上写三份。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章