扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网服务器频道 06月06日 大会报道: 以“大数据大带宽推动云计算应用与创新”为主题的第五届中国云计算大会今天在国家会议中心召开。为期三天的大会(6月5日-6月7日)中有来自业界众多的云计算从业人员。会上,LSI总裁兼CEO Abhi Talwalkar 发表了以“大数据洪流,引爆数据中心革命”为主题的演讲,以下为演讲内容。
各位早上好!我们公司是云计算和解决方案,我们处理各种各样的设备。这个大会是专门讲大数据的,大数据有潜力改变我们的生活,之前我们听过很多关于大数据的例子。我来跟大家说一下一些不同的观点,说一下数据流结构的变化,计算结构的变化,还有硅谷在大数据方面的变化,将对我们生活带来什么样的影响。
首先,大数据会推动我们的发展,硬件、软件、服务方面的发展,日常生活也会受到大数据的影响。这是数据泛滥,我们之前也用这个说法来说现在我们看到的在社会当中的变化,没社会当中有非常多数据的生成,有非常多的数据流,还有就是我们看到有很多的数据的融合,还有像全球的移动网、去年销售大约20亿台手机,305是智能手机,这些智能手机会要求非常精密或者复杂的移动服务,自然就产生了非常多的数据,只有15%-25%的互联网的数据流是移动性的数据。在中国有更多的人是用智能手机来联网而不是用电脑来联网,所以移动性是很大的趋势。
还有一个就是视频,现在我们视频用得更多了,而且大家常用视频进行分享和交流 ,像美国的youtube、中国的优酷。阿里巴巴、淘宝、天猫这样一些平台每天能够完成2.5亿个交易,我们也看到微博和微信的使用非常广泛,它们成为社交网络的主流,facebook注册用户达到11亿,所以数据流量是非常大的。
现在我们跟联网的设备达到170亿部,2020年时候我们联网的设备会达到500亿,这就证明我们在网上会产生很大的数据和网络占用 流,不管是智能手机、智能终端、智能城市,所有这些智能相关的都是跟数据泛滥有关系。那么我们如何进行这些数据的处理呢?处理一定要跟技术联合,只要我们使用良好的技术就可以做出很不寻常的事情。
在大数据分析这一方面可以看到很多的数据都是实时捕获的,我们可以根据实时捕获数据进行预测,并且实时让人员撤退 ,以免受到飓风的侵害 。美国在去年10月份时候发生过一次非常大的飓风和暴风雨,美国从不同的传感器和装置搜集 很多的数据,所有的数据可以放在一个电脑上进行运算、分析和处理,也就是说每6个小时数据就要进行一次更新和同步,那这样一来我们就可以从数据分析得到非常重要的结果,然后这个结果是由专家和政府部门之间进行讨论,然后他们就可以预测飓风 会什么时候达到美国哪一个地方,通过这个预测功能挽救 很多人的生命。
再给大家举一个医疗领域的例子,我们现在都在谈人类基因组的话题,那么人类基因组其实就是整个一个人特性的蓝图 ,过去美国在基因组突破方面做出很多工作,现在已经得到人类基因组完整的测序,这方面花了上十亿美元,花了13年的时间,如果我们有这样的大数据处理能力,我们可以更加快速的做基因组方面的工作,我们所花的费用只不过是几千块钱而已。有了人类基因组的分析我们就知道到底是哪个基因造成人得什么样的疾病,同时,我们也可以进一步的分析基因组以及基因组的序列 ,而且这个分析的过程可以以一个比较低的成本进行,那么我们相信随着技术的发展以及我们对人类基因组和序列的了解,我们去医院就医的次数就可以减少,而且可以有效预测某一类基因对应什么样的疾病,通过这种方式真的改善人的生活。再给大家举一个例子,浪潮 所谈到的关于视频的功能,中国现在有1300万台的监控仪在整个国家部署,伦敦一个城市有500万摄像头,所有这些实时视频都可以反馈 到有关机构然后进行非常强大的方向,我们就可以来监控市民的情况。还有比如我们的智能采购 ,如果你去天猫或者淘宝购物,马上就可以给你弹出一个购买 建议,是基于你以前的购买记录以及有同样需求购买人的记录得出来的。我经常乘波因787来中国,实际上波音787飞机上也能够安一些摄像头,我们可以了解飞行器的实时性能、表现、状态是什么样的,以便我们能够定制新相应的维修 和保养,这就是数据带来的便捷。
处理大数据最重要的是数据问题,来自不同的地方它们的类型 也不同,有的时候信息是有目的的存放 在数据中心,比如阿里巴巴就是这种情况,还有一些数据是关于消费者与消费者行为的,但有的数据它不是通过方式搜集 的,它是通过安装在飞机上的传感器搜集 来的,也就是说数据的来源是不同的,这就是数据类型 的不同。大数据第二个特点是它们的产生速度非常快,可以在很短一段时间产生很多的数据,事实上每几分钟facebook上的视频可以多产生出来390万部,所以大数据的产生速度是不可想象的。还有一点就是数据的产生量是否大,它们大多数都是非结构的数据,而且数据级比十多年以前我们处理的数据级大得多,这都是由于互联网的普及所带来的影响,我们相信到2020年我们全球所产生的数据可以达到40个Z。
大数据的三个描述就是种类 、速度以及体量,如果你能考虑这三方面的关系就一定能够创造价值,你可以挽救 生命,可以预测自然灾害的发生,你可以进行快速的人员撤离,可以帮助人们检测疾病、预测疾病以及采取疾病的防控模式,这些都是我们得到的切实的好处。大数据也可以推动行业的创新,而且是从各个领域和各个角度推动创新的。
现在我跟大家讲讲创新这方面的,就是芯片以及硅片它是如何在大数据方面发挥自己应有的作用的。大数据有很多价值,我们需要挖掘这些价值,如果挖掘价值的话我们需要关注几个问题:第一个就是数据捕获,当然,我们知道数据它来自不同的源头 ,有的是来自传感器的,有的时候是来自消费者行为的,有的是来自智能手机或者是也是设备的,这也就是说来自不同源的数据它们的格式也不一样,所以我们必须以有效的方式捕获这些数据。第二个是持有或者存储这些数据,我们之前说过数据的量非常大,它们必须得到妥善的存储和保护,数据的访问 性非常好,所有的数据都需要实时的进行访问 。第三个是数据分析。也就是说数据只有得到了合理的分析才能有价值,才能够从数据里边以实时的方式获取 到更多的信息,获取到有价值的信息。当然,我们要考虑三个面向的问题,之前我们很多演讲嘉宾都谈到这一点了,但这一点对大数据行业非常重要,所以我们再次强调工具、开源以及云框架 设施非常重要,开源包括软件和硬件的开源。
Hadoop工具已经成为现在主流新的范式了,之前几年的软件开发它只适合去处理结构化的数据,面对非结构化的数据Hadoop是主流,它可以非常有效的处理非结构的数据,尤其是处理这些分布式的数据。Hadoop也有分支支持的工具,比方说处理和分析的工具,这些都是非常重要的工具,而且这些工具也在不断的改进,我相信我们能够通过这些数据的改进 进一步挖掘大数据的价值。
还有一点就是开源软件,对于云计算和大数据最重要的问题就是我们要实现云数据中心的有效使用,这就意味着我们要有非常好的存储设施和非常和的网络架构才能高度的使用,我们只有达到一定的效率才能够动态的访问 这些资源,当然,这些资源都是客户分享所需要的,我们还需要数据中心的管理技能,这种情况下我们产生了poenstack的概念,它正在开发一些开源的技术,这些技术一定能够让数据中心获得相应的管理来年。还有一点是虚拟化,网络的虚拟化一定让网络的商业价值得到挖掘。硬件开源方面也有很多事情可以做,比如在美国已经进行了一个开源编程,中国也有另外的一个开源编程活动,这主要是为了能够数据中心硬件的标准化设立,不管是开发商还是用户都非常关心硬件的标准化,因为硬件标准化可以提高效率、增加兼容性并且节省成本,所以在硬件和软件开源方面我们做了很多工作。
另外一点是云,我们知道云这个概念它现在是引领了一场计算机的变革,云带来的变化是深远的。当然,随着云计算的发展以及云能力的扩展,任何一个人都可以随心使用云资源,随心获取这种计算的廉价能力。现在,看一看我们的工作负载,在云的架构下会变得更加强大,这是全世界排名前20的网络公司,包括阿里巴巴、facebook、Google等等。
下面要讲的一个概念是数据流的架构,它是关于大数据本身、传送这些数据以及大数据的分析。把它放在云这个角度来讲的话,我们看到云是一个平台,它是由三个平台构成的,首先是终端,终端这些移动设备是获取服务的设备或者叫载体,你可以是一个移动网络或者是数据中心,数据中心它是托管所有服务的,我们认为云的服务以及架构以及大数据这三大概念实际上是构成了数据流的架构。
十年以前,我们所做的东西都是本地化的,但是现在关于数据本身以及关乎 于数据的传送、数据的安全、数据的安保以及实时把数据送到该送的地方并且进行快速的处理,这些是我们关心的重点,已经不再进行本地化的操作了,所以它必须能够满足现在对数据处理所需要的要求,以及数据使用性的要求,这就是为什么我们给它起了新的名字叫做“数据流的架构”。
我们可以考虑一下数据流,首先你要捕获一下数据流把它存储起来,而且现在存储的中心也是超大的数据中心了,这个数据可能有十万台服务器或者100万个硬盘 。当然,有些数据是放在比较少的数据服务器上,但这几个数据服务器又是性能非常强大的,这主要跟数据的复杂性以及数据的数量有关,我们要根据数据的特性搭建这种数据流的架构,当然,这主要取决于你对数据分析的需求,比方你想实时进行数据分析还是不实时进行数据分析,这也影响架构组成部分。
讲一下关于智能半导体的使用,首先,我们需要捕获数据,现在我们必须要认识到我们所捕获的数据越来越多,这一点非常关键,我们需要对数据进行评判,到底这个数据的重要性有多少,有的时候我们需要进行评判,看看这个数据所含有的价值是多少。同时,在网络上随着数据流的流入 我们就应该能去判断这个数据的类型 ,这就意味着我们要有更多的智能网络以便能对数据进行实时的智能的判断。同时,我们还吸引处理不同的数据格式,所以说在这一方面很多公司都在研究这个问题,我们开发了一种叫多核的处理器,除了多核处理器以外我们还提供了含有处理功能的硬件,这个硬件它能够去评判这个数据到底是什么样的格式,比方说它是不是视频数据以及这个数据到底是需要实时的应用还是说这个应用只是去支持视频聊天 的数据类型 。我们这个硬件是智能的,经过我们硬件的数据分成若干个类型 进行实时的分类 ,而且分类 了之后我们可以进行初步的智能判断。那么在接下来的2-3年,我想两个比较大的网络公司它们就会采用我们这种技术,所以我也相信通过这种智能硬件的使用50%的网络流量会得到缩减,大大节省带宽。
还有关于灵活 性的问题,我们所处理的数据量非常大,而且它们是存储在非常大的数据中心当中,有特别多的硬盘 ,哪个硬盘 一坏都是了不得的事情,所以我们必须使得这个硬盘 非常好。现在数据中心所面临的头疼的问题就是希望能够保证一定量的硬盘在工作的状态,而且也不希望它们的性能受到任何的影响。我们今天是使用一种特殊的存储技术,然后我们可以能够对数据进行定位它存在哪个服务器当中,但是在传统的方式,我们主要是依靠存储的物理位置,但是现在我们需要能够通过一个机架服务器把所有分布在不同服务器上的数据进行统合,这样一来我们就可以提高数据的能力。
最后一个挑战是效率,所以说大数据它受到一些制约,就是说你能多快处理这个数据组,然后得到一个结果,这和你的预算相关,如果你的预算越大就能买更多的服务器,但是我们都没有无限的IT的预算,所以这是一个挑战。怎么样应对这个挑战呢?我们现在用这个flash技术使得我们在应用或者分析当中能够有很大的不同,可以加快这个应用的速度,并且能够加快15倍的技术,利用flash的技术使得IT公司投少的钱保证性能同样的优良。我们用这个flash的时候就等于减少了CPU和传统硬盘 储存之间实质的状态,现在我们用很多的flash应对大量的基础设施和基础架构以及大量的数据组,我们现在主要是关注网络和这个架构,主要是抓住并且来捕获、分析信息和数据。我们非常高兴的看到,在云方面和移动网络未来会有很大的发展。
最后,总结一下我们现在的创新以及我们处在哪一个情况。六十年代、七十年代可以说在创新之前,我们是作为一个创新的社会开始。从这之后我们创新的速度就很快了,从硅谷还有半导体这些处理器能给我们带来很高的集成度,使得我们的经济得到大量的发展,这就是基于IT技术的推动。还有就是个人电脑方面,还有移动网络方面、移动设备方面,还有是我们现在经历了大的发展,现在进入数据中心的时代了,数据等于是我们新的货币 。
那么我们看一下我们刚刚所讲的重要的理念,就是大数据是这么一个社会和世界,并且我们能从中提出更多的价值,而像硅谷一直都是最基础重要的平台,使得我们在大数据方面能够得到更多的推进,我们的生活每天都在改变,我们消费的方式以及在网上购物的方式,以及在未来五年获得更好更安全的体验,因为在我们所生活的领域在安全方面会有很大的提升,带来很大的影响。还有就是在计算的架构上面我们会转向一个数据流的架构,来确保有容错能力并且在恰当 的时间得到想要的结果,相信硅谷会在这方面发挥非常重要的作用。谢谢大家的聆听 。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者