扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网服务器频道 06月06日 大会报道: 以“大数据大带宽推动云计算应用与创新”为主题的第五届中国云计算大会今天在国家会议中心召开。为期三天的大会(6月5日-6月7日)中有来自业界众多的云计算从业人员。会上,中国电子学会云计算专家委员会候任主任委员、中国科学院院士怀进鹏发表了以“大数据及大数据的科学问题”为主题的演讲,演讲内容如下。
非常高兴有机会和各位嘉宾一起分享一下我对大数据这方面的理解和认识,也许有一些讲的可能太技术或者理论化,我尽可能的简单一些。大数据已经成为非常热闹的一件事情,我这次主要跟各位交流的是我对当前互联网、大数据和对未来这个问题的一些思考。
我们都知道,信息技术如果简单从应用来看有一个信息流,那么从获取、传输到计算、存储,到最后的使用,在过去的发展当中我们知道有摩尔定律催生微电子的快速发展,它通过预测进一步推动它的技术的变革。还有一个叫吉尔德定律,它讲主干网带宽每六个月增加一倍,而每比特的费用将趋于零。在计算 和存储方面,过去20年里计算 速度和存储容量由于微电子摩尔定律的发展CPU的性能提高了3500倍,但内存和硬盘的价格却下降了45000倍和360万倍,在这样的带宽逐渐的变得越来越廉价资源的时候,通讯的带宽远远的开始超过摩尔定律的时候单机进入了网络计算 ,离线进入了在线时代,这是非常非常大的变化。为什么有云,为什么有这样的大数据?当我们上网获取信息资源已经变得越来越成本的时候,而我们现在通讯带宽的发展还进一步超越摩尔定律的时候,就使得我们互联网的应用进入了第二次价值的挖掘。所以单机进入网络、离线进入在线使得我们终端方面的维护和系统维护开始进入一个新的时代,我们不需要服务方在哪里,只需要关注我们获取的服务和线上的资源。
由于互联网的应用,特别是WEB2.0,不仅从过去我们技术单项交流的方式开始进入了双向交流的时代,也进一步加速 了技术的发展和对互联网应用的新能力的创造,所以我们看到过去计算 模式是走过了三个典型的时代:第一就是从主机时代到网络计算时代,到现在没无论叫云计算时代也好,或者叫什么样的方式,我们全当把它叫做一个虚拟的网络计算环境的话,那么我们也是从封闭的可控的平台进入了开放和没有集中控制的这个网络环境,到最终未来的发展我们究竟在这种宽带不断发展、微电子价格不断下降我们资源获取 能力增强的时候就出现计算 模式新的变化,我理解这是由于计算模式由于带宽和成本的不断变化所导致的新的计算模式的变化。
过去,我们理解在八十年代出现了第一次计算机变化的话,那是由于PC时代的造成,也就是说软件第一次成为了商品,它开始通过购买 copyright作为一种看不见的产品、一种商品在市场上流行。到九十年代出现互联网有效规模的应用,成为信息获取和信息交换的平台。到第三次的时候是不是这种计算 模式正在推动我们进入了一个新的前所未有的从量的积累到质的变化的时代,我觉得我们都在拭目以待,但是对于任何一个IT领域的技术或者产品,时间的开放窗口并不长,比如PC、手机、互联网一旦 形成技术标准或者一定规模的时候,可能对于追随者就再也没有机会了或者只能处于它的旁观者。
这几年也出现很多非常热的也非常有效的一种方式,对云计算大家都很清楚,它对于我们在如此高速 互联网发展的过程当中,对提升高端计算 的利用率和应用性,提升低端计算 的事务处理的能力和服务的能力都会有重要的变化。所以也许这种计算模式会进一步来加深 我们对这方面的理解。第二类,也是由于交互行为技术的支持,社会网络或者社交网络也有了很大的变化,大家都很清楚,像facebook、人人网以及我们现在看到上网的规模都在不断的变化。这里面还有另一类,就是我们生产控制系统、嵌入式系统,传感器所传递的系统,给我们带来很多新的更重要的一类的应用模式。当然,科学计算永远是大数据产生的一个基础,但是不论从商业、工业、科学计算以及现在我们所说的社会计算,给我们带来互联网二次开发或者新的挑战在哪里?云计算作为一种计算模式正在引领我们实实在在发挥作用,云计算背后要处理在现实应用当中或者实际需求当中的问题,人们提出大数据也是其中一个选择。
对大数据有很多说法,外部从外显的特征来看简单的叫四V或者五V,从它的规模、变化频度、种类 和价值密度。百科也对大数据给出外在的定义,就是它的数据是很大的,但是现有的方法是处理不了的,所以对于大数据不能简单看它是一个数据,更重要的是它代表数据存量到质的变化过程当中我们如何来面对 ,它已经不是过去我们说数据量的考虑,它是发生这样一个规模质的变化以后给我们带来了新的问题。什么样的问题?就是我们传统所看到的数据,从静态进入动态,从简单的多维变成了巨量的维,而且它的种类是我们没有办法控制的。
在这样一些内容当中我们都知道很多具体的数据和实际的情况,但是IDC和JIMGRAY曾经创造过数据规律 ,每18个月翻一翻,如此大的数据不同于我们传统结构化的数据,所以给我们带来很多的问题,因此如何驾驭数据是指数据过度泛滥或者是数据不像我们商业数据所处理得那么容易。因此数据究竟是由于泛滥还是我们需要找到一种新的方式为人类所用。其实有些数据不处理也没有太大关系,没有特别多的价值,关键我们如何看待真实的有价值的数据,利用好这一批内容。
其实大数据的问题最早在2010年经济学人有一篇专辑datedeluge标题叫“数据泛滥洪灾”,它提到信息走到峰路时候有很多麻烦,这篇当中谈到关于数据经济的问题,也提出了新的问题,就是数据进入了一个新的经济的时代,过去科学研究当中也有从数据关联关系的发现和数据的统计特征找出了它新的价值,因此作为大量由于信息技术的发展创造很多人为的数据、非自然的数据,那么对这样一部分数据特别是和经济社会有关的数据可能给我们带来很多启示。但是同时也有很多对科学价值研究有很真重要的内容。
究竟大数据有多热的用?twitter日本海啸 地震信息提前传播,协助 紧急事件的处理。去年7月21号暴雨有900万条受灾分布发布,钓鱼岛4000万条民众情绪 信息。谷歌在2008年甲型流感 爆发几周前提前预测冬季流感 的传播。疾病中心只有确定他患了甲流症状以后才能把各类数据统计放到国家疾控中心,而这个时间从候诊、确认到上报一定是两三周,之所以谷歌能发现这个事情,它是通过在全国、全球用户行为和分析当中提前预测到。根据用户查询 自己的症状以及咨询完全是通过互联网挖掘社会可能面临什么样的问题。比如像阿里巴巴,曾经马云跟我讲,他提前有金融危机的预感,原因就是在他的电子商务实时交易当中的支付出现了大幅度下降,正常圣诞节提前就应该采单了,可是一直没有。还有百度,4亿用户分析提供个性化搜索 。
我们也知道,在西方当中利用微博,利用社交网络创造的很多新的价值,比如根据民众的情绪 或对某一支股票的影响,对冲基金可以根据对企业的分析来决定是否购买股票和支持,以及对上市的企业是否破产了,都可以对金融方面有所帮助。还可以根据你关注什么样的人判断你对另外一些人有什么样的兴趣,我们传统知道一个例子,把买婴儿的尿布奶粉和买香烟放在一起是一种方式,也有对应的商业策略是把婴儿的奶粉和香烟隔的距离要远一些,一种方式是顺手牵羊,另一种方式是留住他停留商场的时间刺激消费,这些方式都是通过对实际行为的判断和分析,在统计规律基础上做出来的。所以实际上在数据的经济社会发展的价值当中体现出我们如何对它进行归类、分析和有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据并能对它进行分析和处理,也许就是我们不断提高竞争能力的一个重要的内容。
那么对这方面,究竟大数据未来投资和发展的价值有多大?实际在去年的时候Gartner做了一个预测,他认为从云计算、从大数据的发展未来过程当中将有一个很重要的机会。当然,咨询、预测总是有风险的,从他的角度来看,2016年在全球大数据的发展当中将会出现新一轮的重大危机。同样,他还做了另一个分析,就是对当前大数据的投资领域来看,他给出当前已经超过大概30%左右和未来进一步投资领域的划分,列举了像教育、交通、医疗等等这些领域可能并且已经正在投入的一些行为。
我们从过去来看都知道互联网改变了我们的交流方式,越年轻的人越适应这种交流的习惯,发个邮件、微博、微信讨论一下,那么大数据是否改变我们经济社会的生活?我前面提到这样一些例子。有人讲,“有了百度和谷歌可以让我们熟悉用户的浏览行为,有了淘宝网和亚马逊我们可以了解用户购物的习惯,而有了微博这样一类内容对思维习惯和社会阶段性认识会有不同的反映”,这一个方面是在改变我们的生活,从另一个角度来说是不是大数据会改变我们科学研究的途径?
昨天李院士做了非常好的报告,过去从研究三种模式:理论研究、实践验证加仿真或者计算为主。那么现在就开始有人提出是不是有过去以计算 为主的到数据密集型的科学发现。昨天李院士特别提到实际人们在考虑一种新的方式,就是大数据是否成为人类在科学研究新的方式和新的途径,这种方式在今后的发展如果被利用起来的话也许我们思维方式会发生变化。那么会发生什么样的变化?我个人认为由于数据外部四个V的特征,使得我们现在大数据处理的研究手段、方法和观念上有变化。比如说数据量大,过去统计特征的方法不完全适用,因为它要均匀,就像我们说炒菜一样,我们炒菜的时候把容易炒熟、不容易炒熟的有优先次序,我们假定锅受热是均匀的,所以当你觉得一盘菜快熟了的时候你可能用尝一驰的办法,这就是采样的概念,它快熟了你就把它盛出来,除非你的经验非常长,看它的颜色就能判断是否熟了。所以在这样的方式就可以这样。第二个,我们过去从精确 到非精确 ,我的例子是当你买一双球鞋未必跑遍北京市所有的鞋店,我们需要的不是全部走过了以后才去做你的决定,而是根据你对目标和趋势的判断所下的这个结论。第三种就是我们从英国到关联关系,刚才讲的谷歌公司预测发生流感,可能它不知其所以然,但是把这种趋势和相关的可能性建立起来了,就像我们医生一样,配方 解决方案是一种方式,但是很多种是基于他的经验,未必完全知道同样的症状两个人要开不一样的药方。所以在这种背景下,大数据的思维模式可能发生变化,是否也会引导我们研究的变化,所以如何处理大数据就变成一个重要的问题。
从上面的讨论,我个人觉得从外显大数据四个V的特征可能就要有一个计算 模式的变化,究竟它会有什么影响?第一个,所谓的近似性,近似性就是传统的精确 处理不再适用,允许在解的一定范围区间内追求它的近似解,当你买一双鞋不会跑遍北京所有的鞋店,是根据你对目标的理解和趋势的判断。第二,增量性,数据是源源不断动态的变化,传统有一个封闭性的假设,所有数据到齐了再一起算,因此我们在大数据动态变化特征当中需要有增量性的计算 。昨天李院士提到过去的计算 是系统还原法,给定问题A,把A变成A1一直到AN,这代表A的解,现在完全变化了,处理问题的方式是要从归纳的方式,因为多数据之间的隐含关系很重要,就像我们的微博这里用音频,那边用视频,还有用文字,同样的内容的表达方式不同,而且跨越在不同区域甚至是完全没有关的区域,因此如何有效做归纳也是一个重要的问题。所以我讲,从大数据到大数据的计算,我们把外部的四个V的数据表象特征理解在计算 当中三个I的计算 属性,这是我对这个科学问题的基本认识。
为什么研究大数据从计算的角度来可能?因为计算 是计算 科学最本质的问题,比如我们实际做计算机的一直在解一个公式G=F(X ),我们看过去50年当中是什么状况?七十年代是单纯算法研究,七十年代之后发现了多项式时间算法,所以计算 不是所有的都能够解决问题,有一部分只有多项式可计算 ,八十年代发现随即算法,因为它能够加速 ,九十年代所谓的近似算法,因为找不到最好的最终结果,找最优解或次优解也变得重要。对这三个事情过去有十多个人获得了奖,但是这是研究F这个事情,现在X发生急剧变化了,是否会影响F和整个F(X),对软件和算法会不会有新的变化。所以我们说过去研究的问题计算机能够处理的都是可判定 的问题,也是可判定当中一类易解性问题。
但是现在一个情况,大数据下,我举一个小的例子,读取硬盘 最快的世界上用线性扫描 一个PB要1.9天,一个EB要5.28年,百度一天处理的网页数据有10个PB,一天有10PB的数据相当于我们有小3天的时间才能把它输入 进来。过去能集体的问题、易解的问题在数据规模大的情况下是不可解的。这样一个新的问题就出现了:过去50年的复杂性理论会遇到新的挑战,第二个问题是以前算法不能再近似,在这样的问题下同样出现了数据量、算法效率、结果的一个口。
过去研究当中有一个基本的情况,研究好算法,这张图一篇文章提到小数据下算法好坏有差别,当数据量增加1000倍时候数据算法好坏发生了掉损,所以简单应用的计算 更有价值,因此有很多的新问题出现,今天我就计算 的科学问题跟各位进行交流,第二个是可表示的问题,过去的方法有很多新的困难出现,第三个问题就是我们对操作的,过去我们计算模型应用比较多的是并行处理的,它是静态的、离线的、全量批处理,以前是计算 密集型,我们数据挖掘的处理是单一领域的数据,那么对于传统的数据库一直受关注很人,受益也很好,但是现在用不上了,所以hadoop(音)开始成长。现在问题是全量处理,但是作为增量性的问题当中它就不是唯一的了,也不是最好的。同样,三个I计算 的问题,可精确 性、增量性、归纳性仍然有很多问题,所以作为软件和系统有很多问题。第二大类问题是关于系统的设计,我们怎么去做数据挖掘和分析系统也是一类非常关键的内容,这是对于软件和未来大数据分析非常重要 内容,有很多处理的方式,对于软件微机的一些内容。
究竟在大数据云计算的背景下软件在数据服务和运行模式当中也会有新的机遇,这个机遇对我们的影响也是非常大的,未来数据的服务和软件的服务将会成为主要的软件设计和开发的模式,所以第二个问题涉及到软件的开发和维护的方式,第三个问题是关于可信与隐私。分析了曾经有一个X+1公司,他是个建筑师,在某洲,喜欢旅行,买了一辆二手车,有孩子。同时,也有在应用过程当中由于大数据算在云计算中心当中的内容发生事件导致系统崩溃,所以对用户的隐私是非常非常重要的。我个人认为不是简单的大数据是数据量的变化,从过去科学计算 、商业计算 到未来新的商业模式出现的时候,数据的理论、数据处理的方式都带来我们重新的认识和思考,这不是计算 科学单独 一家能解决的,可能需要经济学、社会科学和数据等其他领域的结合和发展。
我个人认为计算模式的变迁会成就 时代的智者,大数据不仅是产业,不仅是资源,同时它也是科学,这个领域也有未知的很多科技创新,还需要政策未来发展有效的支持,但是大数据和云计算我个人认为是有非常重要的值得我们关注的发展空间。谢谢各位。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者