主题:浪潮大数据一体机产品发布会

时间:2012年11月27日14:00-16:30

内容:

科技部高新司副司长杨咸武致辞

尊敬的各位领导、各位专家,新闻界的朋友们:大家下午好!今天我们非常高兴来出席浪潮集团云海大数据一体机的产品发布活动。首先我谨代表科技部高新司祝贺浪潮新产品的问世!相信这一创新科技成果将对我国大数据的应用和发展产生积极的推动作用。

当前全球已经全面进入信息时代,云计算、物联网等新兴IT技术的广泛应用,使得全球数据正以前所未有的速度在剧增,数据类型也变得越来越复杂。数据的深度分析和利用将对推动经济持续增长、提升企业的竞争力起到重要的作用。在这样的背景下,全球IT界的巨头们都已经开始了大数据时代的技术布局,IBM通过并购来扩充大数据方面的势力,Oracle也发布了大数据,谷歌等等都发布了大数据。

不仅如此世界各国政府也在为大数据进行相关的布局。三月份美国政府宣布投资2亿美元发展大数据研究和发展计划,希望增强海量数据挖掘,信息的分析萃取能力;5月份英国政府首批注资10万英镑,建立世界上第一个研究所;7月份日本重点关注大数据领域的研究,可以预见未来国家之间的经济竞争将是大数据引领的竞争,发展大数据不仅仅是国家的需求,也是国家战略需求。

我们看到目前国家已经有不少地方开始着手大数据的发展规划,总体而言我国的大数据产业才刚刚起步,中国要想占领大数据时代先机该必须发展大数据装备和相关软件产品,这是一个关乎市场主导权的问题,同时更是关乎国家战略的一件大事。

目前中国有一批IT企业已经在发展大数据开发应用方面取得了一定的成效,而作为大数据应用的另一类重要数据,中国行业数据还有待进一步挖掘和被利用,释放着所蕴藏着重要的价值,这对于提升我们的管理水平,提高服务质量都具有很重要的意义,因此我们期待有更多的我们国内的IT企业加入到大数据产业当中来来,共同推动这一产业的发展。

浪潮集团是中国领先的IT企业,一直坚持自主创新发展道路,对推动我们国家信息产业发展起到了积极作用。在我国云计算方兴未艾之时他们又推出了行业云的发展思路,并陆续推出了一系列自主创新的产品和装备,今天这一款大数据一体机的发布,将提供比较好的方案,并对中国行业云的发展起到积极的作用,我们希望能依次为开端,我们IT界的相关企业都能够顺应到数据发展的趋势,通过技术创新与应用相结合,引领我国大数据高新产业健康快速发展,最后预祝浪潮产品取得更好的表现,谢谢大家。

工业和信息化部软件司副司长陈英演讲

各位领导、女士们、先生们,媒体的朋友们大家下午好。首先请允许我代表工业和信息化部,软件服务业司对于浪潮研发大数据一体机表示祝贺!同时更希望以此为开端有更多的国内企业关心大数据产业,投身大数据产业,共同开创我国大数据产业的美好未来。有这样一组数据,截止到2011年底全球的数据产生量1.8万亿GB,未来十年强将增长50倍,其中90%以上是非结构化的数据,大数据所蕴含的价值正在逐步释放,金融、电信、公安、交通、医疗、企业等行业都曾此获益,数据被视为未来土地、人类、资金等并行国家战略资源。大数据背后是巨大的商业价值,大数据的挖掘利用对提升政府管理职能和企业的决策能力以及企业创新发展模式都将产生深远的影响。发展我国的大数据产业对于推动经济由粗放型向集约型发展,加速经济发展转型起到至关重要的作用。

在拥有13.4亿人口的中国,大数据产业潜力是巨大的,目前中国无论是网民数还是移动终端设备拥有数都占有第一,第三方机构预测,中国的大数据市场规模将会从2011年7760万美元增长到2016年6.17亿美元,未来五年符合增长率达到50%以上,毫无疑问中国大数据产业将成为全球大数据产业最重要的组成部分。

大数据作为新兴产业其产业链涉及数据的收集、处理、传播、存储到流通服务一系列信息技术,目前发达国家已经开始了大数据的战略部署,中国要抢占大数据应用的先机,必须探索适合我国发展大数据模式的产业,掌握自主的大数据技术与装备,依托自主创新,务实推广中国大数据产业的崛起。在探索中国大数据发展的路上,浪潮为国内IT企业树立了很好的榜样,作为教导进军大数据市场的企业,浪潮考虑到中国数据分析与管理人员的缺失,不同行业间应用及经营模式的不同,针对客户实际部署中的难题,创新型的推出大数据一体机,为行业用户轻松高效分析做出了作用,让大数据真正成为推动我国集约化发展的重要资源,最后希望浪潮集团能够继续发挥产业先导作用,坚持走中国特色科技路线,不断完善大数据技术体系和产品布局,抢占大数据这一未来战略制高点,为加快推动中国发展方式的转变,做出更大的贡献,预祝本次会议取得圆满成功,也预祝浪潮大数据一体机能够取得好的市场表现,谢谢大家!

浪潮集团高级副总裁王恩东致辞

尊敬的各位领导,各位来宾,媒体界的朋友们:大家下午好!首先我代表浪潮集团对大家在百忙之中来出席浪潮集团云海大数据一体机发布会活动表示热烈欢迎和衷心的感谢!大数据这个词其实并不新鲜,早在上世纪90年代业内就已经开始了围绕数据处理和挖掘的研究工作,尤其是在一些传统的,包括高性能计算这些领域里面,也有一些企业推出了一些解决方案和产品,然而大数据被广泛的提及和认知还是近几年的事情。

互联网、IT技术等带来了爆发式的增长。截止到2012年全球累计量达到了27亿TB,一个TB如果是一个硬盘的话,就是27亿的硬盘,如果刻成CD或者光盘摞起来超过了地球和月球的距离。政府能够创新社会管理模式,改善公众服务能力,大速度提高对于突发事件的判断和应对能力,因而数据将逐步与能源、粮食等一样成为国家的战略性资源,大数据技术将深刻影响人类的决策模式和社会经济的运行模式。

在我国以百度、淘宝等为互联网的企业,已经开始对大数据的挖掘和应用,但是发展大数据产业不仅应该关注互联网领域,更应该关注行业领域,行业客户的数据质量高、规模大,挖掘价值远高于互联网,行业才是中国大数据产业应用和发展的主体。行业大数据的应用不同于互联网,会面临许多新的技术挑战,行业数据观点性长,大数据应用复杂,跨度更大,跨部门,甚至跨行业需求更多,并且行业用户需求处理准确性,相应及时性也远高于互联网技术,互联网模糊数据难以满足精确数据的要求。

经历了二十几年各个行业已经具备了一些基础,金融、电信、工商、交通卫生等行业已经积累下大量的数据资产,这些数据价值密度高,经过浅度处理便可产生巨大的价值,与此同时在政府服务转型,转变发展方式的大背景下,各个行业、机构、迫切将数据转化为对外的数据,转化为业务的竞争力,因此大数据具有广泛的应用前景,推动大数据在行业中的应用是中国产业发展的关键。目前类型复杂,增长迅速数据累计的规模超出了传统的数据处理技术能够承受的范围。

当前处于新老架构更替期大数据面临技术流派众多,缺乏协调的局面,硬件、软件、整合性产品较少,导致客户存在许多的困难,而行业客户由于自身专业人才和技术的匮乏,缺乏大数据的应用经验,进一步限制了大数据的应用进程,用户迫切需要企业能够提供适应行业大数据应用特点的全新的处理技术,提供软硬件一体化整合性服务和产品,今天大数据已经逐渐发展成为一个极具潜力新兴产业,大数据产业有望解决中国经济挑战的重要手段,同时大数据要发展壮大必须掌握大数据的关键基础,为大数据的应用奠定基础。

浪潮集团此次发布的云海大数据一体机和相关的产品,正是顺应时代要求推出的,采用新型体系架构的软件一体化的产品,我们通过浪潮集团一体化的产品、服务,帮助用户快速实现对大数据的应用与开发,同时我们也希望以此为起点,增强产业链的应用,共同挖掘并充分释放中国大数据的潜能,将中国的大数据产业做大做强,谢谢大家。

浪潮集团系统软件总监、云计算产品研发部总经理张东致辞

各位领导和来宾,大家下午好。很高兴今天在这里能够有机会跟大家一起分享浪潮对于大数据的认识、理念以及浪潮大数据的解决之道。刚才在前面很多领导,包括视频里面都提到,我们现在已经进入了大数据的爆炸式增长的时代,实际上人类从出现开始就不断的在积累数据,但是在近些年随着我们很多新技术的出,比如说我们互联网的发展,特别是移动互联网的发展,中国现在有3.5亿的手机用户,这些用户每天都在网上产生大量的数据,比如说产生大概有2亿多条的微薄,上传了大量的照片、视频等等,这些数据都推动着我们互联网上的数据以一个爆炸式的方式来增长。

 另外这些年我们在物联网方面也取得了很大的发展,比如像北京这样个城市大概就有几十万个摄像头,每天产生的数据按现在的估计,两天就能产生我们过去03年一直到人类出现之前积累所有的数据量,在2012年新增数据量将达到2.7万亿GB,这个数据可能是几十亿块硬盘的量才能放得下,而且这个数据还在不断的增加,这些新的数据类型也越来越复杂,我们知道在以前的计算机系统里面处理的大部分都是结构化的。比如我们放在数据库里的数据,而随着我们很多多媒体手段的发展,我们每个人都可以在网上来提交自己的一些包括照片、视频,包括我们摄像头拍下来这些多媒体的资料,以及我们在网上写的文章的积累,现在非性和数据超过了80%,在未来这个比例会越来越大。人类已经积累了这么大的数据,从另外一个角度来讲,人类的发展也需要这些大数据来进行支撑。现在人类已经发展了几千年,取得了很大的成绩,在各个方面大家可能一些现代化的手段,我们已经从农业化、工业和走到了信息化,但是人类的发展模式也越来越受到一些挑战,也就是说我们的模式如何能够对地球更加的友好?我们有这么大的一个范围,我们的商业经济社会如何能够做到更加精细化?我们的社会管理,我们的政府如何能够给我们的老百姓提供更好的服务?那么这一切都要求我们整个模式从粗放化向精细化转变,这一些都是需要我们的数据来支撑。最终我们要做到从我们民生服务,能够从共性的定式的服务,对所有人服务都是一样的,慢慢转变到个性化的需求,对不同的人群,不同的个体能够提供他所需要的最及时的,主动的服务。在商业经济领域,我们也需要从原来的凭经验或者说凭一点点数据判断经济的走势,去判断大家需要什么样的商品?能够通过数据挖掘,我们能够发现人类整个的行为他中间体现出的一些规律,从而实现精准的营销,去判断未来商品的走向。在以前的管理,特别是政府的管理主要是静态的,他管人、管车、管建筑、管道路,但是这个社会实际上是“动”的。大家每天都在路上行动,每天可能要去商场购物,去到互联网上活动,也就是说人整个历程实际上是一条轨迹,而不是说静态的只是一个属性,这个人哪年出生等等,如何转化人和物的“静态”管理到“动态”的管理,特别是人和物关联管理,通过这个管理能够使我们对整个社会管理效率更高,比如我们人和车、财、物等等更加精细化,能够为大家提供更好的使这个社会更加有序?这一切都依赖于我们对庞大数据的分析。基于这个数据产生一些科学的决策。既然大数据已经产生,既然我们对大数据有这么大的需求,现在围绕着大数据的产业也逐步在形成,实际上数据挖掘从出现到现在也不是一两年的时间,但是现在围绕着数据挖掘,从数据的采集,数据的管理,数据的处理,到数据的分析决策,只是向大家呈现一种服务,这个链条在目前越来越清晰,也就是说围绕着数据新的角色,新的商业模式正在不断的形成,这一点可能是跟传统的数据挖掘很大的不同,而且对于新兴业者来讲,围绕着数据刚才讲了各个环节,我如何去提供信息技术?去把这些用户的需求落实到我们计算机里面?产生了一系列各种各样技术的提供商,在信息化领域也形成了新的业务模式。

那么大数据对我们来讲到底意味着什么样的机遇或者说对我们整个信息产业都有什么样的挑战?看几个案例:首先第一个是交通,交通应该说是每一个城市管理者都要面临一个非常重大的问题,特别是像在北京、上海这样超大型城市,堵车是一个家常便饭,大家估计每天都会受到堵车的困扰,在传统管理模式下,大家知道北京有限购、限行,不让你买车,隔几天就不让你走,但是这些手段实际上缓解我们交通的效果大家也都看见了,其实车数量总是在不断增长,它一种新的测试出来在很短的时间内就会被抵消的,如何利用我们已经积累的大数据,实际上在交通领域我们的数据量现在已经非常庞大了,在北京市大概有50万个摄像头,包括各种摄像头,在路上专门针对路口的摄像头也有几万个,这些摄像头每天都能产生3个PD以上的量。另外在北京有公交一卡通,很多人都在用,每天大概在北京市产生4千万条的刷卡记录,包括公交车和地铁,这些刷卡记录标识了每一个人每一天从哪个地方上车到哪个地方下车的。包括现在出行的信息,这些都归我们更好解决交通问题提供了非常好的基础。比如说我们一个合理化的交通路径的规划,比如说我今天要去济南出差,从上地出门,我出门之前按现在的模式看看上GPS哪条路最短,哪条路最快,我还可以查实时的路矿,现在哪个路口是堵的,但是它很难预测这条路上我将要遇到什么?因为我从上地到南站可能需要一个小时,在这一个小时的时候,是不是这个路上某一个小学要放学了,马上门口集了很多家长 ,或者一个商场搞促销突然拥了一堆人,这种实时的情况除了我们综合交通的数据,我们以前习惯性的数据,还有包括我们在其他行业里面商业行为,我们去挖掘网上每一个人的习惯,是不是今天突然有一堆人说我要到某某地方聚会,都会聚到那个地方去,通过这些数据更好的给我出门规划一个路径,使我能够快速的到达这个目的地,如果每一个人都能够按照有序的方式出行的话,整个社会管理就会达到非常合理的一个水平。

 此外通过这些数据,我们也可以给我们的交通规划,  比如说我们现在已经知道了每天每个车,每个人从哪儿去哪儿,我的路的维修,我的公共交通怎么设置等等,可以由一个更好的决策,这个模型里面实际上就要求我们现在的数据,除了交通意外,也包括气象等等,我们历史数据进行挖掘,筹划成交通成流量服务,推送给我们用户,给我们决策者,以及管理者来使用。第二个例子是商业数据的挖掘,应该说商业智能是数据挖掘的产业,但是传统的商业智能他所挖掘的数据往往就商业来挖掘商业数据,比如零售业他挖掘的就是我以前在这个超市里面卖东西的情况,可能大家经常听的是啤酒和尿布放在一起,他的价值整个产生了一个非常好的效果,但是现在我们大数据时代积累了更多的数据,实际上商业行为是什么?商业行为实际上就是对人一个行为和预测,来调查你需要做什么?我给你什么,或者说了解大家的需求是什么?这种流行趋势会变成什么样子?比如说我们根据大家最近上传的照片发现传某一种衣服的人可能呈一个上升趋势,我们就会预测这一季会流行某种颜色,通过这样一些数据,我们去把这里面蕴含的商业信息,包括这里面人的收入结构,人的性别结构,职业结构,包括人和人之间的关系,把它抽取出来,通过我们的数据挖掘,从而形成对商业、对经济的一个判断,这是商业数据挖掘的一个例子。

我们再来看一看大数据是如何改变我们未来医疗的?医疗的目的就是让大家能够活得更长一点,活得更好一点,大家少生病,说进医院,生了病也能马上治好。但是我们看一下现在的状况,很多人对于去医院看病难深有感触,看病还有一个你多了大夫面前,估计大夫大概给你三到五分钟的时间,甚至说不上十句话就把你打发走,而人体是很复杂的事情,我们在这里列了坐标,还有八个因素,这是影响你健康的八个因素,你的遗传情况,你职业是什么,是轻体劳动者还是重体劳动者,你平时喜欢吃肉还是吃菜等等很多因素,实际上大夫没有时间帮你考虑问题,为什么?患者太多,大夫太少。我们如果利用大数据通过我们对既往一些健康信息的分析,那么我们就可以把这些因素和人的健康状况,甚至你未来的健康走向给做一个很好的理合,将这些数据挖掘出来给你的大夫,比如以后每个人就会有家庭医生,你的家庭医生就根据这些判断你未来什么状况?就可以针对性的提一些建议,比如你该吃什么药?该怎么防病?有了病以后该怎么治?这就是个性化的医疗,针对每一个人提供个性化的医疗。这里面同样要处理的数据来源也非常广泛,除了我们医疗数据,我们的电子病历,还包括其他很多东西,大家想去医院你也不会给大夫提供你的职业、你的行为等等,这些数据实际上也通过其他渠道把它收集起来,我们把各个环节的数据放在一起来共同建一个模型,疾病的模型,你健康状况的模型,从而来给你个人提供一些专业化的指导。

 既然大数据有这么多的好处,我们很多行业可能也想,哎,很好!我们现在有了很多数据,我是不是可以马上拿来处理,或者我们很多用户为什么还徘徊在大数据的门口,我们现在给大家总结了一下,其实这里面还是面临了很多的挑战,也就是说现在的大数据的处理技术有好多地方还是无法完全满足我们的大数据处理,首先第一个挑战是规模带来的问题,我们在这里总结了一下是讲,现有的IT的基础设施实际上很难支撑你持续扩展的这个规模,规模本身它可能不是特别大的问题,我只要有足够的硬盘可能就把这个数据放下来,但是我要做处理,我要把这些数据使用某一种技术处理起来,现有的所有技术,其实都是有局限的,我们在这里面举了几个例子,Oracle RAc最大支持100个节点,包括我们现在在用的很多分布式这样一些技术,像HADOOP集群最大规模,可达4000个节点,这里面实际上随着规模的增长,这个系统里面总会遇到各种各样的问题,比如系统里面单点能力不强的问题,比如HADOOP,这个点的能力决定了你的规模。第二个问题就是鼓掌的存在,分布式系统它要处理相当大的一个问题,就是我如何在大规模情况下我还能够实现一个可运行,假如说所有的硬件从来都不出毛病,这个问题可能很好解决。但实际上硬件不出毛病的情况是不存在的,一般其中一个硬件出现一个鼓掌,马上引起整个系统做恢复,要增加很多计算量,就使你的规模再扩下去就没有意义。另外还有重要的一点,就是规模扩展下去也是跟点跟点之间的网络带宽是有关系的,也就是说网络随着规模的扩展它流量增加是指数级的。

第二点我们数据处理多类型和多维度带来的问题,我们这里划了数据处理的过程,不管你原来结构化的,半结构化的,非结构化的,实际上你最后走到数据挖掘的那一步,你都需要把数据精细划分,并且能够形成准结构化的步骤,这个基础上你再来建模型,进行数据关联性的分析,最后只是把这个数据战展现出来,让大家一看一目了然,这里面可能存在几种问题,第一所有环节是很多的,而且每一个环节对于数据,对于软件和硬件,对于IT基础设施的要求是不一样的,比如说我们要从非结构化数据里面挖掘出信息,你要从照片里面去做挖掘,你第一步还要挖掘,我要看的是大家传什么衣服,你还要判断这里面是年轻,是老的,最后是衣服的颜色是什么,这里面每一张照片可能完全不一样,但是到后面再做数据模型的时候,你的关联度就会急剧上升,你的任务就没法做得非常非常细碎,这里面实际上用某一个单一的软硬件这样的体系,其实是无法处理我们在数据挖掘里面的所有类型,所有应用,这是其一。其二我们刚才讲了整个的过程,实际上仍然很复杂的,特别是在行业用户里面我们不能指望每一个行业用户都是IT方面的专家,他不可能像搞计算机的人一样,把环节里面所有东西全部搞定,这里面他就需要一个一体化的解决方案,把数据收集,从归类,到挖掘,到展现全部解决掉,最后只是形成一种服务,形成应用,这是第二个挑战。第三个就是在成本上面,这里面我们列了两个数字,虽然现在存储越来越频,存数据非常便宜,但是处理数据成本仍然还是比较高,特别采用传统的方法,比如我们用数据仓库这样的技术,可能你花几千万搭一个数据仓库,他能够处理数据规模不过是TB级的,平均下来每个TB甚至有十万的成本在里面,而现在我们要处理大数据的量是相当大的,几十T,甚至上P都是很正常的,如果按照前面成本一个P大概100亿的成本,这个是对很多用户无法接受的,这种情况下我们如何寻找低成本的方案,这个方案就能够帮助我们更多用户采用大数据的处理技术,把它的数据进行处理。

最后一个台站就是大数据的响应速度问题,实际上现在大家用的比较多的大规模处理数据就是分布式的,比如说像Hadoop—MapReduce这样的技术。

我们总结一下面对这么多的一个挑战,实际上靠一个单一的方案是很难解决问题的,这里面你要去保障IT基础设施扩展性,你单凭规模是解决不了问题的,我们还是需要在硬件软件方面我们能提升单节点的能够,也就是说在横向扩展的同时要实现纵向扩展,同时在网络和存储方面进行优化,提高你的带宽和各个节点之间耦合度。在数据处理方面提供不同的解决方案,性价比方面提供更便宜,更易用的解决方案,最后提供一个及时响应的数据解决方案。针对我们前面提出的这些挑战,我们也对当前数据处理特点进行分析,最后得出大数据处理需要定制化、专业化的设备,我们在这里从四个纬度对数据进行了一个分析,比如说我们数据按照数据更新的模式,响应速度,模式复杂度,以及数据总量画了一个图,比如说从数据更新模式来讲,有这种事务性的,也就是说我做交易,我每做一笔交易会去里面改一个东西,比如我买了一个数据,这个数据里面就要减一,同时也有追加型的,他会在后面把数据给你添加下来,比如你的记录也会只会往上加的;在数据的模式复杂度方面,这是结构化和非结构化,也就是说你组织非常好的数据和里面像图片、视频这样组织很松散的数据,这里面往往结构化的数据它的蕴含的价值可能更高一点,非结构和的数据,比如一个照片你要从里面挖掘价值,可能你需要很多照片才能挖掘出来,包括数据的量,从TB级到EB级,针对不同的数据特性我们在上面划了三个圈,这三个圈分别代表了不同应用的类型,我们最核心的还是在线的交易,比如银行的交易,比如在电子商务里面的交易,甚至在其他行业应用里面一些,像医疗里面的一些交易,这些交易的特点就是数据量相对来讲是比较小的,但是交互的要求高,那么它还是一个传统的关系性数据库,如何在传统的数据应用里面我们通过硬件的优化来更好支撑它这个应用,我们中间这个圈可能是典型的数据挖掘,数据搜索,最外面可能是更大的一些数据,我们图片的处理,我们图像的处理,这里面我们就可以加速器做这样一些数据。既然面临这样的挑战,我们如何帮助我们的用户挖掘数据,体现价值,在这里面就需要一个“梯子”,这就是浪潮大数据解决之道,专业化定,高敏捷,高度可伸缩等等大数据一体机的解决方案。

大数据解决之道,浪潮针对前面所提出的,软硬件一体的创新数据处理平台,针对不同的应用来推出不同的系列化的产品,并且辅助于我们专业化研发和支持团队,提供全国产的自主可控方案。

这是我们大数据一体机的体系结构,从硬件到软件我们将把它融合在一个体系里面,在这里面针对不同的应用,涉及不同的计算来源,采用统一的存储单元,在下面针对不同的应用,采用不同的数据处理的架构来支撑用户的应用。在硬件方面第一个是计算节点,在计算节点方面我们针对不同应用的特点,比如说你是做视频数据的挖掘,或者说在线交易这样的交易,他们对于计算量要求是很大的,对于数据的耦合度可能要求会比较高一点,在这里面我们就采用重载节点,重载节点就是CPU多,内存多,这里面还可以增加专用的加速芯片,比如说GPU,我们把一些视频加减密算法加进来,第二类通用数据单元,追求的是计算,存储和IO;最后我们采用轻量计算单元快速响应用户需求。存储方面采用整体一体解决方案,也就是说对于不同的应用,不同的类型,大家在这里面看到的存储实际上是一个统一试图,那就可以实现全局的算法,降低冗余率,因为采用分布式存储里面,实际上数据相互交换是影响速度的,如何提高这里面的速度也是我们重点解决的问题。刚才在前面讲过了,实际上分布式是在大规模数据处理里面不可避免应用的技术,但是分布情况下我们采用全新的网络互相,使它点和点跟你在一个系统内部能够达到不会相差很大数量级这样一个级别,这里面浪潮设计了全新大数据高速互联芯片,以及高速互联TOP网络,这里面我们计算节点、存储节点都会大大提高效率。

新型数据处理架构,第一个是数据本地化(计算随数据分布),我如果减少传输数据规模,就可以整体提高数据的速度。第二个方面就是业务的连续性保证,刚才讲了数据规模的扩大面对相当大的问题就是如何强一直情况下还能保证系统的可用性,如果可用性得不到保障的话,你整个服务实际上是无法继续的。新兴体系下我们采用了多复本的方法,这样使整个系统可用性不至于下降,那整个响应速度还可以保持住。采用这种新型的处理架构,大概三到四千个计算单元重载节点情况下,还能够实现相对比较好新的增长。性能优化方面也采用了很多措施,一个是硬件方面,就是充分发挥我们现在一些新型存储节制的作用,比如闪存盘的技术,闪存盘访问速度比较快一点,实际上读速度要比写速度快,他对写的速度是有限制的,作这里我们就将闪存盘放在我们整个计算缓存里面,做高速缓存,高速缓存特点就是读字多,写的少,同时利用了闪存盘的优点,减少了闪存盘的缺点。性能优化第二个方面是采用Reed—Solomon算法优化分布式散列数据布局,满足文件高并发和高宽带双量需求同时平衡数据冗余度。最后一个性能优化,针对我们在分布式计算里面一些算法优化,分布式计算大家研究的很多,在互联网行业,在各个行业用的非常多的一个技术,但是在互联网行业里面,它可能对于任务这种一致性,对任务要求快慢并不是很高,比如搜索发出去一万个结果,可能回来是九千个,丢掉一千是无所谓的,但是行业应用是不一样的,我们所有的结果都需要全部返回回来,这里面优化系统任务调度策略,对任务实现针对监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能。

作为浪潮提供的一体机这样一个产品,它另外一个特点就是我们实现全环节覆盖,前面我们讲过了,数据分析涵盖了前面采集到把数据存尽量,你要进行处理,最后还要进行分析、之至展现储量,这里面融合了硬件到软件的一系列的手段,所有环节都涵盖在一体机里面,为用户解决整体方案,你用这个一体机就可以从前到后全部都解决了,我们把一体机在我们工厂里面预装好到客户现场,插上网线,插上电就可以用,这是单台机器。大数据我们开发了一系列的产品,大家在外展区摆了很多系列产品,分别对应不同的要求,一主要针对重载应用,包括两大类,一类是数据量处理特别大,第二类是在线交易,我们刚才讲了耦合度很高的,这里面用大CPU,大内存,甚至加速来源,第二类就是通用市场上这种数据的挖掘,我们通常意义上的数据挖掘;第三类面前海量平发数据,最后还有一类是面向高安全、高可靠要求这样一些系统,我们还有国产化,国产CPU这样应用,这是我们到SDA—1到SDA—4,从单机柜上面讲通常可以支持300T到400T的应用。

最后浪潮作为一个整体的IT解决方案的提供商,还可以针对我们用户在整个数据处理环节里面整个过程提供一个全方位的专业化的服务,从你做需求开始,从选型,我们帮你选择你的软硬件架构,去选择你未来数据挖掘要用到的一些地方,提供开发方面的支持,帮你把程序从原有的模式移植到大数据处理模式下,帮你调优,之至最后的服务,整体一条龙的服务。

最后看一下大数据案例,这是银行系统的案例,银行系统作为商业一个金融机构,它对数据挖掘要求比较高,但是他现在面临很大的问题,一个问题就是数据量,数据量大对他来讲意味着两个方面,一个是说他现有的架构再扩展下去难度也比较大,虽然很多数据仓库号称能扩展很大。第二再这么扩展下去,数据仓库都是很贵的,他的成本也支撑不了。第三个他们希望开放式架构,因此他们就选择了一系列的大数据除了的解决方案来进行测试,我们在这里面提供解决方案是SDA—2机,这里面选择了四个测试用力的一个例子,在这里面跟他原有数据仓库,以及其他厂商测试的结构进行了对比,我们把所有的数据都转化为比例,就是说原有方案为一,剩下的性能一个比例,在这个里面的例子涵盖了各个方面,比如说卡档入库测试,  比如说个人账号汇划测试等等这样一些测试,在这里面浪潮大数据处理解决方案比他传统的方案优势是很明显的,最差也会扩展到十几倍,最好能够达到几百倍,同时我们跟其他厂商大数据一些处理方案比较里面,基本上处于比较领先的一个地位。

今天在前面给大家介绍了浪潮对于大数据的一些认识,我们认为大数据的时代现在已经来临了,那么大数据其实现在已经逐步成为战略资源,将成为社会发展重要的推动力,而在我们所关注的行业应用里面,实际上他对大数据的需求是非常大的,但是单一的一个解决方案或者说它现在面临的这些问题不是靠某一个或者某一个现有的技术能够帮他解决的,那么浪潮大数据一体机秉承着一系列化、一体化、国产化这样一个罹难,通过创新的体系结构,通过软硬件结合这样一个方式来为我们的用户提供了一个全环节的大数据解决之道,最后我们也希望通过我们的专业化的产品和服务,能够帮助我们的用户在大数据时代实现更大的价值,能够一直保持领先,谢谢大家。

济南公安局信通处处长张强

各位领导、各位来宾:很高兴参加浪潮集团大数据一体机的新闻发布会,祝贺我们济南公安云的战略合作伙伴浪潮集团在现在日益复杂的社会治安形势下,实时推出大数据的处理设备。作为大数据应用的单位,我们就公安信息化的建设应用和发展,从这个角度谈一谈公安行业对大数据的应用以及需求和一些感受!

云计算、物联网和移动互联快速发展给人们生活带来很多便利,也为企业的发展带来无限的契机,但是从社会、公共安全服务角度讲,这些新技术的发展,同时也为各类犯罪带来了便利,技术的进步,社会的发展,同时也意味着治安形式变得越来越复杂,公安信息化的发展一向也是同社会公共服务的提升同步发展,当前社会违法犯罪分子技术信息技术跑得快,藏得深,更容易造成大范围危害和影响,不能有效的利用先进的设备和工具等技术手段,公安工作就无法应对当前高科技犯罪行为,无法为人民安居乐业和为社会经济健康发展保驾护航!针对互联网信息、生物特征信息,图片、语音等大数据处理分析,也是当前公安信息化建设的重点和难点,不断加大包括公安内部的信息数据,社会资源和互联网资源这个信息的整合与处理,和数据的深度挖掘,是公安信息化发展的一个不变的方向。

目前传统的信息化建设模式已经无法面对新的社会形势,在这个新的形式下,济南市公安局领导班子,审时度势,把握机遇,超前谋划,在今年初召开的全市公安领导干部会议上就明确提出要利用物联网,云计算等新技术,破解信息警务的难题,实现公安战斗力的新突破。济南市公安局与浪潮集团共同合作,在全国率先建成了第一个正式投入使用的“警务云计算中心”,通过第一阶段的建设,已经整合各类公安应用154个,内联网、各类数据224类,30多亿条有效的支撑了公安打防管控的工作,得到了部省两级领导的充分肯定。

第二阶段我们任务主要是大数据的处理,利用对大数据的分析、挖掘,实现对人像,指纹比对,卡口等数据融合处理,从而为领导指挥决策,各情报分析提供支撑,目前我们已经部署各警种开展实际的应用,在实际工作中我们发现对数据的集中处理,海量数据的存储查询,异构数据的融合处理,和实施响应分析和需求,给IT的基础设施也提出了严峻的挑战!浪潮云海大数据一体机是应对信息社会大数据时代核心的技术装备,它标志着国产自由品牌在大数据处理方面已经达到了国际领先水平,可以想像随着平安城市建设不断深入推进,大数据一体机这样的数据处理平台也将起到关键的作用,所以也非常感谢浪潮集团能够为中国社会各部门来提供时时先进的装备,同时也祝贺浪潮集团在得主信息技术方面取得长足的发展和卓越的成绩,谢谢大家!

赛迪顾问股份有限公司副总裁总裁孙会峰

尊敬的王恩东副总裁,尊敬的各位领导、各位嘉宾,以及媒体界的朋友们:今天非常高兴有机会和大家一起分享我们在于大数据,在于这个领域里面一些新的研究的成果和一些认识。今天和大家交流的内容主要分为三个部分:就是关于大数据概念的一些认识,虽然刚才我们张东总裁讲到了,让我们再从分析机构角度来看一下全社会整个数据的增量和它发展的一些趋势;第二个方面我们想谈一谈大数据一些应用的行业和它服务的形态;第三部分是对未来趋势一些判断和我们认为在未来这样一个需求的市场上,大家应该是怎么样来做?

首先,我们看一下在过去几年里面大家都能深刻感受到我们所生产或者是传播这些数据和信息的载体不断的在增多,不断的在丰富,比如说我们有了PC,有了手机,有了车载的一些设备,还有了一些新的监控设备等等,那么这些载体一方面它作为信息生产的工具或者信息的来源,另一方面也作为信息传播的一个重要的载体,那么这一些终端载体的不断丰富和数量的增加,给我们整个数据的增长,极大的带动了这样一个数据的增长。

我们来看一下过去几年里面,目前全球联网主机这样一个变化的数字,大家可以看到在07年之前,全球人均联网设备大致是10个人有  1台联网设备,2010年将近有5台设备,我想在座的各位大家都有三台,一台手机,一台PC或者是笔记本,未来几年依然会呈现爆炸式增长,比如我们城市设备,监控的设备,包括目前物联网做的传感的设备,这些都是信息的一些来源,会出现一个比较快速增长这样一个态势。我们也预计在2020年整个联网设备人均会达到70个,如果按照我们去年全球人口数据70亿来算的话,大家可以算一算我们整个设备量是有多大?就接近5千亿个。我们看一看这些设备到底都产生了什么样的数据?假如说我们就从互联网上一分钟产生什么数据的类型,大家看一下苹果应用上4.7万上发生下载,我们可以看到像twitter8.3亿美元销售数据,对于数据量它的增长这样一个趋势判断,我们也做了一下评估,我们从全球整个数据量增长可以看到到2012年时候可以达到2.7个ZB,这里面非结构化的数据会占到绝大多数,一般判断80%到90%这样一个范畴,而且还有一个共识,就是对于非结构化数据增长的速度是要远远高过结构化数据增长的速度,但是同时我们也面临着这样一个大量数据,庞杂的数据,数据之间关联性,它的价值稀缺性怎么样来进一步的挖掘?怎么样进一步利用?怎么样价值化,用什么样的商业模式能够推动这些大数据产业应用和发展?这是数据量的评估,我们可以看到目前数据主要来源有三个部分,一个就是交易类的数据,大家在零售,在一些电子商务领域都可以感觉到;因为在“双十一”大家都购买过网上商城产生交易的数据,第二交互的数据,比如社交网站交互的数据,第三类是传感的数据,我们对于数据采集,传输,一些处理,最主要的信息或者数据来源来自于这三个部分。所谓大数据或者叫大数据的产业我们认为大数据就是对这一多样化海量数据进行快速的处理和分析,获得商业价值理念和技术服务,我们今天看到浪潮集团推出大数据一体机的概念,其实也是符合现在应用这种新的产品和服务,这是第一点。

第二点关于整个大数据的概念,大家都谈到海量化的数据,包括我们专家观点都可以看到,第二个就是多样化、结构化的,非结构化的,文本的,图象的等等。第三个就是快速化,我们对数据产生以及数据处理时时性要求非常高的,如果数据处理超过了一个小时,可能就丧失了商业价值,所以它是快速的,而且是价值量非常高的,那么我们怎么样有效的找到数据之间的关联性,挖掘出来他们找到新的商业模式,找到他的新的价值,这是我们需要做的,因此我们说大数据应该具备海量化、多样化、快速化和价值化的这儿基本的一些特征。同样在今年5月份联合国发布了一个大数据促进发展这样一个机遇挑战的文件,这个文件里面就列到了很多大数据的一些商业价值的一些表述,比如说有这样一些预测,每年大数据产业可为美国健康产业带来3000亿美金商业价值,假如说我们有一家做保健或者卫生这样一个厂商,了解到各位身体体征信息以后就可以做针对性广告推荐,包括个人保健这样一种解决方案一些设计,因此我们可以看到这样的数据可以衍生的商业价值,比如说基于位置服务可以产生6000亿美金的商业价值,如果在北京“首堵的城市”如果有这样的解决方案也会受到出行人的欢迎的,这是属于大数据概念和商业价值。

应用角度上来看,信息产业在整个“十二五”规划里面,包括今年出台战略信息产业规划里面,都提出了信息产业作为非常重要的产业门类,因为这样一个产业不仅它自身产业规模巨大,而且这个产业对于其他产业辐射和带动以及它的效用非常明显,我们也看到在重要国家文件里面都提到对于海量存储设备,包括技术研发,包括高性能服务器,海量存储,技能终端等等设备的重视,国家对这个产业的扶持也会有一些专项的资金,科研的项目,也包括一些行业示范化一些应用来推动这样一些产品和应用的发展。第二点我们可以看到对于产业来讲大数据更多强调产业的融合应用新兴的液态,我们无论之前谈到的云计算、物联网和移动互联网等等,它是一种产业新兴的性,我们所讲的数据的形态它更多的是一种商业的价值的一些内容,它要依附于我们原有的一些技术一些解决方案,包括新兴的液态,因此我们也觉得大数据这样一个产业可以作为新技术融合应用一个新的焦点,第二点也是推动我们应用发展包括应用新的增长点,大家都意识到数据量非常巨大,而且他在很快的不断的极具,第二个方面如何找到新的商业价值推动产业可持续发展,这里面我们都需要新的产品和技术来提供给支持。比如说基于芯片、存储、内存计算,包括一些数据挖掘,商业分析等等,这一些不断的推动我们技术的进步。

第三点也是我们行业用户提高自己竞争力一个新的手段或者动力,我们如何通过行业用户积累的这些数据,这些历史的数据或者现有的数据挖掘他的新的价值,作为政府来说可以提供更加人性化的浮文或者及时的服务,作为商家来说,我们可以不断的做精准的营销,挖掘客户的需求或者是开拓新的市场都是完全可行的。第二个从市场层面来看,我们看到很多的行业都在使用,刚才我们来自公安这位领导也谈到,在公安行业的一些应用,我们看到无论在零售、互联网领域或者电信领域,以及在金融服务领域、交通、政府等各个行业里面目前都有一些对于数据处理和深度挖掘和分析的一些使用。当然它的诉求是不一样的,比如说在零售行业大家更多的关注消费者的消费行为,以及对于消费这种体验,包括一些物流的分析等等。互联网领域大家更大关注的是怎么样来提高客户的黏性,提高客户的体验,客户来浏览网页的时候我做什么内容,做什么精准广告的投放等等,所以每个行业都在基于原有数据做挖掘和分析,找到他背后对于这个市场或者说潜在客户的影响力。因此我们讲大数据这样一个产业对于整个产业来说发挥很大的作用。

那对于我们行业企业来讲有什么样的作用?我们认为体现在两个方面,一个就是数据的资产化,大家都知道我们原来所有信息中心,数据中心等等更多的作为一个成本的中心来支持,来服务于我们整个集团和企业来使用,如果有一天我们把历史所有的数据进行了非常充分的整理、挖掘、存储和再价值化以后,我们可以为我们企业的决策者,我们组织的决策者提供新的建议和新的业务发展方向,我们完全有一个成本中心有可能转化成新的利润中心,那么我们也可以(我已经看到有一些大的企业)把信息服务作为集团内部核算的这样一个东西。第二点就是决策智能化,我们通过应用模式之间的转使我们更多掌握企业,掌握市场,掌握产品,掌握客户,掌握我们合作伙伴整个这样一个动态信息为企业的决策者来提供决策支持,使他决策更为理性,更伪科学,更为符合市场实际,因此我们认为企业战略慢慢向业务趋同,我们做什么业务该根据市场情况,专项与数据系统,那么我每一个决策都来自于对数据定量的一些分析和判断。这些对于企业的发展或决策来讲会发生很大的一些变化。

我们也有几个例子,比如我们谈到阿里巴巴是根据淘宝网上中小企业交易的情况,根据你交易诚信程度和交易品次来决定给你发放无抵押的贷款,这是有风险的,要做无抵押贷款是很难的,但是淘宝是可以做的,根据你交易的记录。第二个例子我们看到比如奥巴马竞选的团队,他就根据选民在微薄上情绪的表现和他们关注的话题,然后组织自己竞选团队针对性和他们进行沟通,比如说有些选民比较关注医疗或者教育的问题,那么他们就可以组织自己的团队就医疗和教育关心的问题和这个选民做单独的邮件沟通,以奥巴马的名义来做,那就很快的打动这些选民,所以我们看到所谓奥巴马的胜利背后是由我们大数据的技术和团队来作为支撑的。

谈了这么多我们可以看到,在大数据方面也面临一些挑战,比如说对于数据的管理,数据的存储,也包括数据计算的方式,也包括深度挖掘,如何去攫取这些数据,特别对于一些非结构化的数据,比如说我们现在的公安系统如果要找到某一个犯罪嫌疑人的话,我们察看视频监控,目前找了很多人来看,如果我们有这样技术的手段,能不能对现有所有的这种视频监控的录象再分配,在每一页上做不同的标签,如果这个摄像头所摄取的图像在半小时之内没有人活动的范围,大数据自动把片断自动截取,这样可以方便我们查找,当然大数据应用还处于起步期,比如说数据的安全,哪些数据可以共享,这些都是需要解决的一些问题。这是对于大数据应用和服务的一点认识。

第三个部分是我们对于未来趋势的一些判断,整个市场趋势我们认为处于一个快速起步的这样一个阶段,2011年时候整个投入,我们国内整个市场投入在3.2个亿左右,而且未来会保持比较快速的增长,在2010年可能会突破百亿的一个量级,这里面我们可以同样看到重点行业投入在不断的增加,这里面包括互联网、包括金融,也包括我们政府,这些行业包括电信,这些行业投入超过了50%,同样我们看到像医疗、卫生、零售等等这些行业投入也在增加,大家都在去寻找数据背后新的商机。第二个问题就是在区域演进上,因为数据分析要找到有数据之间的价值,一定要有数据的来源,从目前来看整个数据的积聚还是我们经济比较发达的地方,或者有企业,或者有社会的组织或者管理的机构,或者纯商业的机构,或者新兴经济比较发达的这些地方,看到长三角、珠三角包括环渤海地区依然是在大数据领域创新比较活跃的,研发的投入,产品的创新等等都是非常竞争很激烈,而且投入不断增加,但同样我们也看到像西部地区也有一些新的发展的方式,最近比如我在西安就了解到,比如西安是把国家的人口信息库落户在西安,而且我们看到国家林业局一些林业的数据也移到了西安,可以看到这些地方也在利用行业数据的积聚需要通过产业的一些发展。总体上来看这样一个区域的格局其实在不断的集聚,不断的强化,未来一定会形成强者愈强,弱者愈弱。

我们也有建议,对于政府要比较前瞻性研究这个行业,研究这个产业,而且这个数据集聚量达到一定量的时候会影响到我们国家的经济安全,甚至国防安全,制定什么样的政策确保我们信息安全。第二对于我们这些企业来讲要深刻理解客户的需求,能不能找到整体性的解决方案,比如我们刚才看到济南公安这样一个例子,其实就是我们浪潮比较深入这种战略的合作,了解到客户需求关键点和信息点,我们拿出了有竞争力这种解决方案,对于行业用户来讲我觉得可以利用新的技术和数据集中的平,不断集聚这样一个行业或者这样一个产业,比如我们最跟接触到国家国药集团,做全国药品零售和批发,它手里掌握了医药大量流通的信息,未来这样一个医药行业数据的集中和对于新的商业模式一些数据开发和利用都是非常有价值的。第二个就是推动企业内部数据产业发展,以上就是对于技术创新的理解和应用,今天就汇报到这里,谢谢各位。