扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网服务器频道 06月06日 大会报道: 以“大数据大带宽推动云计算应用与创新”为主题的第五届中国云计算大会今天在国家会议中心召开。为期三天的大会(6月5日-6月7日)中有来自业界众多的云计算从业人员。会上,浪潮集团系统软件总监、云计算产品部总经理张东发表了以“大数据时代:挑战与解决之道”为主题的演讲,以下为演讲内容。
今天我们的主题是云计算大会,今年主题是“大数据大大应用推动云计算的”,大数据的出现并不比云计算的这个概念晚多少,浪潮 在这之前提出了一个行业云的概念,要推动不同行业应用在中国的发展,信息技术是数据处理的技术,我们要把数据搜集上来,把它成信息,转化 成知识,最后影响我们的决策。 在这前面通过一些信息化建设的过程我们聚集了很多处理,那现在如何处理它?因此在数据处理方面遇到很多新的问题新的挑战,性能与扩展性的拓展,在数据存储以及它处理的性价比,就是以前大家也做了分析,也做了很多数据挖掘 ,要用高端的软件,成本是很高的。
这几天很多专家都在这里讲过大数据,相信对大数据的背景、用处大家都已经讲得很多了。那么对于这些挑战,对于这些它所面临的问题我们如何去解决它,如何能够让大数据的技术更好的为我们的行业应用服务呢?下面我们来具体看一下。这里我就讲我们认为现在大数据从一个成熟的技术走到大家应用的过程中所面临的一些问题。
应该说现在我们在推广的一些技术,先不说它是不是能够完全解决我们所有的问题,至少我们拿来推广的技术并不是完全原创的,很多都是在互联网公司、科研机构和大学、院所里面用了好些年的技术,很多的框架都已经成熟。但是这些技术怎么走到普通的行业用户里面?行业云是中国云计算未来发展的一个非常重要的阵地,解决了行业信息化的问题就解决中国信息化绝大部分的问题,譬如说我们的政府,像公安、工商、税务 、民生等等,它那里面很多数据都需要处理,但是现有很多大数据技术的应用门槛我们觉得还是有些高,我们有的用户也尝试自己去做自己去搭,可能折腾半天也没折腾出来,我们拿了现有的软件搭过去,如果能够把它原有的应用切换过来都是非常大的问题,这里面就需要有专业的公司和机构提供成熟的产品、成熟的解决方案,帮我们的用户能够更好的把这些新的技术用上,能够竟然近现在所面临的很多问题。
我在这里讲,我们认为一个大数据应用的成功离不开几个方面的要素;一个是要有好的平台,一个是要有好的应用,最后它必须得有支撑。
从浪潮 的这个角度来讲我们有自己的大数据平台,但是实际上到了用户那的实际使用环境里面最大的挑战还是来自于,第一,他现有的数据是不是能够聚集起来,在之前我们觉得公安局是一个强力部门,里面数据整合应该做得很好,但是实际上你到它那一了解,它的情况也不容乐观,它里面不同的部门、不同的环节产生的数据实际上仍然是分散 的,那么如何能够让这些数据聚集起来,这些业务数据能够打破它原有的壁垒 ,这也是在大数据运用之前帮它做好规划和整理的工作。另外,在数据业务应用上面,这些模型的产生和不断的优化需要很长的过程,很多用户自己可能也不是做数学的,也没有做数学的人帮他干这个事情,那么如何能够让这些应用用好?如何能够让这些模型做到最优,它的数据能够发挥更大的作用?譬如说它搜集 了很多视频信息,像街上有很多摄像头,如何能够快速找到里面的异常状况这也需要有专业的机构进行支撑。最后,从大数据的应用来讲总是还要运用到计算机、应用、存储,随着数据规模的增大,实际上我们看很多专门处理数据的这样一些应用,包括原来很多高性能的应用,它其实也是在处理,这里的规模会越来越大。云计算的数据中心建设里面遇到的很多问题现在是仍然存在的,能耗 越来越高,管理越来越复杂。那么针对这种大数据处理的新的状况下,对于设备,对于存储的要求,转化 成对于我们数据中心的要求也需要一个新的解决方案。
针对前面讲到的几个问题,我们从技术到应用的应用之间存在这样一个门槛,我们不管说是鸿沟,至少是一个门槛,让我们行业怎么更好的用这些?解决平台情况下我们怎么帮他做数据的规划、应用的规划?这里面我们提出了浪潮 的大数据解决之道。这是我们针对于大数据应用推出大数据一体机的解决方案 ,它主要几个特点首先是软硬件一体的创新的数据处理平台,第二个是我们针对不同应用系列化的产品,第三个是专业化的应用支持,然后最后是在安全方面的一些考量 。
应该说刚才讲到了,现在的很多技术其实并不是非常新的技术,包括这里面我们讲一个大数据的解决方案里面,从分布式解决系统到分布式的算法到上面的数据库,到数据挖掘,各种应用简单的公共支撑模块,实际现在都有很多项目和技术进行支撑,其中很多东西做到了相当成熟的地步,在很多领域可能都得到了应用。那么对于我们的普通用户来讲如何把这些东西集成起来,那就需要一个一体化的解决方案。拿到这样一个设备,拿到我们的平台,到你的环境里面,放到机房里装上,马上就能够运转起来。在这里面的一体化从浪潮的角度,应该说我们最主要的工作还是在硬件层面,我们知道软件实际上有很多人在做优化,那么什么样的硬件是最适合于这种大数据处理的?现在很多人可能都会倾向于买一个普通的存储服务器,多配硬盘 ,多配内存,那么这种是不是就适合于我们的大数据处理?这里面浪潮 的大数据处理机是在硬件层面针对数据的处理要求、存储要求进行了优化。第一个环节就是数据的存储。作为一个大数据平台首先要把数据存下来,那么如何更多更好存这些数据就有很多的技术,包括全局负载均衡技术、动态可调整冗余编码 多副本节省空间、分布式共享缓存 ,等等。
大数据处理平台最终仍然是一个机群,在机群计算里面计算 、存储和网络这三个环节是仅仅扣在一起的,我们去考虑任何一个性能模型、性能优化的时候可能这里面每一个环节都是不可或缺的,那么如何能够让不同的节点之间它的传输效率或者数据交换的效率更高呢?这里面我们提出大数据互联交换芯片。这个东西现在在研制过程当中,如何能够让我们不同节点之间数据交换的效率更高?在这之前我们也跟用户沟通过,说你简单的做文本搜索什么的可能要求不是那么高,但现在大数据已经慢慢在向传统的一些高性能计算的领域扩展,它可能处理 的数据量会超过我们现在看到的很多应用,而且它对于不同节点之间数据交换的要求会是非常高的,它需要在里面不停的翻、不停的捣腾。譬如我们之前用以太网,慢慢不能满足这样的需求,我们有专门针对数据的交换芯片,而不仅仅是基于网络的模式,这也是提升它性能非常重要的一个方面。
第二个我们想讲的概念是大数据处理里面,我们现在讲大数据处理好像是一个单一的事情,但是作为我们的理解,这是我们针对于大数据几个特点画了一个图,把它抽取出来几个特性,就是一个数据我们如何分析它的特点?首先要看数据总量,但是数据量只代表这个数据可能大、可能小,但并不意味数据大就一定很困难。譬如全国人民每个人都去分一个小任务去干的话这个事就很容易了,但是很多任务是没办法这么分的,是根据它的模式复杂度,也就是说你要做的这个事情是结构化的还是非结构化的,大家相互的关联度有多高。另外是根据你的数据更新模式,银行的业务或者交易性的业务不断做在原来的数据上进行更新呢,还是说数据可以保持原来不变不断的跌价,还是说我现在提交一个请求 要求你多少毫秒之间就需要反馈 ,从这几个角度来讲不同的数据有不同的特点,我们把这大概分了三个圈,当然这三个圈不一定严格,只是从我们做产品、做平台的角度讲如何去推出不同的东西应对不同的应用需求。对于里面的一圈是大家见到非常多的,就是现在最传统的数据库的应用、银行的应用、民航的应用、第三方支付的应用都是这种应用,它现在仍然是数据库最主要的,现有分布式技术在这里面用得非常少。最外面这一圈就完全是说我这个数据是可以,原来很多传统的高性能计算的数据我们可以划到这里面来。中间的一层是文本的搜索、数据挖掘的数据可以在中间这一层。
那么对于不同的数据有很多可以充分分布化的,也有很多没法充分分布化的数据,那可能就需要有专门各种各样的设备进行对应 。这也是我们针对不同的需求做了大概的分类 ,也就是说作为大数据应用可能现在很多人还是盯着文本检索、图像 分析这种比较多,但实际上很多核心数据库的应用它仍然也要向这个方向进行发展。那么在这里面如何有一个好的应用平台去满足它的需求,我们真正把非结构化数据、结构化数据融合在一起,那就是左侧这个最强的设备,这上面可以跑数据库,也可以跑新型的一些。后面是针对数据量很大的还是说数据量稍小但是计算能力非常高的,推出不同的产品系列。
第三点,讲一下安全的问题。实际上在大数据里面安全仍然是非常重要的,特别是现在我们把所有平台上的数据都聚集在一起,可能作为一个公司来讲大家觉得这个问题还小一点,但是在实际用户里面有的用户就提出来它原来这个数据是分散在底下各个不同的部门、不同的单位,现在你要求它们把这些数据交上来也行,它们好像没有太大的意见,但是首先数据放在你这,第一,我放在你这是不是比放在我这更安全可靠,第二,我放在你这是不是被别人看到。在现有的平台里面我们讲到的概念也不新鲜,但是现在大平台从设计上来讲并不是很偏重这一部分。我们现在在大数据平台上做了很多,将原来操作系统里面的概念,比如访问 控制的手段、加密的手段拿到大数据平台里来,满足数据用户对于数据保护的要求。包括我们基于硬件的一些加密和存储以及访问 控制,把操作系统里面的安全技术用到里面。包括我们对于基于现有大数据平台把原来存储用到一些备份的软件、异地容灾的软件用到里面。
第二个层面是应用的开发层面,实际上现在我觉得大家用大数据的平台遇到很大的一个麻烦是真正的行业应用里面懂Hadoop的人是很少的,甚至于它的接口 都不愿意改,很多开发商说我原来应用跑得挺好,你现在给我一个新的平台告诉我上面连接口都没有,没有办法像以前文件访问一样来访问这个东西,那这个也是现在妨碍我们把这个技术从新的领域推到原来传统行业里面很大的阻力 。这里面我们现在尝试做一些工作,包括如何能够让原来的应用程序很顺利的对接到我们这个新的平台上面去。这里面其实大家以前用到的很多接口都是很清楚的,写程序的人知道会用到什么,但是这些接口 往往在新的平台里面没有,这是一个层面。第二个层面是很多程序让它到新的平台,包括原来做高可用计算、分布式计算 让它换一种思路,这个东西是很麻烦的,如何在这个层面提供支持?一方面我们是自己希望做一些工作,另外,在这一块也是我们如何把这个应用更好推出去的一点,也希望大家共同做这个事情。
因此浪潮 在这部分给用户提供专业化的服务,从前期你如何去做你数据的分析,把你的数据进行分类,然后分成这个按照我们前面画的那个圈,你按照你的复杂度、你的规模、你的交易方式、操作方式以及最终响应的要求,来将数据划分成不同的类型 ,针对你不同的数据然后给你提供不同的这种模型、这种解决方案,然后搭配 我们的硬件也好、软件也好,最终把你的应用做起来。其实这里面还有非常重要的是就帮它去做数据建模,刚才讲了,实际上数据建模这个时期不仅仅是做计算机的事情,更多的是做数据的人的事情,但是计算机它总是要为各种各样的应用、各种各样新的业务来服务,那么如何把它以前的数据进行规划进行新的整理?比如它原来可能放在数据库里面,那你要告诉它现在要放在我的平台里面做更好的处理,那我可能对你原来的表和数据结构做调整,基于这个基础之上做数据模型,怎么把你的数据更好的用起来。
最后,再说一下这个数据中心,刚才提到了,大数据最后还是要放在数据中心里面,而且这个规模非常庞大 的。数据中心的发展从以前大型机的时代,到慢慢走到客户机服务器,到互联网,现在到云计算的时代,云计算数据中心对于它的要求也是越来越高的,要求我们整个机房首先是个绿色的、节能的,然后能够高效进行管理的,当然还有其他一些专业化的、安全可靠等等要求。这里面浪潮提出行业云数据中心,这里面关键词是模块化、专业化、智能化和安全可靠,也就是说通过我们这几个层面保证你的数据中心是高效、灵活 、可靠的数据中心,这里我简单给大家介绍两个层面:
第一个就是模块化,这两年大家讲模块化很多,其实模块化这个概念从互联网,包括国外,包括Google,包括微软 ,包括国内几个互联网网大家都在用,但是怎么把这个概念更好的推广给我们的普通用户?需要不断的给大家讲这个概念。模块化首先来讲就是功能的集中化,就是将我们原来传统的一台一台的机器有自己的散热 系统和风扇集中起来,集中设计就会带来规模效益,就会使整体的空间利用率、整体能源利用率更好,降低我们整体的能耗 ,降低我们的占地。同时,通过标准规格的设计,能够塞到模块里面所有的全系列产品都可以放到模块化数据中心里来,每一个数据中心实际上就是一个大模块。最后,通过我们自动化的管理监控整个机房里面的能耗 ,包括散热 ,来提高整个效率。
作为运营管理来讲,云计算数据中心的管理最重要的就是如何将资源进行调度 ,实际上这个在大数据时代仍然是需要的。我现在部署一个新的数据处理的集群系统仍然是有些麻烦,那么如何跟我们在前面讲到的云计算的部署的技术、管理的技术结合起来,也让我们大数据处理平台,比如Hadoop平台、数据仓库 数据平等等等实现按需组合 、按需分配,结合我们前面讲到的云计算这里面的概念,当然不一定要用虚拟化,你可以在我们的物理机上进行快速的部署和应用的切换实现资源更好的。最后,在满足硬件更好的大数据平台上提供一些软件的性能调优,包括存储的算法方面,包括在任务调度算法的优化,然后提高整个大数据平台整体的性能。这个是在资源管理方面,也是通过一体化的资源管理来监控我们整个大数据平台的运行状态。
最后跟大家分享两个案例,首先第一个是济南公安的例子,济南公安应该说是在公安行业积累数据量非常大的,这一期我们给济南公安提供二点几个T的空间,它有很多摄像头,但是因为存储技术和处理技术的限制很多镜头存一段时间就放弃掉了。那么在这个情况下,它通过使用我们新式的大数据处理平台来解决它原来遇到很多数据孤立、数据整合等等方面的问题。下面有一个视频给大家分享一下。(视频播放)在视频最后也讲到,除了公安以外,我们在其他很多行业,金融、电信等等都有很多大数据应用,我相信大家讲得比较多的也是这些行业。
第二个例子是中国资源卫星中心,我们在前面反复讲到高性能计算有一类计算是数据处理的计算,它对数据处理的要求非常非常高。在这之前很多处理方式是计算 节点跟存储是分开的,需要大规模的存储存东西,对存储反复的存取 ,拉到计算节点进行计算 。那么在新的数据处理模式下,老的处理模式随着卫星精度不断的增加,它数据量膨胀 是非常快的,因此它的处理实际慢慢已经跟不上整个数据 的增长,它其实也需要有新的架构满足它的需要,这是第一个层面。第二个层面,它们也希望交接数据开放出来给大家应用,而不仅仅藏在机房里面,因此对云计算服务的要求也非常高的。他们在前几年用了浪潮的这个,当然,系统部署的时候那时候还不叫大数据处理平台,主要是我们以存储的方式放进去。应该说通过新式的架构,存储架构也是分布式架构,解决大规模数据处理,在它那部署2.3个PB,能够满足它这几年的需要,特别是通过我们这个平台替换以前他完全依赖国外的情况,使得我们的卫星处理从天上到地下都能够采用国产设备。
我的介绍完了,总结一下:我们认为云计算发展到现在资源的聚集和业务的聚集已经得到大家的公认,那么下一步就是如何让我们聚集起来的这些数据发挥作用,那我们的大数据处理平台就要在这里发挥更重要的作用。大数据处理平台一个应用的关键是将原来互联网里面应用比较熟的技术推广到行业里面,解决它在数据规划、平台的建设、数据分析等方面的应用。浪潮也希望通过我们的专业化服务给更多的行业用户提供支持和服务。谢谢大家。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者