扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
2008年5月15日上午,在北京JW万豪酒店地下一层多功能厅召开了“企业级存储,构建新一代企业级数据中心”——2008 IBM企业信息架构论坛,参加本次会议的嘉宾有IBM系统与科技事业部存储平台总经理 Andrew Monshaw先生,IBM大中华区副总裁及系统与科技事业部总经理姜锡岫先生,IBM系统与科技事业部大中华区产品部总经理 侯淼先生,IBM系统与科技事业部大中华区存储产品部总经理 朱国良先生,IBM全球存储专家、系统与科技事业部大中华区存储平台客户方案支持总监Guenter Lange先生,本次大会将针对未来信息存储的发展趋势、新一代企业数据中心、信息基础架构等多个层面展开讨论与交流。
会上,IBM软件集团亚太区存储解决方案首席专家倪敦先生进行了有效信息管理架构基础设施的演讲。
IBM软件集团亚太区存储解决方案首席专家倪敦先生演讲
倪敦:今天很高兴能够在这边跟大家交流一下存储架构管理的解决方案,我负责IBM亚太区存储软件支持团队。我的题目就是存储架构管理,我想分成几个个部分介绍一下IBM在这方面的解决方案。第一部分是为什么我们要设计管理解决方案;第二部分是端到端存储解决方案的细节,因为今天各级领导和专家讲了很多内容了;第三部分介绍一下解决方案的特点和优势,同时介绍国内主要的案例,在建行数据中心存储系统的存储架构解决方案的项目。
为什么我们要讨论这个题目?前面专家讲了很多了,第一就是数据的增长量,这方面的增长速度越来越快,有一个详细的IDC的统计,在2003年一个企业作为业务系统来说,平均每个人的数据量大概是0.8个GB,这在原有的IT管理系统运维中是没有任何问题的。到了2006年这个数据量增长到24个GB,到了2010年预计平均每个人业务数据量将达到128个GB,以我们现有系统管理的资源、运维的人员很难满足增长的需要。实际上我们做存储管理主要的内容、主要的目的就是改变我们存储信息管理的方式,在现有的成本基础上满足数据不断增长的管理需求,回到现在,作为大型企业数据中心,在2000年左右,我们做的数据中心都是10几个TB,几十个TB的。这两年做的数据量一般是几百个TB。现在一些基于TB级的数据中心已经在建设了。这样大型的数据中心平均每年以30%的速度递增,作为数据中心具有高端磁盘阵列,就有几十台以上。同时,由于我们国内的采购模式,这种竞争性的采购的标准,很少有一个大的数据中心会采用单一厂家的设备,所以一般我们见到客户的数据中心基本上都是由IBM、EMC等这样的磁盘阵列组成,这样为我们存储管理带来复杂的异构型管理的问题。
现在主要的存储设备、高端存储设备设计的都是直接通过专线网络把故障信息发到厂家这种方式,由于我们国家标准的推广,银行、电信为了保证业务安全性和金融安全性会因为规则会取消这种方式,这样使我们存储管理面临更大的困难。面临这样的情况,我们怎么解决现在的存储管理的问题。
现在存储管理已经由以前单一的通过简单工具、通过配置供给察看状况,已经变成了整体的存储管理的系统问题,我们存储管理实际上已经不能把它放在一个单一的存储管理系统,必须把它放到整个IT系统管理的过程中,基于ITIL来说,整个系统网管和系统管理是一样的,标准存储,存储的性能管理是必不可少的,第三存储的事件管理以及报警,第四存储的历史数据分析以及报告,比如存储的配置管理,这几部分管理每个部分都是很复杂的部分,现在IBM有一个比较完整的解决方案,就是IBM的ISM解决方案,这个解决方案把我们所有系统的管理方案基于ITIL设计在一起,完整的端到端的系统解决方案的指导,在这个过程中,实际上把整个系统管理根据客户需求分成七大部分,其中主要的部分就包括系统的Security,包括IT Storage Enterprise,包括Serivce provider等等 ,这样其中存储作为很重要的一部分,主要分成四块,第一是数据安全性的管理,第二是如何各种国标、各种规范,数据管理、存储中心的设计必须使数据符合规范,这些数据的运维和管理也必须能够依据规范来运行。第三部分就是现在数据永久保存已经成为整个的新的数据存储话题,下面可能根据行业标准提出新的数据规范,我们如何根据数据生命管理周期满足对于业务的管理需求,这是我们管理所做的一部分工作。
还有一部分是数据的avaliability管理,主要四个问题。IBM基于存储软件方面现在主要有三个解决方案,第一部分就是Data protection解决方案,第二部分就是存储资源和架构管理解决方案,第三部分要做的是RAM、数据生命周期解决方案,基于三种解决方案,刚才专家都讲了,主要有一系列的产品满足它,构成相关的Solution结合在一起。
倪敦: 第一个主要就是以前的解决方案,今年4月份为了满足数据管理的需求,收购了FilesX这是新的数据备份解决方案的系列产品,并不是单一的工具。FilesX是以前的数据保护都是基于时间点进行备份,比如每天晚上进行数据备份,备份窗口下多长时间可以完成,这就会遇到DR方面讲的问题,就是普通软件级的数据备份,只能满足前三级容灾的要求,当我们发生故障的时候,因为是昨天晚上备份,数据丢失时间RTO是一天以上,因为要做一个长时间的restore到一天的时间。这样的话,把数据存储的时间由一天缩短到一个小时,甚至更短。所以FilesX就是一个非常主要的数据保护解决方案。
有几大特点,第一是Disc到Disc的备份,符合很多用户要求。FilesX并不是基于应用和操作系统来看的,是基于数据传输底层数据I/O判断的,发生变化的时候,自动就会把I/O传输到备份服务器上,所以能够做到数据块发生变化就自动保存下去。FilesX还有一个特点就是当我的数据发生灾难的时候,恢复的时候,恢复操作刚一开始,卷一开始的时候所有的数据都可以进行访问,就像普通的恢复好的磁盘阵列一样都可以使用。因为FilesX有一个技术当你访问这部分磁盘的话,这部分数据没有完全恢复过去的时候,FilesX会自动把I/O自动转移到一个中心上,从中心上直接把I/O发出去,通过FILESX的技术,业务系统就是可用的。数据备份的发展方向,这是我们IBM data protection的方案。
第二部分就是数据今天主要的存储架构解决方案,我们现在主要看的就是第一个解决存储架构解决方案的异构性,能够满足中国数据中心满足不同企业、不同厂家的磁盘阵列进行统一管理。第二能够做一个存储架构的管理平台,能够实现存储管理的拓扑、事件、故障以及报告这部分的管理。同时能够根据客户的需求定制管理的解决方案,定制出根据客户的业务需求实现的业务方式,并不是装上去之后我只提供几种功能,如果客户需求超出这种功能就不能够实现,不是这样的过程。
第三部分就是生命周期管理,包括ROM、DR550这一系列解决方案。
我今天重点介绍一下第二部分存储架构解决方案,从这里面我们看到,解决方案主要是从基于ISM,主要从三个层次来看,第一个是解决方案的可视化,第二个是解决方案的可控化、第三个是解决方案的自动化。所谓可视化能够把系统之间的相互之间的关联关系清晰检测出来,检测出状态。可控化就是能够把现在所有存储的设备和架构很好地组合在一起,能够满足业务系统运维的运行需求,这部分一方面包括物理的,磁盘阵列、交换机等等,另一方面包括虚拟的,存储的管理流程,以及服务。自动化是指我们现在建设的存储系统、存储中心必须是一个灵活的、可变化的系统,这是指存储系统构建敏捷性的存储系统。当业务系统上新的业务系统、提出新的业务管理的需求时,现有的存储中心、存储系统能够很方便地自动调整它的方向,支撑新的业务系统的变化,这就是自动化的问题。
下面我详细讲一下我们存储管理的解决方案。作为IBM存储架构管理解决方案核心就是IBM TotalStorage Productive Center (TPC),这个解决方案是一系列的产品构成的,作为现在的TPC有两大部分,一部分是TPC Stantard,这是一个标准的存储架构管理的平台,能够实现存储的资源管理、故障监控、性能管理、事件管理。第二部分是TPC专门做大型数据中心、做DR数据复制和远程的管理,作为存储架构管理,这点比较清晰。
倪敦:这是我们做的一个项目的例子,在这个例子中,我们可以看到,作为一个完整的存储架构管理,首先包括存储资产管理,概述方面:
第一部分存储资产管理,包括磁盘阵列、交换机、镜像磁盘阵列的状态,同时报警出现在主要设备发生的主要的重要事件、主要违反的事件有哪些,
第二部分是存储资产和容量的评估,首先要评估出现有的资产能否支撑现有的系统运行的需要,比如两、三个月以后现有的系统还够不够。哪些业务系统存储增长量最大,哪些系统由于业务失误有大量的空间没有使用,这样可以很好地调整我们的业务系统。在2.2我们可以看到,必须做出存储趋势分析,支撑存储运维的需要。
第三部分是存储变更管理,作为IT管理变更管理是很关键的一块,如果不能很好地做变更管理,经常发生一些不可控关键性的故障,现在整个IT运维发生的故障70%,都是在变更过程中发生的人为操作。所以我们必须考虑存储的变更管理。
第四部分就是性能分析,很关键,当存储系统建设之后,我必须怎么样评估它日常运维的状态,哪些可能是一些瓶颈,哪些运行的状态很好,基于存储系统要做性能分析、负载分析。后端还包括我们做的DR,不仅包括生产中心的存储系统监控,同时还包括容灾中心这些镜像存储系统的监控,如果不能很好地监控镜像存储系统,可能灾难发生的时候,我们会发现镜像数据错误的,比如I/O的峰值造成问题,当灾难发生的时候会造成整个数据的不可用。
下面我们分几个部分来看一下TPC如何实现存储管理的解决方案:第一部分,我们的存储拓扑管理必须能够形成分层、深入的拓扑的分层。在这个过程中,我们必须能够生成从服务器、交换机、磁盘阵列再深入到每一个磁盘阵列的卷,这样一个磁盘的拓扑。在这里我们看到,这是我们的基于交换机的拓扑的关系。第二部分是我们从交换机端口到服务器的连接关系。第三部分看到分层次Inside到磁盘阵列内部的分层次的内部磁盘阵列划分的连接状态。
第二部分在整个的存储拓扑管理中,不仅能够生成这种拓扑,同时要生成关联关系,不能单独看到这个层次,要看到层次之间的连接以及可能带来的问题。在这里面我们要构建端到端的拓扑的连接状态,在这里我们可以看到,从我们服务器数据通道通过哪个HPA卡连接到哪个交换机的端口,同时连接到磁盘阵列控制器的端口,以及连接到哪一个磁盘卷组,在这样的过程中,随时点击查询到每一个状态信息,分析磁盘阵列数据访问通道中所运行的状态。(见图),这是我们通过TPC能够实现的,比如我们选中一个服务器,在这里可以直接看到逻辑卷是哪些,卡是哪些,交换机,磁盘的记忆卡是哪些,这样可以由针对性的从复杂的数据中心,比如十几个高端阵列有几百台服务器,选择哪个服务器可以把它单独连接状态列出来,查询和监控它的状态,同时看到实时的性能状态,这样很容易就分析出数据传输通道中性能的瓶颈,还有故障高发期在哪个阶段,可以提前预测发现可能在哪个阶段发生问题。当问题没有发生之前,我提前就会把一些设备更换或者重新划分一些区,重新做一些卡,重新划分出一些存储空间,这样提前解决可能会发生的存储故障。
底下还有类似事件窗口的东西,可以把所有数据传输通道都显示出来。在这里面我们可以看到,为什么TPC能够实现异构的存储管理?其核心就是基于现在开放的XMi-S的标准,TPC是完全按照XMi-S标准设计的平台,2003年的时候管理的系统很少,2008年所有主流厂商都支持SMIS新的设备。这样基于TPC可以很容易地进行数据中心的管理,我们可以看到在这个架构中右边是我们所要管理的设备,现在主流设备无论是磁盘阵列、存储交换机都是基于SMIS管理存储的,像基于SMP管理的存储方式很难更加深入全面管理存储系统了。在SMIS有四个点,这四个点从磁盘阵列、设备进行关联,同时根据CIMOM查询信息,通过CIMOM和XMi-S来传输。
下面,我们看到作为性能管理这块,因为以前刚开始上存储管理的时候,很多客户非常关心性能管理,其实性能管理只是整个存储管理中的一小部分,关注于性能管理很难做一个非常完整的存储管理。这边我们看到通过TPC做性能管理能够实现从磁盘阵列到Subsystem到端口以及违规事件,这样一个详细的管理,通过采样频率和持续时间定期收集数据,同时免费带一个DB2和Tivoli储存起来,这样可以根据我们的需要随时把它调出来,生成相关历史状态的报告,做一个对比分析,尤其在做项目中客户很喜爱做的是不同磁盘之间的对比分析,或者不同磁盘阵列中的对比分析,或者同一个磁盘阵列在某一个时间点的对比分析。尤其在一个大型的数据中心中,很关键的就是可能它的卷,它的信息会有上千条,这样的话我们通过TBC很关键的改变做出选出其中很重要的或者性能高峰或者很关心的设备,在这里面TPC能够生成由高到低或者是TOP10,或者是TOP25这样一个报表,这样能够使系统管理员每天发现系统管理中最关键的性能瓶颈或者已经达到关键点的设备的状态。这里面我们可以首先生成典型指标的性能能负载Top报告,同时我们查询对比他们之间的状态,这样同时跟业务部门的专家相沟通,比如在某一个时刻业务系统是否有一些特殊的需求,某一时刻业务系统是否做过一些批处理的工作,这样可以看出高峰期是正常还是异常的,如果是异常的话,经过下一步的操作,我们看怎么调整我们的存储系统。基于TPC我们能够生成所有基于存储系统的关键性的性能报告,包括基于控制器,包括主要存储信息的性能的报告。
我们看到,在IBM的存储架构解决方案中,有一个很大的优势就是异构性,在这里可以看到不仅包括IBM磁盘阵列,包括主要的第三方厂家的磁盘阵列。在第三方磁盘阵列方面也不存在很大的困难,同时在存储架构管理中很关键的一点是能够进行带库的管理,生成带库的逻辑拓扑图,带库管理是很大的问题,比如有几千盘磁带的带库,通过带库的控制面板,很难查询出来5000盘带子处于哪些槽位,一目了然的生成一个列表,看它的状态是怎么样的,这些带子什么型号的,十几个驱动器状态怎么样,微码是多少,哪些需要升级哪些不需要升级,这样通过TpC还包括一个带库的管理,直接生成带库的逻辑拓扑,把整个的存储管理构成完整的拓扑,不存在逻辑管理的孤岛。
在这里我们看到,作为存储管理,刚才讲的拓扑、它的性能以及异构的管理,但是作为所有系统管理中,最核心的一点就是事件管理,因为无论是我们的网络管理、业务管理、服务器、应用监控管理核心都是把我们的状态转化成相关的事件,把事件汇总进行关联分析,对存储管理中面临的都是相同的问题。基于TPC的存储架构解决方案,可以把主要的存储事件生成出来并发到事件管理平台,包括磁盘阵列事件、交换机事件、违规违例的事件,通过集成比如通过Tivoli标准的事件管理平台,而通过高低端结合的新方式,第一能够高速处理所有的事件,因为每天存储管理的事件有上万条,系统管理人员每天看上万条根本发现不了其中的关系,第二就是做事件的关联分析,把相关联的事件故障组合在一起,生成一个故障事件,这样的话,可以使系统管理员把每天上万条事件缩减到几十条关键性事件,根据事件处理我们的问题就可以了。
第二,TPC支持通过SNMP的方式把Trap发出去,把现有的事件管理平台,TPC把事件发过去,在这个管理平台上做集成。根据我们的经验,一般作为存储管理来说,会单独选择一个事件管理平台,在这个平台上做存储事件分析,把关联事件分析完发到IT事件管理中心,比如系统管理的总的IT的服务器例子。
TPC很关键,可以把报告状态、信息、性能集中在一起,当我们看到这个报告里面,直接点性能状态表,就可以查询某一时段的性能,同时进行关联的分析。这方面TPC对于IBM存储设备不仅包括监视功能、监管功能,同时还有一个控制的功能,在TPC里面有一个Content manager,可以实现基于IBM磁盘阵列,DS系列,无论是高端低端,可以基于我们对Zone的划分,同时做一个性能的推荐。这样的话,安装了TPC之后,尤其是以IBM为主的数据中心,通过一个界面就可以完成一个管理到控制的所有功能,在后面的案例中会提及。
在TPC里面还有一个很关键的功能,就是涉及到存储的配置管理,TPC能够直接生成存储的配置列表,包括所也的磁盘阵列,什么型号的?哪个厂家的?号码是什么?哪个卡是什么牌子的?磁盘是什么样子的?在TPC里面都可以看出来,另外一方面同时还跟踪配置的变更,这样的话定期生成配置变更的列表,在这里面可以让我们看到系统的变更是哪些,TPC还有一个新的功能,在3.3版本里面能够生成配置变更的拓扑图,绿色是没有变更的系统,粉红色是已经发生的变更系统,在系统管理员看拓扑的时候,或者是我们没有控制住的偶发的变更,直接点击上去可以查到变更事件,可以直接发现对系统带来严重故障我们难以控制的状态的变化。这种情况很正常,比如系统管理员获得了授权,没在你的授权下就进行了变更管理,虽然变更对他来说会有意义,但是会给整个系统中造成故障,比如有的客户在代扣备份系统,直接把代机升级了,实际上在备份软件这边要做一个Mapping,整个数据就停止了。可能会造成相连接的HBA卡或者配置的变更,没有同时做变更的话,就会造成系统的严重故障。
在这里TPC还能够直接生成相关的配置的违例违规的检测,可以定期帮我们的系统做扫描,如果在数据里面直接输入变更管理规范的话,可以直接把违反变更的状态所做的事情直接扫描出来,并生成一个新的报告。同时TPC还能够帮助我们做容量的分析和统计,这在我们系统建设完以后进行长期运行的时候是很关键的,比如像我们提的数据生命周期管理,ILM,哪些数据生命周期状态怎么样,TPC可以直接帮我们生成一个数据的访问频次统计,比如分析出哪些数据一年以上没有访问,哪些数据一天访问十几次,我可以直接看出哪些数据一年没有访问马上采用archive等方式把它从盘中拿掉,哪些访问量很高,哪些容量不断增长,比如直接油低端换到高端阵列上。
同时能够帮我们做容量的分析和预测,这对于系统的二期和升级设计很关键,因为我们往往做升级设计的时候,我们没有一个很科学、实际的数据告诉你,比如一开始统计,平均每年增长30%,但我哪个业务系统增长很多,有的业务系统增长100%,有的业务每年不增长还减少,我们需要科学地统计设计出优化的存储系统。TPC本身带有一个报告系统,能生成300多个报告,能够输出出来,生成月报表、日报表、周报表,但是一般情况下系统管理员查询就够了,后面往往会根据客户的需求,因为TPC管理数据全部存储到内部关系数据库上,通过数据库可以做报表二次开发满足客户所有管理的需求。这是TPC应用环境部署的例子,这个就不多讲了,但我要讲的问题是作为存储架构管理不是简单的一个Tools一个工具完成的,作为TPC来说,跟网管的工作一样,包括监控服务器,包括Agent,这样,对于大型磁盘阵列管理,还要做一个判断,判断现有的Agent能够管理所有的磁盘阵列。后面做的项目,有的大的数据中心一个就分2000多个卷,通过一个Agent可能只能管理两台服务器,两个磁盘阵列4000多个卷。如果有八台以上的话,就要部署多Agent的状态。所以在部署这种系统的话,一开始就要做详细的科学设计。
实际上回过头来看,作为IBM存储架构管理,有几大优点:第一,它是完整的存储平台,能够实现存储系统的整合管理;第二,率先采取XMI-S进行统一存储管理,支持异构存储设备和支持未来所有存储管理的需要;第三,不仅实时发生发现管理故障,同时还能够通过管理系统预测存储系统可能发生的问题,把我们发生的故障和灾难提前解决。
我简单介绍在中国主要的案例,在中国建设银行数据中心,这是建行主机的存储系统,核心业务系统,所以主要的业务系统都运行在数据中心中,主机业务系统中支撑的系统是包括由十几台IBM高端磁盘阵列组成的,这还是结构比较单一,但是由于它多次扩展,包括型号不太一样,包括老的到新的DS8000不同型号都包括在里面,还有以前的8台现在的4台测试磁盘阵列,每个磁盘阵列都在2000卷以上,这样在管理上都会遇到问题,存储容量超过500个TB,高端核心业务系统的存储容量超过500TB,500端口SAN交换机,建行不允许宕机,在这个过程中很有意思,管理效率很高,只有一个运维人员管理整个数据中心系统运维。
前年刚开始谈的时候发现存储运维有很多需要解决的问题:第一,发生存储故障的时候不能得到实时报警,无法即时响应处理,很多时候都是故障发生后业务人员告诉你这个有问题了,你来看一看吧。刚才讲了由于很多Call Home的功能,银行是不被允许的,厂家没有办法远距离解决问题。第二,没有进行有效的存储性能监控,当现有的系统购买了很多存储系统以后,有一个问题,存储系统状态如何?能否满足我半年以后、一年以后业务系统的支撑要求。另外,有没有系统的瓶颈,客户在这方面比较担心。还有没法有一个很好的统计报告的系统不仅对系统管理员,尤其是对行里面的领导生成一个总结:这个月的存储系统非常稳定,下个月也没有问题,没有这样一个系统,对整个存储运维造成了很大的麻烦。
我们根据建行在存储管理方面的需求,设计了一套TPC存储管理系统,这个是我们在建行实施的TPC的管理架构,这是一期的架构,底下是Maimframe的系统,当时是八台主要的核心服务器,在这当中安装了4个CIMOM Agent采用两个卷的信息,TPC服务器作为存储管理的平台,收集所有存储管理的信息。第二,集中事件处理,因为我在存储管理中不仅管理磁盘,发生故障还要把交换机的信息,交换机的事件,相关的带库的事件都输入在一起,包括事件的服务器,以及事件处理得服务器。同时转发到建行的总控中心里面去,包括性能中心和报表的服务器。在存储解决中实现了故障和事件管理,存储的拓扑管理,存储的整体评估以及整体的分析,资产情况的管理,每周每月的定期报告。根据专家的分析和讨论,在上这个系统的时候,评估了很长时间,在测试机上做了一个样本采集,经过一个月、两个月采集以后,分析出核心的建行比较关注的指标。TPC能够采集的指标有好几十个,其中这10个比较关键,所以我们做了这样的一个定制,这里面还包括了事件管理,从这里面还可以看到开发,把事件转化成建行能够理解的信息状态。
CCB现在已经成为亚太区很重要的案例,所以在很多的网站都发表了,这个项目的实施也是分了三个阶段,也花了相当长的时间,最后帮助客户在存储管理中遇到的问题。 作为IBM存储架构管理解决方案,能够从三点:第一,可视化。能够发现存储管理状态所有的状态,采集它所有的信息;第二,通过可控化方式。能够实现配置管理、变更管理、故障管理分析以及存储健康状况评估分析;第三,能够实现自动化。不仅是自动化生成存储运维报告,能够与存储流程解决方案整合在一起。今天上午专家讲过,IBM有Storege process manager,能够自动化地帮助我们做存储运维,第三通过可视、可控进行自动化的存储运维。