扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共2页)
这里面我们可以首先生成典型指标的性能能负载Top报告,同时我们查询对比他们之间的状态,这样同时跟业务部门的专家相沟通,比如在某一个时刻业务系统是否有一些特殊的需求,某一时刻业务系统是否做过一些批处理的工作,这样可以看出高峰期是正常还是异常的,如果是异常的话,经过下一步的操作,我们看怎么调整我们的存储系统。基于TPC我们能够生成所有基于存储系统的关键性的性能报告,包括基于控制器,包括主要存储信息的性能的报告。
我们看到,在IBM的存储架构解决方案中,有一个很大的优势就是异构性,在这里可以看到不仅包括IBM磁盘阵列,包括主要的第三方厂家的磁盘阵列。在第三方磁盘阵列方面也不存在很大的困难,同时在存储架构管理中很关键的一点是能够进行带库的管理,生成带库的逻辑拓扑图,带库管理是很大的问题,比如有几千盘磁带的带库,通过带库的控制面板,很难查询出来5000盘带子处于哪些槽位,一目了然的生成一个列表,看它的状态是怎么样的,这些带子什么型号的,十几个驱动器状态怎么样,微码是多少,哪些需要升级哪些不需要升级,这样通过TpC还包括一个带库的管理,直接生成带库的逻辑拓扑,把整个的存储管理构成完整的拓扑,不存在逻辑管理的孤岛。
在这里我们看到,作为存储管理,刚才讲的拓扑、它的性能以及异构的管理,但是作为所有系统管理中,最核心的一点就是事件管理,因为无论是我们的网络管理、业务管理、服务器、应用监控管理核心都是把我们的状态转化成相关的事件,把事件汇总进行关联分析,对存储管理中面临的都是相同的问题。基于TPC的存储架构解决方案,可以把主要的存储事件生成出来并发到事件管理平台,包括磁盘阵列事件、交换机事件、违规违例的事件,通过集成比如通过Tivoli标准的事件管理平台,而通过高低端结合的新方式,第一能够高速处理所有的事件,因为每天存储管理的事件有上万条,系统管理人员每天看上万条根本发现不了其中的关系,第二就是做事件的关联分析,把相关联的事件故障组合在一起,生成一个故障事件,这样的话,可以使系统管理员把每天上万条事件缩减到几十条关键性事件,根据事件处理我们的问题就可以了。
第二,TPC支持通过SNMP的方式把Trap发出去,把现有的事件管理平台,TPC把事件发过去,在这个管理平台上做集成。根据我们的经验,一般作为存储管理来说,会单独选择一个事件管理平台,在这个平台上做存储事件分析,把关联事件分析完发到IT事件管理中心,比如系统管理的总的IT的服务器例子。
TPC很关键,可以把报告状态、信息、性能集中在一起,当我们看到这个报告里面,直接点性能状态表,就可以查询某一时段的性能,同时进行关联的分析。这方面TPC对于IBM存储设备不仅包括监视功能、监管功能,同时还有一个控制的功能,在TPC里面有一个Content manager,可以实现基于IBM磁盘阵列,DS系列,无论是高端低端,可以基于我们对Zone的划分,同时做一个性能的推荐。这样的话,安装了TPC之后,尤其是以IBM为主的数据中心,通过一个界面就可以完成一个管理到控制的所有功能,在后面的案例中会提及。
在TPC里面还有一个很关键的功能,就是涉及到存储的配置管理,TPC能够直接生成存储的配置列表,包括所也的磁盘阵列,什么型号的?哪个厂家的?号码是什么?哪个卡是什么牌子的?磁盘是什么样子的?在TPC里面都可以看出来,另外一方面同时还跟踪配置的变更,这样的话定期生成配置变更的列表,在这里面可以让我们看到系统的变更是哪些,TPC还有一个新的功能,在3.3版本里面能够生成配置变更的拓扑图,绿色是没有变更的系统,粉红色是已经发生的变更系统,在系统管理员看拓扑的时候,或者是我们没有控制住的偶发的变更,直接点击上去可以查到变更事件,可以直接发现对系统带来严重故障我们难以控制的状态的变化。这种情况很正常,比如系统管理员获得了授权,没在你的授权下就进行了变更管理,虽然变更对他来说会有意义,但是会给整个系统中造成故障,比如有的客户在代扣备份系统,直接把代机升级了,实际上在备份软件这边要做一个Mapping,整个数据就停止了。可能会造成相连接的HBA卡或者配置的变更,没有同时做变更的话,就会造成系统的严重故障。
在这里TPC还能够直接生成相关的配置的违例违规的检测,可以定期帮我们的系统做扫描,如果在数据里面直接输入变更管理规范的话,可以直接把违反变更的状态所做的事情直接扫描出来,并生成一个新的报告。同时TPC还能够帮助我们做容量的分析和统计,这在我们系统建设完以后进行长期运行的时候是很关键的,比如像我们提的数据生命周期管理,ILM,哪些数据生命周期状态怎么样,TPC可以直接帮我们生成一个数据的访问频次统计,比如分析出哪些数据一年以上没有访问,哪些数据一天访问十几次,我可以直接看出哪些数据一年没有访问马上采用archive等方式把它从盘中拿掉,哪些访问量很高,哪些容量不断增长,比如直接油低端换到高端阵列上。
同时能够帮我们做容量的分析和预测,这对于系统的二期和升级设计很关键,因为我们往往做升级设计的时候,我们没有一个很科学、实际的数据告诉你,比如一开始统计,平均每年增长30%,但我哪个业务系统增长很多,有的业务系统增长100%,有的业务每年不增长还减少,我们需要科学地统计设计出优化的存储系统。TPC本身带有一个报告系统,能生成300多个报告,能够输出出来,生成月报表、日报表、周报表,但是一般情况下系统管理员查询就够了,后面往往会根据客户的需求,因为TPC管理数据全部存储到内部关系数据库上,通过数据库可以做报表二次开发满足客户所有管理的需求。这是TPC应用环境部署的例子,这个就不多讲了,但我要讲的问题是作为存储架构管理不是简单的一个Tools一个工具完成的,作为TPC来说,跟网管的工作一样,包括监控服务器,包括Agent,这样,对于大型磁盘阵列管理,还要做一个判断,判断现有的Agent能够管理所有的磁盘阵列。后面做的项目,有的大的数据中心一个就分2000多个卷,通过一个Agent可能只能管理两台服务器,两个磁盘阵列4000多个卷。如果有八台以上的话,就要部署多Agent的状态。所以在部署这种系统的话,一开始就要做详细的科学设计。
实际上回过头来看,作为IBM存储架构管理,有几大优点:第一,它是完整的存储平台,能够实现存储系统的整合管理;第二,率先采取XMI-S进行统一存储管理,支持异构存储设备和支持未来所有存储管理的需要;第三,不仅实时发生发现管理故障,同时还能够通过管理系统预测存储系统可能发生的问题,把我们发生的故障和灾难提前解决。
我简单介绍在中国主要的案例,在中国建设银行数据中心,这是建行主机的存储系统,核心业务系统,所以主要的业务系统都运行在数据中心中,主机业务系统中支撑的系统是包括由十几台IBM高端磁盘阵列组成的,这还是结构比较单一,但是由于它多次扩展,包括型号不太一样,包括老的到新的DS8000不同型号都包括在里面,还有以前的8台现在的4台测试磁盘阵列,每个磁盘阵列都在2000卷以上,这样在管理上都会遇到问题,存储容量超过500个TB,高端核心业务系统的存储容量超过500TB,500端口SAN交换机,建行不允许宕机,在这个过程中很有意思,管理效率很高,只有一个运维人员管理整个数据中心系统运维。
前年刚开始谈的时候发现存储运维有很多需要解决的问题:第一,发生存储故障的时候不能得到实时报警,无法即时响应处理,很多时候都是故障发生后业务人员告诉你这个有问题了,你来看一看吧。刚才讲了由于很多Call Home的功能,银行是不被允许的,厂家没有办法远距离解决问题。第二,没有进行有效的存储性能监控,当现有的系统购买了很多存储系统以后,有一个问题,存储系统状态如何?能否满足我半年以后、一年以后业务系统的支撑要求。另外,有没有系统的瓶颈,客户在这方面比较担心。还有没法有一个很好的统计报告的系统不仅对系统管理员,尤其是对行里面的领导生成一个总结:这个月的存储系统非常稳定,下个月也没有问题,没有这样一个系统,对整个存储运维造成了很大的麻烦。
我们根据建行在存储管理方面的需求,设计了一套TPC存储管理系统,这个是我们在建行实施的TPC的管理架构,这是一期的架构,底下是Maimframe的系统,当时是八台主要的核心服务器,在这当中安装了4个CIMOM Agent采用两个卷的信息,TPC服务器作为存储管理的平台,收集所有存储管理的信息。第二,集中事件处理,因为我在存储管理中不仅管理磁盘,发生故障还要把交换机的信息,交换机的事件,相关的带库的事件都输入在一起,包括事件的服务器,以及事件处理得服务器。同时转发到建行的总控中心里面去,包括性能中心和报表的服务器。在存储解决中实现了故障和事件管理,存储的拓扑管理,存储的整体评估以及整体的分析,资产情况的管理,每周每月的定期报告。根据专家的分析和讨论,在上这个系统的时候,评估了很长时间,在测试机上做了一个样本采集,经过一个月、两个月采集以后,分析出核心的建行比较关注的指标。TPC能够采集的指标有好几十个,其中这10个比较关键,所以我们做了这样的一个定制,这里面还包括了事件管理,从这里面还可以看到开发,把事件转化成建行能够理解的信息状态。
CCB现在已经成为亚太区很重要的案例,所以在很多的网站都发表了,这个项目的实施也是分了三个阶段,也花了相当长的时间,最后帮助客户在存储管理中遇到的问题。 作为IBM存储架构管理解决方案,能够从三点:第一,可视化。能够发现存储管理状态所有的状态,采集它所有的信息;第二,通过可控化方式。能够实现配置管理、变更管理、故障管理分析以及存储健康状况评估分析;第三,能够实现自动化。不仅是自动化生成存储运维报告,能够与存储流程解决方案整合在一起。今天上午专家讲过,IBM有Storege process manager,能够自动化地帮助我们做存储运维,第三通过可视、可控进行自动化的存储运维。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者