科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道IBM倪敦:有效信息管理架构基础设施

IBM倪敦:有效信息管理架构基础设施

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

2008年5月15日上午,在北京JW万豪酒店地下一层多功能厅召开了“企业级存储,构建新一代企业级数据中心”——2008 IBM企业信息架构论坛。

作者:张桂林 来源:CNET中国·ZOL 2008年5月19日

关键字: IBM 数据中心 服务器 IBM软件集团 信息基础架构 存储 磁盘阵列

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共2页)

下面,我们看到作为性能管理这块,因为以前刚开始上存储管理的时候,很多客户非常关心性能管理,其实性能管理只是整个存储管理中的一小部分,关注于性能管理很难做一个非常完整的存储管理。这边我们看到通过TPC做性能管理能够实现从磁盘阵列到Subsystem到端口以及违规事件,这样一个详细的管理,通过采样频率和持续时间定期收集数据,同时免费带一个DB2和Tivoli储存起来,这样可以根据我们的需要随时把它调出来,生成相关历史状态的报告,做一个对比分析,尤其在做项目中客户很喜爱做的是不同磁盘之间的对比分析,或者不同磁盘阵列中的对比分析,或者同一个磁盘阵列在某一个时间点的对比分析。尤其在一个大型的数据中心中,很关键的就是可能它的卷,它的信息会有上千条,这样的话我们通过TBC很关键的改变做出选出其中很重要的或者性能高峰或者很关心的设备,在这里面TPC能够生成由高到低或者是TOP10,或者是TOP25这样一个报表,这样能够使系统管理员每天发现系统管理中最关键的性能瓶颈或者已经达到关键点的设备的状态。

  这里面我们可以首先生成典型指标的性能能负载Top报告,同时我们查询对比他们之间的状态,这样同时跟业务部门的专家相沟通,比如在某一个时刻业务系统是否有一些特殊的需求,某一时刻业务系统是否做过一些批处理的工作,这样可以看出高峰期是正常还是异常的,如果是异常的话,经过下一步的操作,我们看怎么调整我们的存储系统。基于TPC我们能够生成所有基于存储系统的关键性的性能报告,包括基于控制器,包括主要存储信息的性能的报告。

  我们看到,在IBM的存储架构解决方案中,有一个很大的优势就是异构性,在这里可以看到不仅包括IBM磁盘阵列,包括主要的第三方厂家的磁盘阵列。在第三方磁盘阵列方面也不存在很大的困难,同时在存储架构管理中很关键的一点是能够进行带库的管理,生成带库的逻辑拓扑图,带库管理是很大的问题,比如有几千盘磁带的带库,通过带库的控制面板,很难查询出来5000盘带子处于哪些槽位,一目了然的生成一个列表,看它的状态是怎么样的,这些带子什么型号的,十几个驱动器状态怎么样,微码是多少,哪些需要升级哪些不需要升级,这样通过TpC还包括一个带库的管理,直接生成带库的逻辑拓扑,把整个的存储管理构成完整的拓扑,不存在逻辑管理的孤岛。

  在这里我们看到,作为存储管理,刚才讲的拓扑、它的性能以及异构的管理,但是作为所有系统管理中,最核心的一点就是事件管理,因为无论是我们的网络管理、业务管理、服务器、应用监控管理核心都是把我们的状态转化成相关的事件,把事件汇总进行关联分析,对存储管理中面临的都是相同的问题。基于TPC的存储架构解决方案,可以把主要的存储事件生成出来并发到事件管理平台,包括磁盘阵列事件、交换机事件、违规违例的事件,通过集成比如通过Tivoli标准的事件管理平台,而通过高低端结合的新方式,第一能够高速处理所有的事件,因为每天存储管理的事件有上万条,系统管理人员每天看上万条根本发现不了其中的关系,第二就是做事件的关联分析,把相关联的事件故障组合在一起,生成一个故障事件,这样的话,可以使系统管理员把每天上万条事件缩减到几十条关键性事件,根据事件处理我们的问题就可以了。

  第二,TPC支持通过SNMP的方式把Trap发出去,把现有的事件管理平台,TPC把事件发过去,在这个管理平台上做集成。根据我们的经验,一般作为存储管理来说,会单独选择一个事件管理平台,在这个平台上做存储事件分析,把关联事件分析完发到IT事件管理中心,比如系统管理的总的IT的服务器例子。

  TPC很关键,可以把报告状态、信息、性能集中在一起,当我们看到这个报告里面,直接点性能状态表,就可以查询某一时段的性能,同时进行关联的分析。这方面TPC对于IBM存储设备不仅包括监视功能、监管功能,同时还有一个控制的功能,在TPC里面有一个Content manager,可以实现基于IBM磁盘阵列,DS系列,无论是高端低端,可以基于我们对Zone的划分,同时做一个性能的推荐。这样的话,安装了TPC之后,尤其是以IBM为主的数据中心,通过一个界面就可以完成一个管理到控制的所有功能,在后面的案例中会提及。

  在TPC里面还有一个很关键的功能,就是涉及到存储的配置管理,TPC能够直接生成存储的配置列表,包括所也的磁盘阵列,什么型号的?哪个厂家的?号码是什么?哪个卡是什么牌子的?磁盘是什么样子的?在TPC里面都可以看出来,另外一方面同时还跟踪配置的变更,这样的话定期生成配置变更的列表,在这里面可以让我们看到系统的变更是哪些,TPC还有一个新的功能,在3.3版本里面能够生成配置变更的拓扑图,绿色是没有变更的系统,粉红色是已经发生的变更系统,在系统管理员看拓扑的时候,或者是我们没有控制住的偶发的变更,直接点击上去可以查到变更事件,可以直接发现对系统带来严重故障我们难以控制的状态的变化。这种情况很正常,比如系统管理员获得了授权,没在你的授权下就进行了变更管理,虽然变更对他来说会有意义,但是会给整个系统中造成故障,比如有的客户在代扣备份系统,直接把代机升级了,实际上在备份软件这边要做一个Mapping,整个数据就停止了。可能会造成相连接的HBA卡或者配置的变更,没有同时做变更的话,就会造成系统的严重故障。

  在这里TPC还能够直接生成相关的配置的违例违规的检测,可以定期帮我们的系统做扫描,如果在数据里面直接输入变更管理规范的话,可以直接把违反变更的状态所做的事情直接扫描出来,并生成一个新的报告。同时TPC还能够帮助我们做容量的分析和统计,这在我们系统建设完以后进行长期运行的时候是很关键的,比如像我们提的数据生命周期管理,ILM,哪些数据生命周期状态怎么样,TPC可以直接帮我们生成一个数据的访问频次统计,比如分析出哪些数据一年以上没有访问,哪些数据一天访问十几次,我可以直接看出哪些数据一年没有访问马上采用archive等方式把它从盘中拿掉,哪些访问量很高,哪些容量不断增长,比如直接油低端换到高端阵列上。

  同时能够帮我们做容量的分析和预测,这对于系统的二期和升级设计很关键,因为我们往往做升级设计的时候,我们没有一个很科学、实际的数据告诉你,比如一开始统计,平均每年增长30%,但我哪个业务系统增长很多,有的业务系统增长100%,有的业务每年不增长还减少,我们需要科学地统计设计出优化的存储系统。TPC本身带有一个报告系统,能生成300多个报告,能够输出出来,生成月报表、日报表、周报表,但是一般情况下系统管理员查询就够了,后面往往会根据客户的需求,因为TPC管理数据全部存储到内部关系数据库上,通过数据库可以做报表二次开发满足客户所有管理的需求。这是TPC应用环境部署的例子,这个就不多讲了,但我要讲的问题是作为存储架构管理不是简单的一个Tools一个工具完成的,作为TPC来说,跟网管的工作一样,包括监控服务器,包括Agent,这样,对于大型磁盘阵列管理,还要做一个判断,判断现有的Agent能够管理所有的磁盘阵列。后面做的项目,有的大的数据中心一个就分2000多个卷,通过一个Agent可能只能管理两台服务器,两个磁盘阵列4000多个卷。如果有八台以上的话,就要部署多Agent的状态。所以在部署这种系统的话,一开始就要做详细的科学设计。

  实际上回过头来看,作为IBM存储架构管理,有几大优点:第一,它是完整的存储平台,能够实现存储系统的整合管理;第二,率先采取XMI-S进行统一存储管理,支持异构存储设备和支持未来所有存储管理的需要;第三,不仅实时发生发现管理故障,同时还能够通过管理系统预测存储系统可能发生的问题,把我们发生的故障和灾难提前解决。

  我简单介绍在中国主要的案例,在中国建设银行数据中心,这是建行主机的存储系统,核心业务系统,所以主要的业务系统都运行在数据中心中,主机业务系统中支撑的系统是包括由十几台IBM高端磁盘阵列组成的,这还是结构比较单一,但是由于它多次扩展,包括型号不太一样,包括老的到新的DS8000不同型号都包括在里面,还有以前的8台现在的4台测试磁盘阵列,每个磁盘阵列都在2000卷以上,这样在管理上都会遇到问题,存储容量超过500个TB,高端核心业务系统的存储容量超过500TB,500端口SAN交换机,建行不允许宕机,在这个过程中很有意思,管理效率很高,只有一个运维人员管理整个数据中心系统运维。

  前年刚开始谈的时候发现存储运维有很多需要解决的问题:第一,发生存储故障的时候不能得到实时报警,无法即时响应处理,很多时候都是故障发生后业务人员告诉你这个有问题了,你来看一看吧。刚才讲了由于很多Call Home的功能,银行是不被允许的,厂家没有办法远距离解决问题。第二,没有进行有效的存储性能监控,当现有的系统购买了很多存储系统以后,有一个问题,存储系统状态如何?能否满足我半年以后、一年以后业务系统的支撑要求。另外,有没有系统的瓶颈,客户在这方面比较担心。还有没法有一个很好的统计报告的系统不仅对系统管理员,尤其是对行里面的领导生成一个总结:这个月的存储系统非常稳定,下个月也没有问题,没有这样一个系统,对整个存储运维造成了很大的麻烦。

  我们根据建行在存储管理方面的需求,设计了一套TPC存储管理系统,这个是我们在建行实施的TPC的管理架构,这是一期的架构,底下是Maimframe的系统,当时是八台主要的核心服务器,在这当中安装了4个CIMOM Agent采用两个卷的信息,TPC服务器作为存储管理的平台,收集所有存储管理的信息。第二,集中事件处理,因为我在存储管理中不仅管理磁盘,发生故障还要把交换机的信息,交换机的事件,相关的带库的事件都输入在一起,包括事件的服务器,以及事件处理得服务器。同时转发到建行的总控中心里面去,包括性能中心和报表的服务器。在存储解决中实现了故障和事件管理,存储的拓扑管理,存储的整体评估以及整体的分析,资产情况的管理,每周每月的定期报告。根据专家的分析和讨论,在上这个系统的时候,评估了很长时间,在测试机上做了一个样本采集,经过一个月、两个月采集以后,分析出核心的建行比较关注的指标。TPC能够采集的指标有好几十个,其中这10个比较关键,所以我们做了这样的一个定制,这里面还包括了事件管理,从这里面还可以看到开发,把事件转化成建行能够理解的信息状态。

  CCB现在已经成为亚太区很重要的案例,所以在很多的网站都发表了,这个项目的实施也是分了三个阶段,也花了相当长的时间,最后帮助客户在存储管理中遇到的问题。 作为IBM存储架构管理解决方案,能够从三点:第一,可视化。能够发现存储管理状态所有的状态,采集它所有的信息;第二,通过可控化方式。能够实现配置管理、变更管理、故障管理分析以及存储健康状况评估分析;第三,能够实现自动化。不仅是自动化生成存储运维报告,能够与存储流程解决方案整合在一起。今天上午专家讲过,IBM有Storege process manager,能够自动化地帮助我们做存储运维,第三通过可视、可控进行自动化的存储运维。 

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章