科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航



ZDNet>服务器频道>ZD评测>ChinaGrid专家郑纬民:ChinaGrid第二期更令人期待

ChinaGrid专家郑纬民:ChinaGrid第二期更令人期待

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

近日,China Grid 2009研讨会在山东烟台举行,会议的重要议题就是有关ChinaGrid(下文简称CG)的二期建设,而在会议期间,我们也有幸采访了CG专家组副组长、清华大学教授郑纬民先生,以及长期密切关注并积极参与CG建设的英特尔(中国)有限公司大学合作经理郭朝峰先生,了解到了有关CG二期的规划和愿景

来源:ZDNet 2009年08月26日

关键字:高性能计算 高性能计算

近日,China Grid 2009研讨会在山东烟台举行,会议的重要议题就是有关ChinaGrid(下文简称CG)的二期建设,而在会议期间,我们也有幸采访了CG专家组副组长、清华大学教授郑纬民先生,以及长期密切关注并积极参与CG建设的英特尔(中国)有限公司大学合作经理郭朝峰先生,了解到了有关CG二期的规划和愿景。

左为CG专家组副组长、清华大学教授郑纬民先生,右为英特尔(中国)有限公司大学合作经理郭朝峰先生

ChinaGrid二期的综合规划

您能否简单介绍一下,CG二期的一些规划,比如投入大概是多少?据今天了解它涉及的学校可能有43所,在这里面大致有几个重点?因为可能一期有5个这样的网格环境的重点,在二期有哪些重点?能不能详细的介绍一下这方面的情况。

郑纬民:二期我们想这样做,第一件事情,我们要建六个中心,就是要买大的六台机器,搁在六个地方,这六台机器用互联网联起来,现在都用互联网联起来了,联在一块作为我们以后二期的资产一样,提供给老师、学生做服务。第二件事情,因为是学校,我们要建8个重点学科网格。即力学、材料、能源、气侯环境、计算机、媒体计算、法律、网络行为,一共8个。

至于什么叫学科网格?我可以举个例子,比如说计算机吧!我们要建立一个计算机的重点学科网格,计算机系的学生、老师、研究生等,希望进入到我们这个重点学科网格里,能查到我们很多计算机学科有哪些期刊,最好的期刊在哪里?现在最好的会议在哪里,这个会议有哪些重要发言,就这些东西他都可以拿到。比如我做高性能计算的,我们找一个博士生,他来之后的第一件事情就去看看高性能计算,不知道有哪些期刊是介绍高性能的,不知道有哪些会议是高性能计算方面的事,国际上有哪几个组做高性能计算研究的,现在有哪些计划在做高性能研究,他本来去查这些事情,但太费劲了。对于一个新来的人,尤其查证上,他进入我们重点学科网格,他很快就能拿到这些信息。你看过去好象这个信息都给整理好了,而且这样整理好了以后,还会不断动态的增加。每次都可以增加。比如我们会把CG的年会,每年的年会的文章、披露的情况,包括录音、录像都放在里头,他想看什么就可以看什么。你想想这些数据都能拿得到,包括多少篇最好的文章马上都可以拿得到。这是这个网格的第一类应用。

另外,这个网络中还会放上跟计算机有关的一些工具和软件,我们想把所有的Open Source的软件,有关的软件都可以放在我们重点学科网格里头。比如现在我想做一个什么情况下的模拟软件。如果你不知道这件事情,你不知道到哪个地方去找。这个软件有可能是在伯克利大学的一个计算机系底下的某一个教授的组里的软件,不明白你怎么找得到?我们现在想办法把分门别类的,比如说做网络研究的,有几个软件是比较好的,从什么地方来的。做高性能计算的,有哪些软件,做软件工程的有哪些软件?把这些软件都放在里面,你想用,这里面我们就提供,这是网格的第二类应用。

第三类事情是什么呢?就是计算。假如真的要做计算,这个东西要算一下,比如研究高性能算法的,要做一个算法研究的,但这个要算的人可能没有机器的,现在我这个重点学科网格来提供机器,你把算的软件亲自寄给我,我就负责给你算了,算完了结果就给你。

为此,我们要开发很多网格公共的软件,比如说,计算机的重点学科网格、物理的要做一个、生物的要做一个,能源的要做一个,做的时候,有些是公共的软件,我一做重点学科网格的工作,我们要开发一些公共软件,还要做一些软件的规范,大体上是三部分内容。

您刚才提到现在可能在做8个学科的网格,不知道这个现在是按照咱们高校的学科的设置划分的,还是怎么样的?

郑纬民:为什么是8个,不是10个、20个,实际上重点学科很多很多,不止这8个,主要是经费有限?由于这个原因。我们只能挑8个做。

您刚才说的六个中心的未来的规模大概是什么样的?运算能力大概如何?

郑纬民:六个规模?现在我们大概六个中心一共2000万。具体的运算能力可以这样计算, 2000万经费除以一个6,大概是300万左右。原来我们邀请一个单位,比如清华大学要成为六个中心之一,这个单位必须要配套500万。现在以300万加上500万,大概是800万到1000万这么一个价值,我们800万到1000万的话,我估计做一个二三十万亿次到五十万亿次或这个可能性是有的。做一个中心大概有三十万亿次上下这么一个情况。

实际上这2000万是教育部出的钱是吗?

郑纬民:是发改委给的钱。

您谈到资金,包括投入钱方面的问题,现在如果我们以后建成了这6个中心的话,有没有可能到市场上或者到商业区域里面,有些商业的需求,我不想自己去建这个,但是我希望有个计算机网格能算,从这个方面是不是也可以,有没有这方面的考虑?

郑纬民:因为这个是教育部的网格,我们还没有说,我们建了一个计算中心,有谁哪一个中关村的公司你到我这儿来算嘛,给笔钱嘛,还没有这样的打算。

这六个中心您能透露建在哪儿吗?还是建在原来十几个节点上吗?

郑纬民:一个建在华中科技大学,一个建在清华大学,剩下四个是东南西北各一个,加起来六个。

咱们怎么去评估?咱们学会方面有什么条件、门槛吗?

郑纬民:说句实话,其实他们还没有想明白,我昨天已经给他们泼了一点冷水了。你想想看,我给你300万,你还要出500万,还要照规定盖一个机房,但是至少要装修一下吧!还要买空调,每年的电费好几百万,这些事情都要跟校长说清楚。但是他们都还没有跟校长说呢,你想想看,说500万,要装修、空调100万分掉吧!每年的电费300、400万,这件事情一说,校长不一定,还说这个机器以后给全国老百姓、全国的老师、学生公用的,不是给你清华大学校长用的,校长同意不同意啊?搞不清楚啊。

我们知道英特尔的大学合作部是一个偏向公益的部门,我想问,CG的这一变化中,英特尔有一些什么支持?

郭朝峰:刚才介绍我们整个项目的时候就提到,特别强调在科研合作这块,一直是和郑老师这边有很多科研合作的项目和成果。具体到CG,具体时间我忘了,可能是2003年左右的时间,启动的时候,我们当时和CG核心的大概是12家学校有一些项目的合作,从2003年到2007年陆陆续续总共有20多个项目,都是和CG的合资项目来合作的。而且很多项目,包括刚才郑老师提到的信息网格的项目,我记得当时也是跟英特尔一块有一些严格的科研合作,也有科研的基金支持清华大学做这块的科研。所以很多东西包括郑老师,金海老师,李晓民老师,有很多比较好的成果都用到了CG实际的运营中去,CG的合作还是作我们科研合作里面是非常有成效的,直接就是科研合作项目的成果就能在我们学校里面,教育网格上能够直接实际运用上,所以我觉得这块是我们跟郑老师,和很多老师合作觉得非常欣慰的地方。

ChinaGrid如何管理?

这个学校建成的六个中心,完全是根据专家组的规划去建的,还是学校自己去建,专家只是给他一个标准或者指导建议?

郑纬民:我们目前的想法是,比如说清华要成这个中心,上海交大要成这个中心,最后我们选谁,我们希望这六台机器统一招标。

这些学校是怎么加入这个网格里面,比如说有一个计算机的或者生物的,有这样一个项目才能申请加入,还是怎么样?目前是43所,以后呢?如果想加入CG该走哪些程序?

郑纬民:我们过去发过一个通知,谁愿意加入,你有兴趣,就可以来,但也有人不感兴趣啊。我为什么要做这个事情啊,还有别的地方有的是钱。

这么多学校的话,他们之间的工作协调和管理是一个很重要的问题,因为有的学校对自己的学科导向是非常明确的。

郑纬民:我们现在是这样,8个重点学科,比如说这里是能源的,我们8个要招出8个负责单位作为这个重点学科的负责单位。剩下的单位都是参与的,比如说大气与环境这个重点学科,我说我要负责,也可以不让我负责,没问题,剩下的有些单位的人,可能会说,我也要负责,那我们有个PK的问题了,我也要负责,你也要负责,那就大家拼拼看究竟谁负责比较合适。

还会有竞争的是吧?

郑纬民:对。以后,比如说我就是不负责了,就参加就行了,他就负责。因此我们43个学校都要分到这8个学科里面去,只允许一个单位参加一个学科。不许参加两个,原因也是经费的问题。

这个责任和权限怎么弄?比如这个项目是我们清华大学负责,那我负责的权限怎么定?参与的话,是不是要投资人力物力?

郑纬民:钱,我们只会给他钱。人力方面,他肯定要来参与的。比如我随便说,他参与这件事,我就会给他一个经费,他肯定要有人来做这件事,不能说把钱拿走了,什么都不做,那肯定是不行的。

以前咱们有很多学校加入网格的建设中,因为我们知道很多学校他们也在自己建高性能中心,但是像您说的可能有些人对这个可能没兴趣或者说不愿意加入,您觉得这个对咱们网格建设是不是一种浪费啊?尤其对整个高校的科研力量来说。

郑纬民:怎么会浪费?我们也不觉得遗憾。为什么?他不愿意参加,你说你硬叫他来参加,他买了一台机器,已经本校已经用得满满的。你说他参加,实际上有没有用,参加了又说我的机器不提供给你的。我只是说用你清华大学机器,那我不欢迎这种事情的。我觉得它也挺好的,没问题。

咱们现在一期建成的节点,节点是各校自用的多还是作为公共的服务用的多?

郑纬民:现在我们问题在哪里呢?原来的节点在各个学校校长自己买的,我们CG一期里面并没有钱,像刚才说的建6个中心,出2000万。那时一分钱没出过,各个学校的机器,都是校长买的,因此所有的钱属于学校的,因此问题出才哪儿?说是这个机器都联联挂,我们可以用北大的机器,北大可以用清华的机器,实际上是很困难的。你想想看,我这个机器,是清华校长出的钱,给你北大用啊?不太可能啊,因此为什么要建6个中心,原因就在这儿。我这个6台机器,不是清华出钱,是CG的资源。

如果说以后有的学校,比如说华中现在建了这样的东西,比如说济南大学说我想用这个东西,它是不是有一个申请过程?

郑纬民:我们可以网上提交志愿就可以了,只要是合法的用户。

ChinaGrid的建设与云计算

您刚才说的6个中心,8个学科网格,你说有一个超算的分配问题,这8个学科网格的超算怎么平均的分配到6个中心的大型机器上,这个内部有没有一个规定?

郑纬民:现在还没有说,是不是6个中心是一样大,还是其中两个大一点,三个小一点,这个还需要进一步论证。小的中心,CG投资会减少,大的中心CG的投资会增加,上面说的一个中心投资300万是平均值。

有没有在做8个学科网格和6个中心的时候,考虑过该怎么去评价客户中心的测试包括能耗、管理、应用等等方面,现在有没有考虑做的关于评价、评测的考察。

郑纬民:评测的事情,我们做了很多,其实我们清华大学,我所在的组里头,这个名字叫高性能计算机评测中心,有这么一个中心,这个倒不是跟我们网格没有多大关系,就是专门负责评测高性能计算机的,这是科技部给我们挂的牌子,不是我自己设的,是科技部的牌子,到现在为止,我们给全国的,凡是国家投资的、单位做的比较大的机器都由我们负责做评测。我们要看这个机器真的是不是很好了,还是有问题,达到了什么水平了?我们负责测。比如说曙光5000A,联想做的百万亿次机器,都是我们负责测。因此我们是有基础的,以后六个中心买的机器,我们也测,我告诉你,我们现在这个中心到现在为止已经测了20几台大的机器了,测试结果,我们去测的时候,它已经好了,不是说它还没有好就去测,都是全好了,我们测的。没有一台机器是正好的,有些问题多一点,有些问题还不小。我们有一套测试的办法。

刚才听您说,8个学科网格里面的应用,超算是算其中之一。这六个数据中心的话,我们也知道,数据中心和真正的超算中心的配置和要求也是不太一样的。超算中心可能不太要求RAS,但是像一些日常的应用可能就比较关注RAS的标准,而且可能还会涉及到很多的数据,你们做数据中心的时候也会考虑灾备及其他的非超算的一些应用,而且超算的比例你们现在有没有一个大概的估算,比如说如果大家都在用超算的话,会不会影响到其他三个服务提供的效果,还有另外一方面,你刚才说,期刊还有工具软件,这个是由谁来提供?是这些参加网格的高校都有权提供自己的一些科研成果,或者一些开发的东西,还是统一由网格的协会统一管理这些资料。

郑纬民:这里的一些数据、软件本来是什么都没有,把它建起来,这件事情就是重点学科网格的建设目标,我们要给他一定钱的,他拿钱干什么,就要把它建起来,但是以后,陆陆续续的不是有新的进来吗,我们尽可能做成自动化。相关的高校会通过提交系统来提交,而一些没有提交的我会自动拿去的,我们会做这些软件。

至于应用模式上,你提的问题实际上我们还没有想这么细。我的印象当中,这些数据的事情,比如说里面有多少隔离,多少软件隔离啊,这个对计算机的要求还不是非常大。你想想看,文稿最多也不需要多少硬盘,需求量的要求,我估计贵还是贵在高性能机器,就是超算的机器,价钱比较贵,主要是贵在这儿。一堆服务器,就是把数据搁进去了,灾备要不要做,我们也可以考虑了,有可能简单的备份就可以了,主要是经费的事。我们最多有个备份就完了,不会说到异地去实时的灾备什么,我估计可能不会去考虑这些事,也不必考虑这些事。死了就死了,丢了就丢了,丢了再来一次嘛,这又不影响,没问题。

去年底的时候,您好像开了一个会,谈云计算,今天的CG上,我们也看了第一个演讲就是关于云计算的,我不知道CG或者您本人对云计算怎么看,它在做广泛的服务的概念,您觉得CG在这方面有没有可以借鉴的,或者说云计算对CG有没有什么影响?

郑纬民:过去我们的网格更多的强调的是把北大一台机器、清华一台机器,广州一台机器把它连在一块,连在一块来合作做一件事。比较强调高性能计算,以及计算机数据共享。现在这个云计算,它强调的是什么呢?强调服务,就是说,我有一个请求给你了,你想办法给我做完,强调服务。因此我们的CG强调设备数据的共享,强调做一件大事,大的计算,云计算则强调服务。这是第一个差别。

另外,过去比较强调把几个不同地方的机器弄到一块做这个事情,现在云计算,我的体会基本上是一个地方的机器,就这一朵云,基本上这朵云,我说,我们以后做的重点学科网格基本上是八朵云,这是一朵云,云这件事情比较专用,我们原来网格比较强调通用的。我原来12个学校的机器连在一块,做什么事情,没有说只做生物的,也可以做物理的,什么都做,通用的,现在这个云计算,它是比较专用的。比如说我随便举一个例子,Google,它老是提云计算,Google的这朵云,它只做搜索,你叫它去做天气预报,它不会做。这朵云,它是搜索云,它只做搜索。比如说,我们以后做能源的这个重点学科网格,实际上是一朵能源的云,就是说它是比较专用的,不是比较通用的。

第三个差别,过去机器12个学校连起来,12个学校的使用权是谁呢,是12个学校的校长。连到一块,这12所学校。现在我的体会,这个机器使用权基本上属于这个单位,你看Google,Google这件事情,Google这朵云是做搜索的,百度这朵云得是做搜索的。他们两朵云他们不可能连在一块,自己干自己的。因此这个差别,从技术角度来说,我觉得没什么差别,都是用并行和分布处理技术。

我想问一下,因为我们说网格的通用的计算的要求,是不是需要里面的节点的架构必须要一成不变的、统一的,比如说是X86的就都得是X86的,以后可能就不会用到RISC,或者说混合异构的系统是不是很难进入到CG的版图里?

郑纬民:不会,我们一般情况下,比如12个学校连起来,也要12个学校都有机器,连在一块,没有说一个问题,都到12个学校去做一件事,那倒希望同构的机器做起来省事一点。如果异构的没问题,这个问题得直接讲,另外的问题另外讲。没有说一定是哪一种机器。

ChinaGrid最大的作用与未来展望

如果对比二期的话,CG一期是不是完成的只是Grid Computing的计算的架构和各种技术的验证?

郑纬民:是,但也不仅仅只是进行了某些技术的验证。我只是说第一期里有这个问题,使用以前的问题,比如说,有个课题需要计算,北大的人可以到清华算,清华的人可以到南京去算,这些都是没问题的,但是进到沟通当中,这个院,北大的机器关了,不给你用了,白给你用啊?是这个问题,因此,也不断在调整。因为我们第一期有五个应用网格,有个例子就是生物信息学网格,是我们清华负责做,我们这个网格里头也是有很多计算问题,更多的是查数据库的问题。比如,做生物的人,进到会拿到一些序列,这个序列不管是基因序列也好还是什么序列,看到这个序列以后,他想研究,研究之前第一件事情要去看看这个东西究竟是人家有没有,是个什么东西?他就拿到这个序列查数据库。数据库很多,有基因数据库等等各式各样的数据库,过去怎么做呢?不是说我们网格有了以后才做这件事,过去也能做的。先拿到一个序列,他知道北京大学生物系有一个数据库,他就给北京大学打电话,你有个数据库吗?我今天有件事情要到你这地方查一查。人家说行,他就登录到这个北大数据库,把这个序列比对一下,喔,没有查到。查完以后,他给南京大学打个电话,南京大学也有个数据库,或兰州大学也有,都有的话,全要打一次电话,各查一遍,回来的数据要整理,这个事情就很麻烦,我们第一期的时候,做生物信息学网格,这样在查这件事情时,就把查询的请求交给我们这个网格就可以了。剩下的事情相当于我们到北大去查去,查完以后到兰州大学,查完以后结果整理好给他,那他多省事啊,一直到现在为止,每天都3-5万人用我们这个生物信息学网格。

CG最大发挥作用的地方实际上是它的数据库和学术资源共享么?

郑纬民:这几年下来,我最大的收获,我觉得是促进高性能计算。你要成为CG的成员吗?昨天下午一说,二期要变成6个中心了,都在争取这6个中心了,他回去就跟校长说去,校长,你要出500万买个大机器搁在那儿,校长可能会算计,说北大要盖,那他要去盖,上海也是,上海交大要盖,北大就也想盖,兰大要盖,上海交大也要盖,就西安也是,西安交大要盖,西北工业大学也要盖,广州也是,中山大学和华南理工大学,他们两个单位说,你不盖,他可能也不盖,他要盖,那么另一个也要盖。因此,又要做这件事情,清华大学可能会出钱,热烈支持这件事,因此我们上一次,也是各个学校买了不少机器,买了机器以后,我给他连到一块,您用他的机器,他用你的机器不是有时候有点问题嘛,但是他自己用自己的是没问题的,上次跟校长去说,我买机器这个人了,他如果买回来以后,没有人用,空的,他也害怕这件事情,因此他要去鼓励好多单位里的人都去用机器,因此这个事情我觉得是最好的,正是这几年下来各个学校对高性能计算起了很多的促进作用。现在很多学校用得挺好。

现在我不太清楚,这个网格,比如有一个科研院所要做很大的超算的话,现在可以做到比较动态的调配的几大中心的资源完成一项超算的任务吗?能做到这一点吗?比如说现在通过网格,通过这一个中心,运算能力可能不够,从他的机器里拿出2/3,从另外一个中心里面拿出2/3,通过网格组成一个跨网界的超算的平台,提供给某些有特殊需求的用户。能达到这种效果吗?

郑纬民:可以的。原来就想这样。但是应用有一定的特殊性。在第一期时,我们也做了。这就说明,不是说我们技术不行。你这个大问题把它分成两部分,一部分给北京大学算,还有一部分给清华大学算,是不是这个意思啊?如果分完以后,北京大学的机器就一直算到底,早上算到晚上,没事情做。最简单的事情,一个大问题分成两半,一半给清华算,一半给北大算,算完了以后拿回来结果就有了,算的中间没有交换数据。这个是最好的。主要是清华和北大之间这根线太慢。如果真的速度很快,也是没问题的。

郑老师,刚才你听到有三件事,第三件事,公共软件。能不能给我们介绍一下都有怎样的软件?它会发挥什么样的作用?

郑纬民:我们第一期做了一个软件叫CGSP,就是网格中间件软件。第一期的时候做这个软件,我们一共有40几个年轻人,就在清华大学做这个事,开发了第一版本,第二版本,效果还是挺好的,现在你到网上去查CGSP就能查得到,我们国际上都有名气了。这软件的作用就是管理网格的任务分派。比如网格相当于把北大的一台机器,清华的一台机器,南京的一台机器,用互联网连起来了,怎么把一件事情分派到对应的机器上去做,这就是CGSP的工作。

二期的话会继续做一些吗?

郑纬民:会继续做这个事。

之前听说好像2010年,这个学校的数目会达到100家以上,是吧?现在有什么不同的变化?

郑纬民:也没有说一定是100家,尽可能多,只能说,主要是现在没钱。为什么现在是43个学校呢?因为上次说了,谁愿意就来参加这个,43个学校来过了,我是一直组织按照43个,既然它们已经来过好几次了,为这件事,又不是一次。你做什么事情,他来讲讲,后天这个东西不行,过了一段时间,他又到一个地方又去讲讲。折腾了好几次,最后说你甭参加了,这个东西不好办嘛。因此,我的看法,43家学校谁愿意参加就参加。第44个呢,我们就尽可能不参加了,就是你不要来了,以后再有机会了。

郑老师,您能不能简单的展望一下,未来网格做好以后,它会是一个什么样的情况,您用两句话或者几句话来表达一下。教育类的网格会不会对比其他的一些公共计算体系产生一些示范性的作用?

郑纬民:我想如果我们第二期做完以后,对学校的教学科研肯定会起很好的作用,你想想看,我计算机专业有新的博士生,原来去找文章,我这个学生来,我一般问他,他不是做高性能计算嘛,你说说看哪五个杂志是我们最好的杂志?哪三个会议是我们最好的?我跟你说,大家多数都不知道,哪五个杂志,哪三个会议最好,我说这个都说不出来,你说怎么过日子?但是这件事情怎么去找,对他来说也很难。现在,我们把这个都列了一大堆了,当然有些工具、文章,尽可能的多,都很容易找到。还有,我提供机器,有些问题就可以上去算,原来有的学校就没法算,没机器的啊。因此,我觉得对教学、科研也好,会起到非常好的作用。

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅ZDNet技术邮件将是您的最佳途径之一。