科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算胡松年、金钟:生命不息,超算不止

胡松年、金钟:生命不息,超算不止

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

今天我们谈的话题是跟我们每个人息息相关的,我们用一个非常著名的电视连续剧《康熙大帝》的主题曲,就是“我真的好想再活500年”。其长命百岁一直是中国人长久追求的一个梦想,从古代帝王到现在很多人希望我们是不是活的更长一点。我们今天的话题跟我们生命息息相关的,为此我们请到了两位嘉宾,分别是中国科学院北京基因所研究员胡松年先生。

来源:ZDNet China 2012年4月19日

关键字: 高性能计算 超级计算机 浪潮

  • 评论
  • 分享微博
  • 分享邮件

专访嘉宾:中国科学院北京基因组所研究员 胡松年

中国科学院计算机网络信息中心超级计算机中心副研究员 金钟

主 持 人:赵效民

胡松年、金钟:生命不息,超算不止

赵效民:各位观众大家好,欢迎收看《走进超级计算机》系列视频节目,我是至顶网的副主编赵效民,也是这期节目的主持。今天我们谈的话题是跟我们每个人息息相关的,我们用一个非常著名的电视连续剧《康熙大帝》的主题曲,就是“我真的好想再活500年”。其长命百岁一直是中国人长久追求的一个梦想,从古代帝王到现在很多人希望我们是不是活的更长一点。我们今天的话题跟我们生命息息相关的,为此我们请到了两位嘉宾,分别是中国科学院北京基因所研究员胡松年先生。

胡松年:大家好。

赵效民:另外一位是中科院超算中心应用专家金钟先生。

金钟:大家好。

赵效民:我们今天的话题是超算与生命科学,那么我们先有请胡松年先生给我们解释一下什么是生命科学?刚才我举的例子是不是打杂的?我想要再活500年跟生命科学有多大关系呢?

胡松年:可能从500年感觉上是遥不可及,是神话的东西,但是其实从现代的科学来,从生命科学来研究的话,不管我做动物、还是做植物,其实最终的研究目的是使人活得更好,我们说生命科学到底做什么?其实最终的目的就是服务于人类,服务于健康。而且它的目标不仅仅说让大家活500年,而是要活得很好,要有质量,所以我们经常说做植物为什么要研究水稻?为什么要研究小麦?就是让它更有营养、更高产。为什么要研究微生物?因为我们对影响人的很多种传染病,像非典这种都有很好的预防措施。虽然生命科学对我们来说零零总总,归根到底就是最终为大家的健康来服务的。

赵效民:我们能不能列举一下目前中科院在生命科学这个领域主要的研究方向和取得的进展?

胡松年:不光是中科院,包括高校、整个国家的趋势,其实生物领域因为本身的研究方向就非常非常的大,然后我们经常说生物领域到底是什么?只要不是石头,只要生命体里面有DNA、RNA都是我们研究的对象,从整体的研究方向来看主要分成几个方面:一个方面是和人类健康相关的,包括现在只要花一千美元就可以自己把基因组做出来了,身份证一扫描都就有我自己的基因组信息,会对我们个体的医疗有更大的帮助。

赵效民:怕泄密?

胡松年:对。另外一方面就是像水稻,让它产量更好、口味更好,这样的话对大家的健康更有利。

赵效民:这算不算转基因食品?

胡松年:其实还是不太一样的,转基因是一个很敏感的话题,大家经常会说我怎么吃了一个水稻里面结果里面有一个比目鱼的基因在里面,或者有一个杀虫子的基因在里面,大家都会非常的紧张。其实从转基因的角度来讲,我们举一个很简单的例子,我一个桃和梨嫁接起来大家认为它是转基因吗?可能很多人不认为是转基因,老祖宗一直这么做,但是从分子的角度来讲,他是更大范围的转基因,其实更大范围的转基因,争论就是对人体或者对环境的影响如何?我想更多的是在对转基因的规范性和长期的检测性上来做。但是从总体上来说的话它尤其对人类食品、尤其是对产量的提高等等还是有很大重要的战略意义。

另外一个超算这个学科交叉性是非常非常强的,因为今天大家都在讲超算,我们非常高兴有这个机会,为什么?因为超算对我们来讲,尤其我的专业是研究基因组,研究人的基因组,研究水稻的基因组,我们是什么?我们是种水稻的,超算是什么?对于我们来说就是蒸米饭的锅,我没有这个锅我就得吃生米,我就没有办法吃饭,必须用这个“锅”才能对我做出来的东西进行后续的研究,所以其实也很高兴现在鼓励学生更加重视超算的重要性。

赵效民:您刚才进出了我们这个话题,超算对生命科学的关系。从研究人员的角度来讲,您怎么看待超算对于我们做生命科学研究的帮助?我们也知道金先生也是负责中科院超算中心的应用,听听金先生怎么看待我们的超算中心,我们超算如何更好的为科研人员提供应用的服务呢?

金钟:首先我觉得超算中心就是说生命科学它作为一个21世纪当中人类最重要的一门科学,它不仅仅是在它自己的领域当中有非常重要的地位,那么对于我们超级计算机的应用来讲,它也是非常非常重要的一个领域。我们可以看到,对中国来说,我们现在有一个非常大的超级计算机研究计划,包括应用的一些项目在里面,那么生命科学始终都是我们最重要的领域之一,我们看过了自己,再看世界上超算做的比较好的,像美国,美国有很多的超级计算机,我们知道在最新一期发布的TOP500上面,TOP500是世界上最快500台超级计算机的排行榜,美国大概在上面占了50%多一点的份额,那么他的机器里面大概可能最重要的领域之一也是生命科学。那么还有像欧洲,欧盟也有大概四、五个这样大的超算中心,他的一台机器也是作为重要应用领域的研究。那么回过头来看日本,大家都知道最新的一期TOP500上,日本的“K”,非常快的一台机器,恰好我之前访问了他所在的机构,当时介绍的时候它也有专门的这样一个研究生命科学的机构,在它超算中心的机构里面,专门做生命科学的研究,它在这上头,研究计算机之初设定五大战略领域,生命科学也是他非常重要的领域。从计算的特质来讲,可能我们从这种传统的化学手段走过来,在分子层面研究计算生物这样的研究,还有一些像胡老师所做的基因组研究,他们用基因组学的角度在更高的层次上面进行一些科学研究的工作。那么超算在里面发挥了非常大的作用。可以说我们现在无论从分子层面上的计算来讲,还是对于基因组学级别的研究来说,我们知道像基因组学有大量的数据,现在的数据基本上他的量级是在几十T,上百T,甚至于因为它是一个呈爆炸增长的过程,在这个级别上应该说如果没有超级计算机,这个工作完全没有办法进行。这个就像是如果我们生活当中没有电,我们的生活就变的一团糟一样的道理。

赵效民:打断一下,我想解释一下50T是什么概念?现在大家很清楚的知道有50GB的蓝光DVD的版本,50T基本上就是您得买一千多张盘的容量,你要买一千多张蓝光DVD放在家里会占用不少的空间。那么请金先生明确的告诉我们超算对于生命科学的帮助。我就不太明白,胡先生给我们讲一下,我这么一个人体里面包含了很多细胞,需要多大运算量把人算清楚?

胡松年:实际上是这样,人一般有30亿个碱基排列起来,但是这样一个特点这是你的基本单元,每个细胞里面都有这么一套东西——

赵效民:每个细胞里面都有这么一个?

胡松年:每个细胞里面都有30亿个碱基组成的DNA分子。那么会问另外一个问题了,你为什么有肌肉?为什么有肠道?为什么这个地方形成眼睛?这30亿个碱基是一个单元,生命的奇妙性就是它在不断变化,我用这些基因表达一下,你这个地方就形成眼睛。为什么外国人长的是蓝眼珠,我们是黑的,所以说生命科学的奇妙性不仅仅是一个静态的测一个序列,把30亿个碱基排列起来就可以了,去看,去预测,去判断。比如说我们根据您的序列去看,我和其他人比一比?和其他中国人比一比?和其他致病的基因比一比?比如说家族里面有糖尿病,我们去判断,像我们家有糖尿病遗传,就判断我自己是不是有这样的风险?我如果有风险话我会吃很少的吃糖,我要多运动等等,他的重要性预测一下就可以了,他还有非常非常多的工作,从我们完成技术的角度来说,经常就是说我测一个基因组,因为现在他测序技术并不是简单的,我把我的DNA撑成一个线,一个一个读起来,这是现在达不到的水平,就像刚才金老师说的需要非常大的量。比如我们做一个基因图,要求的原始数据至少要在几十个G的水平,把这些一点一点排列起来,没有计算机是根本不可能的,像在我的实验室里,我们虽然说是生物实验室,但是很多老师一去就说,胡老师你们实验室怎么没有人干活呢?我们研究所08年开始建立超算平台,当时存储买了800个T的存储,用了不到10个月满了,数据量非常非常大,然后现在今年一共花了1500万把存储升到一点几个P的水平,然后超算也是这样,08年的时候买了十万亿次,当时说生物口里面我们是很高的,现在不行了,今年升到四十万亿次。整个生物学的快速发展,其实很大一个推动就是得益于计算,生物跟超算的快速结合,三年前同样的数据我用一个月算完,而现在计算机的快速发展我可能只需要一周时间就可以做完了。

赵效民:所以我们看出来每个人都是超大容量的数据量的集合体,在他们眼看来这个人至少有几个P的存量。我们感觉到生命科学还是非常奇妙的。金老师能给我们打一个比方,比如说我们一般人使用电脑,干您那个工作,我们这个电脑得用多长时间?

胡松年:干我们的工作?

赵效民:对。

胡松年:基本上放在那个地方一年休假就可以了。这种数据量普通电脑是根本没有办法承载的,因为它不光是很复杂,生命科学跟气象遥感比起来,感觉生命科学数据量不是很大,跟一个网站不管是新浪也好,搜狐也好,一天的访问量非常高,但是生命科学复杂性就是它是立体的,在很多层次上去研究。我们曾经跟大的计算中心讨论过,我们怎么去买存储的问题,他们跟我们说,胡老师我们有非常现代的,我们根据使用量来决定怎么给你存数据,不像网站,我一个新闻报过了,可能大家三天以后大家不补点击它, 我们数据特点是这个数据放在这个地方,一个月以后我们可能还要用,三个月以后我还要用,五年以后我可能还要用,他的复杂性不是靠自己家里有一个小电脑可以做的,绝对不是一个作坊式的研究,我们拼命给金老师这边示好,金老师给我们点存储吧,给我们更多资源吧,就是因为他运算的复杂性来说,其实比一个单纯做网站要求有更高的质地层次,我们很高兴这是一个大学生的竞赛,我们跟越来越多的大学生去关注我们的专业,我可以在这个地方说,现在我们这个专业做超算的学生是一票难求,不管是出国还是什么,而且这个专业永远不会失业。

赵效民:刚才您说一票难求是非常重要的,但是资金也是很重要的。

胡松年:对。

赵效民:刚才我们谈到了超算在生命科学里面的应用和生命科学有非常巨大的需求,其实很多人觉得计算能有那么重要吗?这就是超算,为什么叫超算?超级计算。还不是普通高性能计算,这是非常强烈的一种计算需求。刚才我们也谈到了这两位嘉宾全都是来自中科院的,我们也看出来关系都非常好,算是应用的提交方,另外一个可能是高性能计算中心的,看看怎么能满足客户的需求。金老师从您的角度来讲,是不是胡老师这种人是比较可怕的,您不愿意招惹他,怎么从一个高性能计算中心的角度来面对这类高水平的应用,对于胡老师这种应用需求,需要什么样的计算系统才能够面对这种无止境的需求?

金钟:其实我们做超级计算机的目的是什么?我们根本上是要满足科学家的需求,需求推动大计算机系统的建造。无论是国内也好、国外也好,生命科学一直是超算最重要的应用领域。就像胡老师刚才提到的,生命科学的计算工作不是一般的笔记本能够完成的,至少需要达到几十万台笔记本的处理水平。比如像水稻的计划,千人基因组的计划,如果是普通的电脑,我估计咱们在场这么多人多少辈子恐怕都处理不完。

赵效民:重孙子?

金钟:不是重孙子数都数不过来,这个计算量首先非常大。因为他这个计算有一个特点,它需要特别大的内存的机器,就好比说,需要有足够大的舞台,同时需要有足够多的这样的舞台,一个大容量的舞台可以让更多的人去表演,足够多的舞台能让很多节目同时上演,还需要一个很大的后台,保障节目的顺畅举行。

赵效民:打断一下,我们知道平常的笔记本最高是四个核,这边一下子就是一万多个核。

金钟:实际上据我们估算,根据数据量的增长和计算量的增长,可能在今后五年达到相当于我们计算机是100T,其中1000个T等于1个P。“天河一号”达到了了PB级的计算能力。

赵效民:您所说的处理我计算上了,我上午计算完了我下午下班就出结果了吗?是这样一种需求吗?

胡松年:因为超算促进了生物领域的发展,生物领域是贪得无厌的需求,又对超算提出了永无止境的需求,08年我们建立的系统存储达到800T,不到十个月就满了,今年中国科学院北京基因组所计划投入1500万建设存储达到1点几个T的存储,计算力从10万亿次升级到40万亿次。生命科学的发展与超算的发展紧密相随、相伴,赵效民:永远饥渴。您刚才说的1P就是现在阶段比较理想的目标,是永无止境的。

金钟:从超算来讲,你如果有这么大计算力以后,他会自己鼓励科学家去产生更大胆的设想,更大胆的设想促使他们对计算能力的需求有一个更大的想象空间,这样话有点像鸡生蛋,蛋生鸡的这样一个往复循环,互相促进不断推动两个领域的技术一直向上发展的特点。

赵效民:这是踏步走的过程。应用跟上了,就需要更大的机器,有更大的机器你怎么用的好?那时候是上千万个核,如果把GPU的都算上的话,上千万核,你怎么用也是一个很大的挑战。我们总结一下胡老师您的工作能不能用四个字“生命不息,计算不止”。

胡松年:绝对可以。

赵效民:胡老师,如果用一句话来总结一下超算与生命科学的关系,我觉得是八个字:“生命不息、计算不止”。其实刚才我们说的都有点虚,您能给我们拿一个很实在的例子跟网友分享一下,让我们了解超算对生命科学的帮助吗?

胡松年:好。刚才讲到一些都是大家觉得意识层面上比较多,讲一个比较实在的例子,我们和沙特来完成的中沙椰枣基因计划,椰枣大家都知道,他是在中东地区最主要经济的作物,在沙特放在国徽上面的,为什么讲这个项目呢?一个是很高兴的我们的国产的高性能计算在生物领域第一次走出国外。我们在沙特的实验室配备的完全是纯国产的超算的整个一套设备,不管是从刀片还是存储,浪潮的服务设备。另一个是这个项目非常重要,09年胡主席访问沙特的时候专门去这个地方访问,大家都很重视,不仅仅是一个单纯的科研项目,而是一个整个中国的科研能力,包括我们计算机的能力。说起来这么大的一个项目来说,它从最初的开始采集数据,到最终的后面的整个后续计划话每一步都是离不开超级计算机的,首先第一个我们要对未知的序列的排列,在这个序列的排列过程中我们这两年的时间,前前后后产了几百个G的数据,这些数据都用超算的设备从杂乱无章的一个一个排列通过高性能计算排列成有序的形式。第二步我们经常说的我们测的是无字的天书,而这一个点标点符号了解他所含有的生命意义全部靠超算来进行完成,我们那边的设备也是十几万亿次的运算的能力。那么就是因为整个项目的一个顺利的完成,这个项目已经结束了,把文章投入到国际高水平的杂志上,不仅仅是说中国的团队,包括我们的高性能计算的这种机器的稳定性都得到了他们那边的大家普遍的认可,我们机器升级,那边也进行大规模的机器升级,升级做什么?因为有了超算的保证,下一个计划开始,因为我们当时做了一个种植品种的基因组合序列,下面要做对他当地几百种这种不同品质的椰枣都要进行测序,在这种超算找出序列之间的差异性,为这么这棵树长的很高,为什么它产的枣子就更甜一些,中间通过这些差异希望以后能够培养出生产又好,又抗病,又在大家觉得口感更好的枣子。赵效民:金老师这边也有比较现实的例子吗?比如说是不是有老听人说医学上的什么病毒或者怎么着,药品研制也跟超算有很大的关系。

金钟:实际上是这样的,在现在的药物设计和药物研究当中像虚拟药物筛选,超级计算机在中间起到很大的作用,这些都是化合物,这些药物,人根据他不同的功能集团设计出有功能药物的时候,我们需要验证我们的设想是否是正确的,因为我知道我们有一些化合物来说由于结构的差别,有些可能是药物,有的可能起到相反作用的化合物,很可能大家知道像分子这些小球球,小棍棍,大家把它理解成这些,有的像树枝上的树杈,他的结构和排列顺序是千变万化的,实际上我们设计的时候可能人只能够判断出哪些结构是可能组成分子的,或者说可能具有某种作用,但是是不是有这种作用呢?过去的办法只能我做试验一样一样试,但是现在由于有了高性能计算机的出现,利用一些软件,利用一些化学或者生物的原理来验证它是否有这样的功能,比如说虚拟药物筛选当中,用一些技术我们还可以用分子生物学的一些模拟的技术,那么来验证。像之前的时候曾经我们科学院的药物所是跟我们合作在达菲药物发现的时候,主要是应对甲型H1N1的病毒的流行,当时我们是用超算的手段把计算过程进行并行化可能把原来需要几个月才能够完成的率筛选的计算缩短到十天,一两周这样的时间范围,这样在突发疾病的危险面前可以大大加快药物研制的时间,应该说起到了非常好的作用。那么我想就是说超级计算机除了在这种方面,我知道在国外还有一种做像易感人群的模拟方面,发挥一定的作用,比如说一个传染病出现以后,根据城市人群的特点,如何预测他流行的趋势,像我们在03年的时候非典的时候现在可以看到怎么去流行?来了一个当时超级病毒携带者,像这种情况的时候如何预测流行的趋势?采取更好的有效的预防措施。那么超级计算机在当中还是起到非常重要的作用。

赵效民:可以看到超算一方面能满足我们的口福,一方面还能治病救人。另外,这次是首届中国大学生超算大赛,请两位想谈谈对大赛本身的看法?

胡松年:因为我们是用户,当我听说有这个大赛,真的是非常高兴。这样的大赛会鼓励很多很多的大学生坚定地从事超算的研究,也正好借这个机会呼吁,希望做计算机和做生物的同学多关注超算在生命科学领域的应用。

金钟:首先听到这个大赛的信息,我自己还是有一点激动的。我注意到国外对于高性能计算尤其是在本科大学生这一层次,他们的教育推广还是比较成功的。这个领域我认为是一个实践性比较强的专业领域,像并行计算、组建大型的超级计算机,我们很多的学生实际上没有很多的机会去体验。如果说你想体验高性能计算的威力、想组建高性能计算机,必须进行实践,对它的体系架构有了解。通过这样一个竞赛,对于咱们国内的大学生来讲,他们有很好的机会向世界展现中国大学生高性能计算方面的能力。对咱们冠、亚军队寄予厚望,这次比赛我相信他们能赛出很好的水平,参加本次比赛的都是国内高性能计算实力很强的学校,我想到国际上一方面是能够更好的能够跟国际上这些先进国家的大学生更好的交流,学习,另外也希望他们真正赛出好成绩,拿到NO1,为我们国家争光,为我们国家高性能事业后继有人。在国际上获得更好的地位。

赵效民:我们预告一下,6月17号到20号在德国汉堡,ISC全球的大学生超算比赛的决赛将如期举行,现在有5个名额,3个名额已经有了,剩下两个名额等中国的比赛的结果。期待明天最终结果的出现,也预祝我们的参赛队最终在德国汉堡为国争光。今天这期走进超算的视频节目到此告一段落了,非常感谢两位嘉宾带来非常精彩的讲解,让我们走进超算,走进生命科学。谢谢大家!

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章