扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
ZDNet至顶网服务器频道 06月27日 评论分析(文/王涛): 人类要全面认识自己,对人类基因的探索是一件极其重要而又神圣的使命,人类的基因蕴藏着无穷的奥秘,并极有可能为预防和解除人类重大顽疾开辟一条新的道路。
作为国内首屈一指的专注于生物基因研究的科研单位,华大基因自1999年成立以来,先后参与了国际人类基因组计划“中国部分”、国际人类单体型图计划、水稻基因组计划、家蚕基因组计划、家鸡基因组计划、抗SARS研究、“炎黄一号”、大熊猫等多项具有国际先进水平的基因组科研工作,在Nature和Science等国际一流的学术杂志上发表多篇论文,迅速奠定了中国基因组科学在国际上的领先地位。
“华大基因的研究主要专注在人类健康、植物、动物、微生物,2007年我们与英国共同启动千人基因组计划,2009年与欧洲进行人类肠道菌群的研究,这些研究都是比较重要的,并对治愈糖尿病或肥胖症有重大影响;中国人口众多,粮食比较短缺,华大基因希望能把水稻基因组图谱测出来,我们现在也和袁隆平院士展开合作,来做杂交水稻,我们测水稻的基因,从基因挖掘角度来帮助更加的优良品种的筛选。”华大基因高性能计算研发主管王丙强这样说道。
在美国、日本、欧洲之后,2011年全球第四个基因库正式落户深圳华大基因,这也是华大基因第一次开始把信息库跟资源库共同管理,华大基因库除了存放信息之外,同时还存放生物样本。
两个重要分析步骤
在基因的研究中离不开强大的计算能力,王丙强看来,华大基因的核心竞争力之一就在于测序能力,现在华大是全球最大的基因测试中心。“我们最大的测试平台在香港,大概有80台测试仪,深圳大概有20台。”王丙强补充道。
华大基因的基因研究可以分为几个阶段,第一步是测序,第二步是序列比对,而这两个环节中都离不开一个计算组件,那就是GPU。
“在华大基因的测序中,采用的是2010年的数据,GPU应用还没有非常广泛,但是有一些做测序仪的厂商,已经开使用GPU来加速,把图像转变成基因序列。”王丙强这样说道。第一步是在测序仪上做,经过GPU对原始数据的初步处理,然后再传到计算中心和存储中心去。
之后,华大基因最常规的业务是对序列进行检测,看序列中是否有独特的地方,有什么变异,也就是序列比对。
“我们的目标是找出每个人基因组之间的差异。”王丙强表示:“通过序列比对的方法,就可以找到类似这样的差异,人类基因组计划已经有一个测序完的样本,这样可以把其看做一个参考序列。我们测每一个人的基因组测完了之后,得到一系列短序列,找出个体和参考序列之间的差异,通过把这些短的序列,跟参考序列去做一个比对。目前这一步分析主要是NVIDIA GPU上跑。”
目前,华大基因自身的超级计算中心机房已经遍布深圳、香港、北京等地,由于生物数据量大,用海量来形容一点也不为过,所以华大基因也和天津超算中心展开合作,来提高数据的组成和传输能力。
借助GPU突破计算瓶颈
数据量大是华大基因面临的一个的难题,王丙强以测序过程中产生的数据为例:“我们测序仪如果全速运转,基本一天产生的数据大于10 TB。像一个人身体里面的细胞有23对染色体,一个细胞拿出来有两米长,这上面有30G的序列,上面的编码大概是3万个基因。”
测序的样本主要是人体组织血液和口腔细胞,样品采集完之后放到测序仪中,在测序仪里产生的数据是几个字母排成的序列,但是测序仪不可能把完整基因组全部读出来,只能读很小的一个片断,所以对于后面分析时候,要考虑如何将这些小的片断组装成一个完整的基因组序列,也就是基因组组装,王丙强表示,这是信息分析里比较重要,也是比较困难的问题。
而且,基因数据的产出量基本上每18个月就要增加一个数量级,所以数据产出量一直处于快速增长的状态。“99年华大开始做测序时,那个时候只有两台测序仪,并且测序能力很低,现在我们每天都有大于10 TB数据的产出,增长的速度比较惊人。”王丙强如是说。
然而数据量快速上升,相应计算能力如何保障?华大基因的存储数据量已经达到20 PB,在起初华大基因用CPU来压缩数据,用来压小的文件速度很快,但是对于几GB或者是上TB的数据,CPU就难以满足要求,所以华大基因使用NVIDIA Tesla GPU来加速数据的压缩。
此外,王丙强提到另一个趋势,因为临床要求比较快,对于一些重要检测需要马上得出结果,如果说过两个星期出结果,这个是不能接受的。王丙强表示:“因此把基因测序用在临床诊断上,时效性是比较重要的,Tesla GPU计算能力的提高有助于我们解决这些问题。”
“普遍而言,NVIDIA Tesla GPU的使用能给应用带来10-20倍的加速,特别是借助天河一号做高级分析,像人类基因突变,能给运算速度带来极大改善,光这一部分计算提速大概是70多倍,我们之前自己写过原形代码,大概要好几年才能算完,后来到天河一号上运算,用超级计算机加上NVIDIA Tesla GPU加速,只要5个多小时就能完成。”王丙强说道。
小结
在基因研究和临床医疗应用中,序列比对和寻找基因变异是重要的分析步骤,也是主要的计算瓶颈所在,特别在临床应用上具有更高的时效性要求。为此,基于英伟达基于Tesla平台,开发了应用于序列比对的SOAP3/SOAP3-DP,以及分别用于个体和群体基因变异分析的GSNP和GAMA。
英伟达公司高级项目经理邓培智表示,借助英伟达Tesla平台,综合利用以上技术和软件,性能是其它主流软件的数十倍,并且具有更高的准确率和比对率,解决了基因研究中最基本的分析瓶颈,同时提高了后续基因变异分析的准确度,降低计算和存储成本,特别是临床诊断治疗的时间成本。
“在英伟达Tesla平台支持下,我们正努力推动基因组学研究实际应用转化,为大众健康幸福保驾护航。”邓培智说道。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者