科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网服务器频道高性能计算华大基因:MIC适用于基因测序 应用效果超出预期

华大基因:MIC适用于基因测序 应用效果超出预期

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

在具体的英特尔MIC应用方面,华大基因已经做了一些具体的工作,目前已经移植了两个软件到MIC上运算,这两个软件都已经在做了,这个软件是BWA,是做序列比对的,已经有一些初步效果。

作者:王涛 来源:ZDNetserver频道【原创】 2014年1月16日

关键字: HPC 英特尔 MIC 高性能计算

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网服务器频道 01月16日 评论分析(文/王涛):基因工程是一个不为大众所熟知的学科,但却在预测疾病、制造医药方面发挥着非常重要的作用,作为国内专门从事于基因研究的机构,华大基因自1999年成立以来,先后参与了国际和国内基因组科研工作,并奠定中国基因组科学在国际上的领先地位。

“每个人都有万亿个细胞,每个细胞里面都有23对染色体,这23对染色体就携带着人的DNA信息,将23对染色体里含的DNA拉出来大概有两米长,基因蕴藏着人的生命密码,这也是非常复杂也非常有意思的地方。”华大基因高性能计算研发主管王丙强博士这样说道。

华大基因:MIC适用于基因测序 应用效果超出预期华大基因高性能计算研发主管王丙强博士

除了科研,华大基因与制药公司都保持着比较多的合作,王丙强博士以最近华大基因正在分析的膀胱癌项目为例,只有通过对组织进行测序分析,才可能发现导致膀胱癌的重要原因,继而研究怎么治疗,怎么预防。

数据量快速激增

“做1M的基因序列测序,在2001年的时候大概6000美元,现在大概只需要10美分。”以前做一个人的基因组要花十几亿美元,现在花几千美元就可以做一个粗略的,王丙强博士介绍,成本降下来的同时数据量出现了疯狂的增加。

大量的数据本身没有什么意义,但是对数据读完了之后进行处理分析就能提供关键的信息,这其中华大基因对计算能力的需求非常巨大。华大基因很早就和英特尔开展了合作,“我们机房里服务器大部分都使用英特尔的处理器,现在也在尝试采用英特尔的至强融核来做一些应用,主要是运用MIC来解决这么多数据的计算分析问题。”王丙强博士说道。

在临床应用方面,借助英特尔这些计算和加速器也能大大提高效率,以测序为例,以前传统的方式最起码需要几个星期时间,而现在8个小时就可以完成,因此能在医疗上带来很大的改善。

另外,一些医疗检查需要很快拿到结果,在非常紧急的情况下,如果数据分析时间很慢的话是不合理的,王丙强博士认为,这种场景里也可以考虑使用高性能计算,特别是英特尔MIC技术。

MIC应用成效初显

在具体的MIC应用方面,华大基因已经做了一些具体的工作,目前已经移植了两个软件到MIC上运算,“这两个软件都已经在做了,这个软件是BWA,是做序列比对的,已经有一些初步效果。”王丙强博士说道。

经历了越来越多的基于MIC的应用实践,华大基因也总结出一些体会,王丙强博士认为,现在MIC这样的架构适合大块数应用,大批量的数据进来之后做大量的计算,很平滑的对数据进行处理,对每个元素都做研究。

“一开始,我们考虑将应用搬到至强上,其实是有一些顾虑的,包括内存、代码分支,以及200多个线程的随机访问效果,但是实践证明,做下来之后效果大大超过了我们的预期,性能还是相当不错的。”王丙强博士说道。

华大基因对MIC的使用始于2013年上半年,“上半年开始做这个项目,采用的模式是应用领域软件的专家加高性能计算的方式来做,两边都有同事参加进来,因为做一个具体领域里的问题要有领域里的知识,但是做高性能计算的人往往没有领域里的知识,所以我们一起做这个工作。”

从一开始到后来一点一点把性能往上提,华大基因用了很多高性能计算的算法优化办法,包括多线程负载平衡、线程调度、内存分配等,王丙强博士表示,优化之后,性能还是相当好的,整个性能比一开始刚移植到MIC上去跑翻了一倍多。

因为英特尔MIC毕竟还是一个新的技术平台,王丙强博士坦言,华大基因现在也仍是在学习的过程中,感觉这么短时间里做得还是相当不错的,基本上一个MIC超过两颗分别12核的SandyBrige处理器的性能。

尤为值得一提的是,将软件移植到MIC的代码工作量不是特别大,“一些常规的优化工具都可以用得上。”王丙强博士说道。

下一步规划

1999年成立的时候华大基因只有几台测序仪,现在各种各样的测序仪加在一起超过一百五十台,“原来只有几台测序仪的时候我们可能有几台工作站就能把数据处理掉了。现在这么多的测序仪,满负荷运转一天就是十几TB的数据,需要很大的计算处理能力。”

王丙强博士提到了华大现在正在做的百万人基因组项目,当面对这种规模的数据时,华大基因的计算能力仍显得有些不足,因此一方面华大基因自己也在扩充自身的数据中心,另外也在考虑使用天河二号这样的超级计算机。

“因为这里面需要的计算能力确实非常大,重点我们看怎么用MIC来加速这些计算和分析的过程。” 王丙强博士补充道。

华大基因:MIC适用于基因测序 应用效果超出预期华大基因健康云运营总监官鑫先生

如今,病人的病历信息跟一些影像数据,结合数据量的大小和实现的要求都很高,“包括进行健康检查的时候,现在科学技术还不够发达,如果真的发达,大家的基因可能每年做一次检查,对基因突变进行监控,毫无疑问只有计算能力好了我们才能想出更多的项目。” 华大基因健康云运营总监官鑫先生总结道。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章