随着海洋环境污染和过度捕捞,我国近海的鱼越来越趋向小型化和早熟早育,长期以往将无法满足我国大量的水产品供应需求并对近海渔民的生活收入来源造成影响。为了改善我国目前这种渔业现状,中国科学院水生生物研究所将现代的生物研究技术和我国渔业水产养殖结合起来,从而促进了我国渔业和水产养殖生长,近期他们采购了浪潮G1000基因一体机来进行生物基因方面的应用研究。
基因研究为中国水产养殖增加生命力
中国是世界第一大渔业和水产养殖国家,丰富的水产资源是我国粮食的重要构成部分也是我国经济的巨大来源之一。据联合国最新发布的《世界渔业和水产养殖报告》介绍,鱼品是全球交易量最大的食品类商品,价值近1300亿美元,鱼品也是人类主要的动物蛋白营养来源,占全球动物蛋白摄入量的17%,同时渔业和水产养殖也是解决就业的重要途径之一,全球人口的10%-12%是靠渔业和水产养殖为生,从这一组数据中我们可以解读到渔业和水产养殖对于一国经济发展和粮食储备的重要意义。
中国科学院水生生物研究所(以下简称水生所)是我国重要的从事内陆水体生命过程、生态环境保护与生物资源利用研究的综合性学术研究机构,曾发布过多篇具有国际影响力的报告和研究成果,曾绘制世界首个草鱼全基因组序列图谱,为我国渔业发展、海洋环境改善做出了积极的推动作用。
在水生所的研究中发现,通过对鱼类等生物全基因组序列的谱写,可以对我们选育出更优良的水产生物品种,具有基础性的科学意义,将大大加速育种科学进程,改善我国鱼类等水产生物的产量。同时,也将为水生物基因组演化、性别决定及分化机制等理论研究奠定重要基础。
三大问题困扰水生物基因研究
然而,谱写和研究水生物全序列基因并非易事,首先海量的基因数据是困扰水生物基因研究的第一道坎。以水生所联合其他机构绘制的草鱼全基因组序列图谱为例,需先将基因组随机打碎,再来测序,测序完成后再进行拼接,涉及了海量的基因数据,因此在进行数据分析时,普通的计算机已经不能满足用户的需求,高性能计算系统是必备的基础设施。
同时,高性能计算系统的设计构建不能一概而论,需要根据基因研究的数据量大小、用户量多少等具体需求有针对性的进行构建。在基因组研究中,有的课题组数据量相对较少,但是科研项目却涉及到生物信息分析,需要配置小型的分析平台;有的课题组有1-2台测序仪,数据量中等,至少需要一套十几个节点的计算设备。在数据分析中,基因研究软件种类繁多,不同类别的软件应用特征各异,如何在一套系统中让软件的效率最高,最大限度的发挥系统的性能至关重要。因此在配置系统方案时要考虑核心应用或是关键应用的应用特征,如序列比对、序列拼接应用IO吞吐大,内存容量需求高,针对这类应用要按需配置系统资源。
此外,在满足基础硬件设施的前提下,水生所还关心软件的运行或使用情况。在基因组研究中会涉及到如序列比对、序列拼接、结构预测、功能注释等众多分析类别,大概涵盖百余种软件,安装调试软件就会耗费大量的时间,且多数据软件需要在Linux的操作系统下,以全命令行的方式运行,使用起来很不方便,因此便捷化和统一的管理部署在基因研究中显得尤为重要。
浪潮G1000,针对生物基因应用对症下药
一直以来,”应用决定HPC”是浪潮设计构建高性能计算集群的核心理念,浪潮在生物基因研究方面具有丰富的高性能系统设计和应用经验是水生所选择浪潮的重要原因。
针对水生所对于原有高性能系统集群改造升级的需求,浪潮在系统设计构建集群过程中,结合数据的产出量、软件应用等特征,为水生所提供了软硬件一体化的基因应用解决方案——浪潮G1000基因一体机。
浪潮G1000基因一体机集硬件、中间件和生物信息软件于一体,针对生物基因应用定制化开发,可以解决传统高性能系统跟生物基因应用软件契合度不高、不能充分发挥集群性能、软件效率不高等问题。
浪潮G1000基因一体机架构
在硬件层,浪潮G1000基因一体机采用“瘦节点+胖节点+异构节点”结合的混合架构、Infiniband专用计算网络、以太网管理网络方案和浪潮-Intel Enterprise Lustre Edition(IEEL)并行存储系统。
其中,瘦节点主要进行比对、注释,snp查找等内存需求相对较小、计算相对密集的计算,本次根据水生所需求沿用其原有的一批刀片服务器,通过系统升级使运行速度更快;胖节点主要进行拼接等内存消耗较大的操作,采用浪潮四路服务器,配置目前X86体系中计算速度最快的Intel Xeon E7-4800V3系列处理器,搭配1TB内存,满足大型序列拼接应用需求;异构加速节点采用浪潮倚天超算服务器,配置Nvidia Tesla Kepler系列的GPU卡,在CPU独立计算的基础上极大地缩短了计算时间,满足分子动力学如Amber、Gromacs、Lammps等软件的需求。而且由于基因计算中的多数应用带宽较大,对延迟的依赖性小,浪潮G1000采用40Gb网络方案,可以大大节省用户的系统构建成本。存储系统采用存储IO节点搭配光纤磁盘阵列的方式,能够保证生物信息学数据的安全可靠,最大限度地提升存储的读写带宽,通过IEEL并行文件系统能提供完善的图形化管理界面,通过用户配额管理工具实行资源按需分配,保障水生所的多个客户端使用需求。
在中间层,浪潮G1000基因一体机可以根据用户提交的数据量和所选流程进行应用分析和判断应用特征,依据特征分配所需计算资源,提高资源使用率,同时还可以与其他科研人员分享数据分析的历史记录和构建的工作流。
在应用层,浪潮G1000基因一体机整合和预置8种常用的生物信息流程,如全基因组重测序分析流程、外显子分析流程等,流程会进行定时更新和升级。用户直接选择预定义的流程,确定参数和数据集后即可提交任务。以全基因组重测序分析为例,所涉及的BWA、Samtools、GATK和ANNOVAR等多种软件可以按照预定义的工作流程自动执行。
另外,浪潮G1000基因一体机支持远程登录和访问,用户使用和操作不受工作地点的限制。
浪潮G1000基因计算平台
水生所相关负责人介绍,与传统的解决方案相比,浪潮G1000基因一体机无论从经济性、易用性和高效的计算能力等各方面都具有较大优势,能够帮助我们快速部署和高效实施基因研究应用。
好文章,需要你的鼓励
临近年底,苹果公布了2024年App Store热门应用和游戏榜单,Temu再次成为美国下载量最多的免费应用。
云基础设施市场现在已经非常庞大,很难再有大的变化。但是,因为人们可以轻松地关闭服务器、存储和网络——就像开启它们那样,预测全球云基础设施开支可能非常困难。