日前,在德国法兰克福会展中心举行的2018国际超算大会(ISC18)上,浪潮分享了面向第三代基因测序组装软件的高性能计算系统优化方案。浪潮的FALCON优化方案使得关键步骤计算性能提升了20%左右,而浪潮并行优化的MECAT相比原单机版本获得了近10倍的性能提升,优异的性能表现引发了国际同行的极大关注。

图片1

ISC现场,浪潮AI Dr.朱红分享第三代基因测序计算优化方案

二代测序和三代测序都属于高通量测序技术,测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据处理。相较于二代测序技术,以单分子测序技术为代表的三代基因测序带来了更长的测序读长,这使得对更加复杂的物种如各种农作物和植物等的基因研究成为可能,但是相对更高的测序错误率(~15%)需要进行数据纠错,又对高性能计算带来了新的挑战。三代基因测序组装这类应用对于系统的计算性能、网络和磁盘等方案都有很高的要求。很多用户在通常的高性能计算平台来处理测序数据时,性能都不理想。

目前,由Pacbio公司开发的FALCON及中国的中山大学开发的MECAT是第三代基因测序组装领域的两款主流软件。FALCON由于把测序数据(raw data)切割成KB级别的卷来进行纠错,因而需要频繁的磁盘I/O,所以在计算过程中,磁盘I/O经常会成为系统瓶颈。浪潮专家优化FALCON软件的底层参数,优化了软件架构,降低了系统对于硬件I/O依赖,下图为处理同一测试用例时,优化前后磁盘I/O强度对比。

图片2

优化FALCON前后磁盘I/O强度对比

优化完成后,FALCON软件的核心部分性能提升了20%,而且软件的集群扩展性也有明显提升。

图片3

优化后FALCON核心部分性能提升20%

针对MECAT软件,浪潮完成了该软件从单机环境向集群环境的并行优化工作。经测试,新部署的经过浪潮并行优化的集群版本在12个节点上运行时,可以把人类全基因组组装时间从200多个小时缩短到不足24小时,相比原单节点版本获得近10倍的加速比,这表明集群版本的扩展线性度非常好。下图是MECAT组装过程中各个环节的用时对比:

图片4

MECAT组装过程各环节用时对比

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-04-21 13:49:35
国内资讯 加强算力建设 打造数字中国“高速路”
到2025年底,国家超算互联网将可形成技术先进、模式创新、服务优质、生态完善的总体布局。 <详情>
2023-04-19 09:38:41
国内资讯 科技部启动超算互联网部署,三年后你也能用上超算算力
到2025年底,国家超算互联网将成为支撑数字中国建设的“高速路”。 <详情>
2022-10-10 18:20:40
国内资讯 200P!两大超算中心给出计算性能新答案
国家超算长沙中心采用“天河”新一代超级计算机系统实现升级;武汉超算中心基本建成,是我国大的集装箱超算中心。 <详情>
2022-04-20 09:21:44
大数据资讯 浪潮李龙翔:多层数据访问优化 应对超大规模系统挑战
4月9日-13日,第十三届国际性能工程学大会(ICPE2022)在线召开。此次大会涉及AI建模及算法、算力提升、能效测量、新型计算架构、体系结构研究等多个主题。 <详情>
2020-07-06 08:54:46
国内资讯 数据中心从业者对英特尔和浪潮事件的思考!
7月3日盘前,浪潮信息在互动平台上放出消息,公司目前生产经营正常,英特尔已恢复对浪潮的供货。 <详情>