《深圳商报》:深圳先进技术研究院开发出一套基因分析软件 基因大数据,有了它可快速解读
一个人的全基因测序数据量有多大?答案是约300G。
“一个人有46条染色体,全部读取存储下来约3G。而在实际测序中通常需要复制50-100份,这样一来,一个人的数据量可达300G。”近日在接受记者采访时,深圳先进技术研究院魏彦杰博士称。
面对海量基因数据,传统电脑的分析工具已经远远无法满足高效分析的需求。如何破题?魏彦杰博士团队与华大基因及美国阿贡国家实验室合作,借助超级计算机,开发了一套快速分析基因大数据的软件算法,并将数据结果用于探寻自闭症等复杂疾病的病因。
把剪碎的基因片段拼起来
近年来,随着基因测序技术的快速发展,全球范围内产生了海量的基因数据。据悉,仅华大基因目前的基因数据总量就达到约50PB。假设一部1080P高清电影约20G,那么华大基因的数据量大约相当于262万部高清电影。如此庞大的规模,意味着不菲的分析费用。魏彦杰团队研发的软件系统借助超级计算机,实现了快速基因组组装。
什么是基因组组装?这要从第二代基因测序原理说起。据魏彦杰介绍,在第二代基因测序中,46条染色体在实验过程中被剪成很小的基因片段。
“正常的基因长度含几千甚至上万个碱基,而在测序中被剪成了约100个碱基的长度。”魏彦杰说,“就像给你一本剪碎的百科全书,拿到任何一个碎片都读不出它的全貌。而第二代基因测序给出的就是这样一堆碎片,现在要用计算机的方法将它的每页每章节恢复出来。”
据介绍,基于超级计算机Mira,魏彦杰团队研发的软件系统可在10分钟内处理4T的基因数据,数据量相当于204部高清电影。作为开源系统,这一系统可以在所有超算上运行。自2014年上线以来,下载量达600多次,已被阿贡国家实验室、俄亥俄州立大学等机构广泛使用。
强大的超算需要优质的软件
在对基因大数据的快速分析处理中,超级计算机扮演了重要角色。据魏彦杰介绍,由于数据量巨大,只有利用超算的分布式内存,通过联合使用的方式才能完成大数据的导入和计算。
也就是说,一台计算机无法完成的工作,现在通过多台计算机合作可以完成。如何提高计算机间的通讯效率,使每台计算机发挥最强计算能力,则需要通过算法设计来实现。
“现在我们有了E级超算,但怎么用是关键。这么多资源,这么大的机器,需要运行更高效的软件。”魏彦杰说,中国的超算硬件已经处于世界前沿,但软件相对滞后,尤其是众多超算的商业软件仍由国外主导,我国需要更多优质软件,以更好发挥超算的作用。
完成基因测序后,将测序结果用于复杂疾病的机理研究是主要应用方向之一。据介绍,复杂疾病不由单一基因决定,而受到多基因遗传和环境等复杂因素的影响,因此需要借助多种数据来研究复杂疾病病因。自闭症,就是其中一种。
魏彦杰介绍,自闭症是一种由多个基因决定的复杂性遗传疾病,如果能通过基因检测等手段,对自闭症患儿进行早期筛查,就能尽早进行康复训练。为此,魏彦杰团队与深圳市儿童医院等机构合作,从基因角度做分析。
《深圳商报》2018年10月18日报道http://szsb.sznews.com/PC/layout/201810/18/node_A05.html#content_484363