针对第三代基因测序仪硬件过失率高达15%—40%的现实,该团队研发出了一套“线性重漂后”(重大性最低)的算法,Sparc软件即基于该新算法完成。
综合测试显示:接纳测序深度仅为30x的三代基因测序数据,Sparc取得组装共识(Consensus)时过失率低于0.5%;同时与现在最优异的同类软件比,Sparc可节约盘算时间和内存达80%。这一主要突破为推进基因测序手艺迈向三代手艺的工业升级提供了又一要害软件手艺。
Sparc是马占山研究员2011年回国后该团队在基因测序领域所研发宣布的第三款主要软件。2011-2012年宣布的SparseAssembler-I和II系为第二代测序手艺所设计。2014年宣布的DBG2OLC为新兴的三代测序手艺(单分子测序)设计。此两款软件现在在各自所处的二代和三代测序手艺领域其性能仍处于国际先进水平。此次宣布的Sparc软件旨在解决三代测序超高过失率的硬件手艺难题。
事实上,三代测序的过失率在15%-40%,罢了经占领测序市场主流近10年的二代测序手艺其过失率则低于1%。正是由于这一测序过失率的重大差别,以及二代测序仪制造商的市场份额优势,使得三代测序手艺现在远未施展出其奇异的科学和手艺优势。Sparc软件能够有用填补三代测序手艺硬件超高过失率这一“硬伤”,应该能够大幅度提高三代手艺的市场竞争能力,为迎接基因测序工业升级涤讪优良的手艺基础。
另外,Sparc算法应用规模不止于基因组装手艺;事实上,基因组学中诸多涉及纠错(Error-correction)和变异检测(Variant discovery)的手艺都可受益于Sparc算法的线性重漂后优势。
基因测序手艺使得人类在本世纪初完成了对自身遗传密码蓝本的解读,其划时代意义可能不亚于阿波罗登月妄想。而测序手艺在人类基因组妄想中的职位则类似于运载火箭手艺在探月工程中所起的作用。测序手艺在经由30余年的研发后现在处于第二代与第三代交替的前夜。
Sparc团队历经五年的起劲,所研发的三款软件SparseAssembler, DBG2OLC, Sparc的性能现在均处于国际先进或领先行列。而DBG2OLC和Sparc所开发的算法解决了最新三代手艺最为重大的要害手艺难题;在测序硬件手艺泛起更新一代手艺之前,这一领域软件的生长已经逾越了硬件手艺的需求。
特殊是最新Sparc算法的“线性重漂后”意味着该问题最高效率级别的算法已经找到,未来要想取得类似DBG2OLC或SparseAssembler所取得的千倍、或数十倍盘算效率的刷新已经不太可能。
为此,Sparc相助团队已经将软件研发转向人体微生物菌群(包括肠道菌群)剖析、以及人工智能手艺(特殊是“深度神经网络学习”)。其中“菌群宏基因医学生态与网络大数据剖析系统”包括了昆明动物研究所“盘算生物与医学生态学实验室”自主研发的近20项剖析手艺,诸多手艺的专利申请正在举行中;软件系统预计2017-2018年间能够正式对外宣布。
Sparc研发获得了中科院、遗传资源与进化国家重点实验室、国家自然科学基金、以及云南省高端科技人才、外洋高条理人才、云岭工业领武士才以及立异团队等项目的支持。由于该研究属于盘算机科学、数学和生物学的交织领域,因此立异团队成员间的跨界相助自然起到了要害作用。