佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装

原标题:佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装
本文作者开发了一种可有效克服Nanopore数据错误率高的校正和组装工具 , 其核心在于两步法的递进式组装策略 , 作者将其应用于组装高完整度的视网膜母细胞瘤基因组 , 并发现了多个结构变异位点 。 原文于2021年1月在NatureCommunications上在线发表 。
Effificientassemblyofnanoporereadsviahighlyaccurateandintacterrorcorrection
通过高精度的校正方法对Nanopore数据进行高效组装

佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装
文章图片
作者:YingChen等
期刊:NatureCommunications
时间:2021.01.04
影响因子:12.121
DOI:10.1038/s41467-020-20236-7
一、文章摘要
在多种组学研究中 , 重构物种的基因组序列是最基础且重要的组学 , 现在由Pacbio和OxfordNanopore为代表的三代长读长测序技术可有效提高组装的长度和完整性 , 尤其是针对高重复区域 。 但是目前三代测序技术得到的数据错误率是显著高于二代测序的 , 尤其是Nanopore的数据 , 针对此情况众多科研工作者开发了相应的校正方法与工具 , 其中大部分方法是通过修剪高错误区域的序列来达到校正的目的 , 但会影响最终的组装完整度 。
本研究作者开发了一种可有效克服Nanopore数据错误率高的校正和组装工具 , 其核心在于两步法的递进式组装策略 。 此工具在校正和组装Nanopore数据方面有卓越的性能 , 组装的人类基因组NG50达到22Mb , 并且可显著减少结构变异检测的假阳性 。
二、主要内容
1.递进式校正Nanopore数据
佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装】Nanopore的测序序列的错误区域是广泛分布的 , 同时存在高错误区域和低错误区域(图1.A) 。 首先用筛选得到的高准确度的序列去校正低错误区域(图1.B) , 然后用得到的校正后的序列去校正高错误区域(图1.C) , 最终得到高精度序列 。 随后将校正后的高精度序列进行组装(图1.D) , 并使用原始数据辅助拼接(图1.E) , 得到最终的组装结果(图1.F) 。 在以上过程中使用原始数据辅助组装可解决因校正导致组装效果差的情况 , 使组装结果得到优化 , 作者将以上工具开成NECAT软件 , 目前是开放给国内外的其他科研工作者使用 。 但是即使Nanopore的数据经过两步校正后的错误率(1.5%-9%)依然高于Pacbio的错误率(<1%) 。

佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装
文章图片
图1.两步递进式校正和组装思路示意图
2.NECAT的校正和组装性能评估
作者一共使用了9个Nanopore数据集来评估NECAT的校正性能 , 并与常用的校正软件Canu进行比较 。 分析结果表明针对其中7个数据集 , NECAT的校正速度比Canu快2.1-16.5倍 , 在NECAT的第一步校正后9个数据集的错误率为3.08%-11.35% , 均低于Canu校正后的错误率 , 而在CECAT的第二步校正后9个数据集的错误率降至1.53%-9.01%(表1) 。
表1.Nanopore数据校正性能比较

佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装
文章图片
作者针对已经校正好的数据使用NECAT以及目前广泛使用的Canu、Canu+S和Flye等组装软件进行性能比较 。 组装分析结果发现NECAT比Canu快6.3-577.5倍 , 比Canu+S快2.5-57倍 。 NECAT在其中5个数据集的组装速度比Flye快1.1-1.8倍 , 而针对大肠杆菌的数据NECAT的组装速度是Flye的224.8倍 。 而部分数据集的组装结果表示 , NECAT和Flye组装得到的NG50远高于Canu , 针对复杂基因组NECAT能获得更好的组装结果 。
3.视网膜细胞瘤(WERI)的基因组组装
为了进一步评估NECAT在大型基因组的组装性能 , 作者对WERI细胞系进行了测序 , 在Nanopore平台共得到210Gb的数据量 , NECAT的组装结果的N50是28Mb , 是目前已知的基于Nanopore数据组装的人类基因组的最佳结果 。 使用MUMmer将组装结果和人类基因组hg38进行比较并绘制点阵图 , 显示一致性非常高(图2) , 并检测到大量高精度的结构变异(SV) , 而这些SV分布在2843个功能基因中 , 其中有209个与视网膜细胞瘤相关 。

佳作推荐|通过高精度的校正方法对Nanopore数据进行高效组装
文章图片
图2.WERI基因组的染色体图谱
三、总结
在本文中 , 作者开发的两步法递进式的校正和组装软件(NECAT)可有效地解决Nanopore测序数据错误率高的问题 , 并且可得到完整度更高的基因组 , 有利于后续基因变异查找等工作 。
您可能还喜欢: