测序错误
二代测序技术(next-generation sequencing, NGS)在生物医学中已得到广泛的应用,如NIPT、WES全外显子测序、基因组重测序等。但NGS技术检测的准确性在1‰左右,在检测含量在1‰及以下的突变中,无法直接应用。如肿瘤患者血液中ctDNA的突变,含量在1%以下,通常在1‰~0.1‰的水平。在此水平下,NGS技术无法区分真实突变和检测错误,因此无法直接应用。
NGS检测结果的错误,可能由样本本身的DNA损伤、样本处理引入,更多的是在文库制备过程中的PCR扩增和测序过程中引入,后两个步骤的错误率可达0.6‰和1‰,如下表所示。
工作流程 |
错误来源 | 错误率 |
样本处理 | DNA损伤,如8-oxoG | |
文库PCR扩增 |
早期掺入错误和聚合酶的偏好性 | 0.6‰ [1] |
测序 | 测序错误 | 1‰ |
1. Johanna B , Mattias M , Charlotte H , et al. PCR-Induced Transitions Are the Major Source of Error in Cleaned Ultra-Deep Pyrosequencing Data[J]. PLoS ONE, 2013, 8(7):e70388
因此需要对NGS测序技术进行升级和改造,提高其准确性,从而满足更准确的检测需求。这就是DNA测序的纠错技术。目前有两大类主流的纠错技术,UMI分子标签纠错和双链纠错。双链纠错技术性能更为强大,可以过滤所有类型的检测错误;而UMI纠错对DNA损伤和扩增早期引入的错误则无能为力。
SMP:Stranded Multiplex PCR靶向测序技术
SMP是一种基于不对称多重PCR平台、同时又拥有双链纠错能力的靶向测序技术。其核心在于创新性的引入了3标签体系。该技术在每一个DNA双链分子的一端同时添加两种标记:一个UMI标记用于区分不同DNA,两个链分子标签(strand identifiers, SID)用于区分同一DNA的正链和负链。在单侧多重引物扩增之后,同一DNA的正链和负链带有相同的UMI标记,和不同的SID标记。分析时,通过UMI确定同一来源的DNA分子,再通过SID确定其链的来源,即可区分同一DNA分子的正链序列负链序列。通过和上文双链纠错相同的原理,通过还原正负链即可过滤掉所有的假阳性变异和检测错误。
SMP作为一种带有双链纠错功能的多重PCR的靶向测序技术,继承了多重PCR的所有性能优势,同时又克服了多重PCR技术检测准确性不足的问题,总结如下:
技术优势
1、高灵敏度、高特异性:
我们使用菁良科技的质控品GW-OCTM800对技术性能进行了验证,该质控品含有37个热点突变,突变频率为0%、0.005%、0.05%和0.5%。我们使用该质控品,进一步稀释,形成突变频率为0%、0.005%、0.02%、0.05%、0.1%和0.5%的6个梯度,选择了28个位点,使用SMP技术进行了21次的重复检测。我们使用了三种不同的纠错模式,对数据进行纠错:
>> SMP为3标签结构,与其他多重PCR技术比较,除UMI标签外,多了+/-链2个标签;我们仅使用UMI标签纠错,模拟其他的多重PCR技术;
>> SMP可以设计F/R引物对同一个位点进行检测,我们在UMI纠错的基础上,利用分子间双链(Duplex)纠错;
>> 使用正负链标签进行纠错(SID)
结果如下:
1、使用UMI纠错检测到最多的变异,Duplex纠错次之,SID纠错最少;但SID与Duplex纠错差异不大。
2、UMI纠错无法过滤掉所有错误,从0%样品(理论上无突变)可以发现,UMI纠错存在大量的假阳性;
3、Duplex纠错,可以大幅降低0%样品中的假阳性(34->8),但无法消除假阳性;
4、SID分子内双链纠错,可以完全去除0%样品中的假阳性;
对上述结果进行定量分析,发现:
1、SID纠错可以使检测的位点水平的Specificity达到100%,证明了SID分子内双链纠错强悍的纠错能力;
2、SID纠错在检测低频突变时会损失一定的Sensitivity:在含量为1‰及以上的位点中,SID纠错无Sensitivity损失;在检测万分之五含量的突变时,Sensitivity由29%(Duplex)降低为26%(SID)。
使用SID纠错,对数据进行进一步分析,发现SMP的检测限低于十万分之五:在特异性100%的条件下,对1‰及以上含量的突变灵敏度达到100%,万分之二的灵敏度高达64%,对十万分之五含量的突变,灵敏度仍高达26.7%。
2、定量准确:
通过计算标准品理论AF和检出AF的相关性分析,发现所有位点在万分之二及以上含量,定量表现出极高的线性关系,摘取部分结果如下:
3、业内最高的双链比例:
SID纠错最核心的指标是分子内双链的比例。如果该比例过低,使用SID纠错,虽然特异性可以得到保证,但会极大损害检出下限和灵敏度。我们上文提到我们在SID纠错,可以保证特异性100%的前提下,十万分之五含量的突变,灵敏度仍高达26%,原因就是我们的双链比例高。我们统计了20次重复实验分子内双链支持的比例,发现稳定在40%左右,部分高达50%。其他基于杂交捕获的双链纠错技术,双链比例平均在10%左右。
4、业内最高的灵敏度和特异性:
2021年,Nature biotechnology杂志比较了目前主流的ctDNA检测技术的性能,结果显示所有产品在检测0.5%及以下含量的突变时,灵敏度开始下降,低于100%。
https://www.nature.com/articles/s41587-021-00857-z
我们对28个位点、6个不同浓度的20次测试数据进行类似分析,结果表明SMP在保证特异性100%(SID纠错)的条件下,对0.1%以上含量的突变,检出率为100%。对0.05%和0.02%含量的突变,也保持了很高的检出率(90% vs 64%)。
5、快速、灵活、简单、稳定
与基于杂交捕获的检测技术比较,SMP省去了杂交捕获的步骤,因此在应用上具有巨大的优势:
1、建库流程简单、操作难度低、易于标准化:接头连接后,仅两步扩增和两步纯化的步骤;
2、实效性好:从DNA到文库仅需要7个小时的时间;
3、灵活性高:省去了杂交捕获样本pooling和浓缩的步骤,一个样品即可进行检测;
4、成本低:引物合成成本远低于探针合成成本,无捕获成本;